
将数据从Kettle导入到Hive2
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本教程详细介绍如何使用Kettle(也称为Pentaho Data Integration, PDI)工具将数据高效地迁移和加载至Apache Hive 2中,适用于需要进行大数据分析与处理的技术人员。
前言
原本计划将数据导入Hive,但发现速度极慢,一小时内仅能导入200条记录。尽管尝试优化Kettle配置,效果并不明显。因此决定采用Hadoop File Output方式直接输出到HDFS,然后再加载至Hive表中。
正文
1. 在转换里添加“Big Data/Hadoop File Output”组件。
2. 新建一个Hadoop集群连接,并从该集群下载core-site.xml、hdfs-site.xml、yarn-site.xml和mapred-site.xml配置文件。
3. 使用上述下载的配置文件覆盖Kettle中plugins\pentaho-big-data-plugin\hadoop-configurations目录下的相应文件。
全部评论 (0)
还没有任何评论哟~


