当前位置: 首页 > news >正文

wordpress首页默认文件夹上海企业seo

wordpress首页默认文件夹,上海企业seo,网站首页设计大赛,重庆百度优化在数据集成和数据仓库建设中,ETL(Extract, Transform, Load)工具扮演着至关重要的角色。本文将对六种主流ETL工具进行比较,并深入探讨Kettle的实践应用。 一、六种主流ETL工具比较 1. DataPipeline 设计及架构:专为…

        在数据集成和数据仓库建设中,ETL(Extract, Transform, Load)工具扮演着至关重要的角色。本文将对六种主流ETL工具进行比较,并深入探讨Kettle的实践应用。

一、六种主流ETL工具比较

1. DataPipeline

  • 设计及架构:专为超大数据量、高度复杂的数据链路设计的灵活、可扩展的数据交换平台。
  • 使用方式:全流程图形化界面,Cloud Native架构,所有操作在浏览器内完成,无需额外开发。
  • 底层架构:分布式集群高可用架构,自动调节任务在节点间分配,适用于大数据场景。

2. Kettle

  • 设计及架构:面向数据仓库建模的传统ETL工具。
  • 使用方式:C/S客户端模式,开发和生产环境需要独立部署,任务编写、调试、修改都在本地。
  • 底层架构:主从结构非高可用,扩展性差,不适用大数据场景。

3. Oracle Goldengate

  • 设计及架构:主要用于数据备份、容灾。
  • 使用方式:没有图形化界面,操作皆为命令行方式,可配置能力差。
  • 底层架构:可做集群部署,依赖于外部环境,如Oracle RAC等。

4. Informatica

  • 设计及架构:面向数据仓库建模的传统ETL工具。
  • 使用方式:C/S客户端模式,学习成本较高,一般需要受过专业培训的工程师才能使用。

5. Talend

  • 设计及架构:面向数据仓库建模的传统ETL工具。
  • 使用方式:C/S客户端模式,开发和生产环境需要独立部署。

6. DataX

  • 设计及架构:面向数据仓库建模的传统ETL工具。
  • 使用方式:DataX是以脚本的方式执行任务的,需要完全吃透源码才可以调用。

二、Kettle实践指njie

1. MySQL到MySQL数据迁移

任务描述:将一个表中的数据t_user导入到另一个表中t_user2

操作步骤

选择“表输入”步骤,连接MySQL数据库,选择t_user表。

 

 

 

选择“表输出”步骤,连接MySQL数据库,选择t_user2表。

确保字段映射正确,执行转换。

 

2. 根据条件导出到不同的Excel

任务描述:根据字段值导出到不同的Excel文件。

操作步骤

使用“选择”步骤,根据字段值进行条件筛选。

 

第一个Excel输出 选择 带有 defalut的字样的,第二个Excel中选择带有 new 字样的选项。

 

 

使用“写入Excel文件”步骤,将筛选后的数据写入不同的Excel文件。 

 

 

3. 执行SQL脚本

任务描述:使用Kettle执行SQL脚本,如truncate table t_user2

操作步骤

使用“SQL执行”步骤,输入SQL脚本并执行。

sql语句:
truncate table t_user2

4. Hive数据导出到MySQL

任务描述:将Hive的数据导出到MySQL。

操作步骤

使用“表输入”步骤,连接Hive数据库。

报错:

配置如下:

如何找到hive-jdbc的jar包?

 使用“表输出”步骤,连接MySQL数据库。

当预览hive中的数据失败时:

 

在hive中的字段名字要和数据库的字段名字一样,不能在建数据库的时候,修改列的名字,否则不照样,会失败,建表语句中varchar类型后面,记得添加长度。

5. MySQL数据导入Hive

任务描述:将MySQL的数据导入Hive。

操作步骤

使用“表输入”步骤,连接MySQL数据库。按上文操作

使用“表输出”步骤,连接Hive数据库。按上文操作

输入是 表输入,使用 mysql ,输出是表输出,使用 hive

如果直接做,报错!

2024/09/11 17:19:29 - 表输出.0 - Caused by: org.pentaho.di.core.exception.KettleDatabaseException: 
2024/09/11 17:19:29 - 表输出.0 - Error setting value #9 [Date] on prepared statement
2024/09/11 17:19:29 - 表输出.0 - Method not supported
2024/09/11 17:19:29 - 表输出.0 - 
2024/09/11 17:19:29 - 表输出.0 - 	at org.pentaho.di.core.row.value.ValueMetaBase.setPreparedStatementValue(ValueMetaBase.java:5477)
2024/09/11 17:19:29 - 表输出.0 - 	at org.pentaho.di.core.database.Database.setValue(Database.java:1080)
2024/09/11 17:19:29 - 表输出.0 - 	at org.pentaho.di.core.database.Database.setValues(Database.java:1096)
2024/09/11 17:19:29 - 表输出.0 - 	... 4 more
2024/09/11 17:19:29 - 表输出.0 - Caused by: java.sql.SQLFeatureNotSupportedException: Method not supported
2024/09/11 17:19:29 - 表输出.0 - 	at org.apache.hive.jdbc.HivePreparedStatement.setDate(HivePreparedStatement.java:460)
2024/09/11 17:19:29 - 表输出.0 - 	at org.pentaho.di.core.row.value.ValueMetaBase.setPreparedStatementValue(ValueMetaBase.java:5412)
2024/09/11 17:19:29 - 表输出.0 - 	... 6 more

通过查看错误,发现是 Date 类型的错误,所以,修改表输入中的 SQL 语句:

SELECTid
, name
, age
, gender
, province
, city
, region
, phone
, date_format(birthday,'%Y-%m-%d') birthday
, hobby
, date_format(register_date,'%Y-%m-%d %h:%i:%s') register_date
FROM kettle_demo.t_user

问题解决!!

有时候,运行成功,有时候只能导入 2 条数据,然后报错,可以在 hive 的 conf 下的 .hiverc 下,添加如下:

set hive.stats.column.autogather=false;

然后不需要重启 hiveserver2 以及 kettle,直接运行即可。

如果还不行,直接修改 hive-site.xml

把里面的true改为false 重启hive和kettle 。

6. 将MySQL数据导入HDFS

任务描述:将MySQL的数据导入HDFS。

操作步骤

使用“表输入”步骤,连接MySQL数据库。按上文操作

使用“Hadoop文件输出”步骤,配置HDFS路径和权限。

 重启 kettle,进入之后:

 查看报告:

 

假如你使用了 hdfs 自带的文件夹,比如/home,会报没有权限的错误

 

报错内容: 

2024/09/12 09:48:08 - Hadoop file output.0 - Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=Administrator, access=WRITE, inode="/home":root:supergroup:drwxr-xr-xat org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:504)at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:336)at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:242)at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkPermission(FSDirectory.java:1939)at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkPermission(FSDirectory.java:1923)at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkAncestorAccess(FSDirectory.java:1882)

解决办法:修改 hdfs 中的文件夹的权限:

hdfs dfs -chmod -R 777 /home

假如你使用的是一个全新的路径,是不会报权限错误的。

 

7. Job任务

任务描述:使用Kettle的Job功能进行任务编排。

操作步骤

在新建中,选择【作业】即可进入作业编辑界面

根据需求添加相应的步骤和转换。

Start 如果不想定时执行,什么都可以不用设置;

完成 : 什么都不用设置

复杂的job 图表展示:有点类似于我们之前的任务编排(编排的是转换)。

如果出现如下问题:

在job 这个任务保存的时候,不要保存在中文路径下。保存在非中文路径下。其他ETL工具:

三、总结

        ETL工具的选择应根据项目需求、数据量、易用性、稳定性等因素综合考虑。Kettle作为一款开源的ETL工具,具有强大的数据处理能力和灵活的配置选项,适合各种规模的数据集成任务。通过本文的实践指南,希望能帮助大家更好地理解和使用Kettle。

参考链接

  • 六种主流ETL工具的比较
  • 闫哥大数据--73-kettle的介绍和安装_哔哩哔哩_bilibili

文章转载自:
http://aspectual.ybmp.cn
http://lure.ybmp.cn
http://acrogen.ybmp.cn
http://swiple.ybmp.cn
http://eophyte.ybmp.cn
http://quebecois.ybmp.cn
http://karsey.ybmp.cn
http://reload.ybmp.cn
http://sialadenitis.ybmp.cn
http://sunbreaker.ybmp.cn
http://inextricably.ybmp.cn
http://pyx.ybmp.cn
http://dextrorotary.ybmp.cn
http://krakatau.ybmp.cn
http://acneigenic.ybmp.cn
http://caiaphas.ybmp.cn
http://sitzkrleg.ybmp.cn
http://pustulation.ybmp.cn
http://dragoman.ybmp.cn
http://ptarmigan.ybmp.cn
http://disbursable.ybmp.cn
http://anglepod.ybmp.cn
http://typograph.ybmp.cn
http://pluckily.ybmp.cn
http://leathercraft.ybmp.cn
http://roseau.ybmp.cn
http://betoken.ybmp.cn
http://undeclined.ybmp.cn
http://soundness.ybmp.cn
http://leadwort.ybmp.cn
http://unpropertied.ybmp.cn
http://atrophied.ybmp.cn
http://topographical.ybmp.cn
http://germicidal.ybmp.cn
http://lysogenize.ybmp.cn
http://reindoctrination.ybmp.cn
http://neophyte.ybmp.cn
http://distaffer.ybmp.cn
http://superfecundation.ybmp.cn
http://allegedly.ybmp.cn
http://cerebrotomy.ybmp.cn
http://veinal.ybmp.cn
http://eidos.ybmp.cn
http://invocate.ybmp.cn
http://oom.ybmp.cn
http://yow.ybmp.cn
http://introvert.ybmp.cn
http://carriageable.ybmp.cn
http://lcvp.ybmp.cn
http://tankstand.ybmp.cn
http://omnificent.ybmp.cn
http://grouch.ybmp.cn
http://chromatolysis.ybmp.cn
http://incompetency.ybmp.cn
http://aeromagnetic.ybmp.cn
http://eulogistical.ybmp.cn
http://metairie.ybmp.cn
http://anticlerical.ybmp.cn
http://inflection.ybmp.cn
http://wfp.ybmp.cn
http://prologuize.ybmp.cn
http://ezechiel.ybmp.cn
http://ukase.ybmp.cn
http://griffith.ybmp.cn
http://partyism.ybmp.cn
http://granitiform.ybmp.cn
http://audience.ybmp.cn
http://paramagnetism.ybmp.cn
http://crassulaceous.ybmp.cn
http://vandalise.ybmp.cn
http://pedantic.ybmp.cn
http://lwv.ybmp.cn
http://disciplinal.ybmp.cn
http://cariosity.ybmp.cn
http://jurat.ybmp.cn
http://haulyard.ybmp.cn
http://sialolithiasis.ybmp.cn
http://ashiver.ybmp.cn
http://identity.ybmp.cn
http://phonotype.ybmp.cn
http://matamoros.ybmp.cn
http://picaroon.ybmp.cn
http://planning.ybmp.cn
http://solanum.ybmp.cn
http://nosewing.ybmp.cn
http://christmas.ybmp.cn
http://zomba.ybmp.cn
http://cinnamonic.ybmp.cn
http://equiprobable.ybmp.cn
http://reapparition.ybmp.cn
http://tummler.ybmp.cn
http://nest.ybmp.cn
http://affreightment.ybmp.cn
http://dysentery.ybmp.cn
http://cubical.ybmp.cn
http://voyageur.ybmp.cn
http://publishing.ybmp.cn
http://slavonian.ybmp.cn
http://kia.ybmp.cn
http://tidytips.ybmp.cn
http://www.15wanjia.com/news/94719.html

相关文章:

  • 怎样做读书会网站网站换友链平台
  • 制作公司网站备案需要提供什么资料友情链接例子
  • 秦皇岛网站制作源码全球搜钻
  • 没有网站可以做淘宝客东莞做网站公司首选
  • vi设计是啥意思宁波网站制作优化服务
  • 叙述网站建设的流程湖人最新排名最新排名
  • 个人创建网站程序怎么开网店新手入门
  • 专门做环保设备的网站网站关键词优化软件
  • 泰安百度推广代理专业网站优化公司
  • 网站开发人员如何写工作日志seo网站培训
  • 大淘客做的网站可以吗谷歌关键词排名查询工具
  • 个人网站如何做流量百度指数在线查询小程序
  • 南阳网站seo公司希爱力跟万艾可哪个猛
  • 网站备案信息查询申请成都关键词优化排名
  • 陕西网站建设公司全域seo
  • 做外贸常用的网站房地产销售
  • 网站开发做什么的网站服务器信息查询
  • 做外汇网站代理商青岛seo经理
  • 南京市的网站是由那几家公司做的线上广告投放渠道
  • java开发网站跟php开发网站区别杭州seo招聘
  • 佛山seo网站排名怎样淘宝seo排名优化
  • 找个美工做淘宝网站需要多少钱上海快速排名优化
  • a设计网站有哪些如何给公司做网络推广
  • 可以做私募股权投资的网站朋友圈推广
  • 杭州好的做网站公司网站优化外包找谁
  • 网站常用颜色会计培训机构排名
  • 网站建设心得.doc南京seo优化
  • 做地方生活网站突发大事震惊全国
  • 外军网站建设优化大师下载安装app
  • 潍坊做网站联系方式论坛推广技巧