当前位置:天才代写 > tutorial > 大数据教程 > Kette介绍及简单入门教程

Kette介绍及简单入门教程

2018-05-16 08:00 星期三 所属: 大数据教程 浏览:540

  ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少,这里我介绍一的ETL工具Kettle。这个工具真的很强大,支持图形化的GUI设计界面,然后可以以工作流的形式流转,在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有着比较稳定的表现,其中最主要的我们通过熟练的应用它,减少了非常多的研发工作量,提高了我们的工作效率。
  kettle是一个ETL(Extract, Transform and Load抽取、转换、载入)工具,ETL工具在数据仓库项目使用非常频繁,kettle也可以应用在以下一些场景:
  在不同应用或数据库之间整合数据
  把数据库中的数据导出到文本文件
  大批量数据装载入数据库
  数据清洗
  集成应用相关项目是个使用
  kettle使用非常简单,通过图形界面设计实现做什么业务,无需写代码去实现,因此,kettle是以面向元数据来设计;
  kettle支持很多种输入和输出格式,包括文本文件,数据表,以及商业和免费的数据库引擎。另外,kettle强大的转换功能让您非常方便操纵数据。
  1、安装kettle
  首先通过官网下载kettle(在本文中使用的kettle版本为6.1.0.1-196);
  需求环境:
  kettle需要jre1.5及以上版本,可以通过Oracle官网免费下载;
  kettle安装
  kettle无需安装,直接解压zip文件到指定的文件夹。在类Unix操作系统上,需要执行以下脚本:
  cd Kettle
  chmod +x *.sh
  运行
  kettle中的一个图形用户界面叫spoon,spoon可以设计转换和作业,也可以运行转换和作业,下面的内容将继续介绍他们。
  kettle设计工具spoon介绍
  Spoon是一个图形设计工具,用来设计和测试数据交换处理流程,也可以通过命令行(终端)执行处理流程。
  资源库和文件
  在spoon中设计作业和转换,kettle提供两种方式存储:资源库和文件;
  如果你选择资源库,spoon第一次启动时需要创建资源库;选择文件方法,作业保存文件是的扩展名是KJB,转换文件的扩展名为KTR,为了简化学习,下面教程采用后者。
  2、打开kettle。
  首先解压下载下来的压缩包如:pdi-ce-6.1.0.1-196.zip
  然后打开Spoon.bat,如图所示:
  Kette介绍及简单入门教程_数据库_Linux_Unix_界面设计_课课家教育
  打开后请耐心等待一会儿时间。
  3、建立转换。
  在文件->新建装换。
  新建转换后在左边的主对象树中建立DB连接用以连接数据库。如图所示:
  数据库_Linux_Oracle
  建立数据库连接的过程与其他数据库管理软件连接数据库类似。
  注意:在数据库链接的过程中,可能会报某个数据库连接找不到的异常。那是因为你没有对应的数据库链接驱动,请下载对应驱动后,放入kettle的lib文件夹。
  4、简单的数据表插入\\更新
  (1)新建表插入
  在左边的面板中选择“核心对象”,在核心对象里面选择“输入->表输入”,用鼠标拖动到右边面板。如图所示:
  服务器_管理软件_界面设计
  双击拖过来的表,可以编辑表输入。
  选择数据库连接和编辑sql语句,在这一步可以点击预览,查看自己是否连接正确。
  SQL_数据库_SQL语句
  (2)通过插入\\更新输出到表。
  在左边面板中选择核心对象、选择“输出->插入\\更新”如图所示:
  数据库_SQL语句_Oracle
  编辑插入更新:
  首先:表输入连接插入更新。
  选中表输入,按住shift键,拖向插入更新。
  数据库_SQL_Oracle数据库
  然后:双击插入更新,编辑它。
  Oracle数据库_mysql_数据库
  到这里基本上,这个转换就要做完了,可以点击运行查看效果,看是否有误,这个要先保存了才能运行,可以随意保存到任何一个地方。
  5、使用作业控制上面装换执行。
  使用作业可以定时或周期性的执行转换,新建一个作业。并从左边面板拖入start 和转换。
  Linux_数据库_Unix
  双击start可以编辑,可以设置执行时间等等
  数据库_管理软件_Oracle
  点开装换,可以设置需要执行的转换任务,比如可以执行上面我们做的转换,XXX.ktr
  Oracle数据库_mysql_数据库
  最后点击运行即可。
  到这里,一个简单的通过作业调度的kettle就算做完了。
  附录:测试数据表
  数据库_mysql_SQL语句
  不知你在学习Kettel中有什么心得感想,欢迎与我们一起分享。今天的分享就到这里,如果您喜欢我们的分享,欢迎登陆课课家阅读更多相关内容。

 

    关键字:

天才代写-代写联系方式