在我们相识Flume和Sqoop之前,让我们研究数据加载到Hadoop的问题:
利用Hadoop阐明处理惩罚数据,需要装载大量从差异来历的数据到Hadoop集群。
从差异来历大容量的数据加载到Hadoop,然后这个进程处理惩罚它,这具有必然的挑战。
维护和确保数据的一致性,并确保资源的有效操作,选择正确的要领举办数据加载前有一些因素是要思量的。
主要问题:
1. 利用剧本加载数据
传统的利用剧本加载数据的要领,不适合于大容量数据加载到 Hadoop;这种要领效率低且很是耗时。
2. 通过 Map-Reduce 应用措施直接会见外部数据
提供了直接会见驻留在外部系统中的数据(不加载到Hadopp)到map reduce,这些应用措施巨大性。所以,这种要领是不行行的。
3.除了具有复杂的数据的事情本领,Hadoop可以在几种差异形式的数据上事情。这样,装载此类异构数据到Hadoop,差异的东西已经被开拓。Sqoop和Flume 就是这样的数据加载东西。
SQOOP先容
Apache Sqoop(SQL到Hadoop)被设计为支持批量从布局化数据存储导入数据到HDFS,如干系数据库,企业级数据客栈和NoSQL系统。Sqoop是基于一个毗连器体系布局,它支持插件来提供毗连到新的外部系统。
一个Sqoop 利用的例子是,一个企业运行在夜间利用 Sqoop 导入当天的出产负荷生意业务的RDBMS 数据到 Hive 数据客栈作进一步阐明。
Sqoop 毗连器
现有数据库打点系统的设计充实思量了SQL尺度。可是,每个差异的 DBMS 方言化到某种水平。因此,这种差别带来的挑战,当涉及到整个系统的数据传输。Sqoop毗连器就是用来办理这些挑战的组件。
Sqoop和外部存储系统之间的数据传输在 Sqoop 毗连器的辅佐下使得有大概。
Sqoop 毗连器与各类风行的干系型数据库,包罗:MySQL, PostgreSQL, Oracle, SQL Server 和 DB2 事情。每个这些毗连器知道如何与它的相关联的数据库打点系统举办交互。 尚有用于毗连到支持Java JDBC协议的任何数据库的通用JDBC毗连器。 另外,Sqoop提供优化MySQL和PostgreSQL毗连器利用数据库特定的API,以有效地执行批量传输。
除了这一点,Sqoop具有各类第三方毗连器用于数据存储,
从企业数据客栈(包罗Netezza公司,Teradata和甲骨文)到 NoSQL存储(如Couchbase)。可是,这些毗连器没有配备Sqoop束; 这些需要单独下载并很容易地安装添加到现有的Sqoop。
FLUME 先容
Apache Flume 用于移动大局限批量流数据到 HDFS 系统。从Web处事器收集当前日志文件数据到HDFS聚积用于阐明,一个常见的用例是Flume。
Flume 支持多种来历,如:
“tail”(从当地文件,该文件的管道数据和通过Flume写入 HDFS,雷同于Unix呼吁“tail”)
系统日志
Apache log4j (答允Java应用措施通过Flume事件写入到HDFS文件)。
在 Flume 的数据流
Flume署理是JVM历程,内里有3个构成部门 – Flume Source, Flume Channel 和 Flume Sink -通过该事件流传提倡在外部源之后。
-
在上面的图中,由外部源(Web处事器)生成的事件是由Flume数据源耗损。 外部源将事件以方针源识此外名目发送给 Flume 源。
-
Flume 源吸收到一个事件,并将其存储到一个或多个信道。信道充当存储事件,直到它由 flume耗损。此信道大概利用当地文件系统以便存储这些事件。
-
Flume 将删除信道,并存储事件到如HDFS外部存储库。大概会有多个 flume 署理,在这种环境下,flume将事件转发到下一个flume署理。
FLUME 一些重要特性
Flume 基于流媒体数据流机动的设计。这是容错和强大的多妨碍切换和规复机制。 Flume 有差异水平的靠得住性,提供包罗“极力传输'和'端至端输送'。极力而为的传输不会容忍任何 Flume 节点妨碍,而“终端到终端的通报”模式,担保通报在多个节点呈现妨碍的环境。
Flume 承载源和吸收之间的数据。这种数据收集可以被预定或是事件驱动。Flume有它本身的查询处理惩罚引擎,这使得在转化每批新数据移动之前它可以或许到预定吸收器。
大概 Flume 包罗HDFS和HBase。Flume 也可以用来输送事件数据,包罗但不限于网络的业务数据,也可以是通过社交媒体网站和电子邮件动静所发生的数据。
自2012年7月Flume 宣布了新版本 Flume NG(新一代),因为它和本来的版本有明明的差异,因为被称为 Flume OG (原代)。