OOZIE 是什么鬼?
Apache Oozie是事情流调治用在Hadoop中。它是一个运行相关的功课事情流系统。这里,用户被答允建设向非轮回图事情流程,其可以在并列 Hadoop 并顺序地运行。
它由两部门构成:
事情流引擎:一个事情流引擎的职责是存储和运行事情流程,由 Hadoop 功课构成:MapReduce, Pig, Hive.
协调器引擎:它运行基于预界说的时间表和数据的可用性事情流程功课。
Oozie可扩展性和可打点实时执行成千上万的事情流程(每个由几十个功课)的Hadoop集群。
Oozie 也很是机动。人们可以很容易启动,遏制,暂停和从头运行功课。Oozie 可以很容易地从头运行失败的事情流。可以很容易重做因宕机或妨碍错过或失败的功课。甚至有大概跳过一个特定妨碍节点。
Oozie 如何事情?
Oozie 运行作为集群处事,客户端提交的事情流界说:当即或今后处理惩罚。
Oozie 事情流由行动节点和节制流的节点构成。
一个操纵节点代表一个事情流任务,譬喻,移动文件到HDFS,运行 MapReduce,Pig 或 Hive 功课,利用 Sqoop 导入数据或 运行Java 编写措施的 shell 剧本。
一个节制流节点通过答允像条件逻辑布局,差异的分支可以按照较早行动节点的功效,随后执行行动事情流程。
开始节点,终端节点和错误节点属于这一类节点。
开始节点, 指定的事情流程功课的开始。
竣事节点, 功课的竣事信号。
错误节点, 指定要打印错误和相应的错误信息的产生。
在执行事情流的竣事, HTTP 回挪用于通过 Oozie 更新客户端与事情流状态。入门或出口,从行动节点还大概会触发回调。
事情流程图示例
为什么要利用 Oozie ?
利用Oozie的主要目标是为了打点差异范例的功课在Hadoop系统中处理惩罚。
功课之间的依赖干系是由用户向无环图的形式指定。Oozie 的消费信息以及在事情流中指定认真其执行的顺序正确。这样,用户同时打点生存整个事情流程。另外 Oozie 有指定执行特定事情频率划定。
Oozie的特点
Oozie 有划定功课完成后可发送电子邮件通知