Hadoop是利用Java编写,答允漫衍在集群,利用简朴的编程模子的计较机大型数据集处理惩罚的Apache的开源框架。 Hadoop框架应用工程提供跨计较机集群的漫衍式存储和计较的情况。 Hadoop是专为从单一处事器到上千台呆板扩展,每个呆板都可以提供当地计较和存储。
Hadoop的架构
在其焦点,Hadoop主要有两个条理,即:
MapReduce
MapReduce是一种并行编程模子,用于编写普通硬件的设计,谷歌对大量数据的高效处理惩罚(多TB数据集)的漫衍式应用在大型集群(数千个节点)以及靠得住的容错方法。 MapReduce措施可在Apache的开源框架Hadoop上运行。
Hadoop漫衍式文件系统
Hadoop漫衍式文件系统(HDFS)是基于谷歌文件系统(GFS),并提供了一个设计在普通硬件上运行的漫衍式文件系统。它与现有的漫衍式文件系统有很多相似之处。来自其他漫衍式文件系统的不同是显著。它高度容错并设计成陈设在低本钱的硬件。提供了高吞吐量的应用数据会见,而且合用于具有大数据集的应用措施。
除了上面提到的两个焦点组件,Hadoop的框架还包罗以下两个模块:
Hadoop通用:这是Java库和其他Hadoop组件所需的实用东西。
Hadoop YARN :这是功课调治和集群资源打点的框架。
Hadoop如何事情?
成立重设置,处理惩罚大局限处理惩罚处事器这是相当昂贵的,可是作为替代,可以接洽很多普通电脑回收单CPU在一起,作为一个单一成果的漫衍式系统,实际上,集群机可以平行读取数据集,并提供一个高得多的吞吐量。另外,这样自制不到一个高端处事器价值。因此利用Hadoop超过集群和低本钱的呆板上运行是一个不错不选择。
Hadoop运行整个计较机集群代码。这个进程包罗以下焦点任务由 Hadoop 执行:
Hadoop的优势
Hadoop框架答允用户快速地编写和测试的漫衍式系统。有效并在整个呆板和反过来自动分派数据和事情,操作CPU内核的根基平行度。
Hadoop不依赖于硬件,以提供容错和高可用性(FTHA),而Hadoop库自己已被设计在应用层可以检测和处理惩罚妨碍。
处事器可以添加或从集群动态删除,Hadoop可继承不间断地运行。
Hadoop的的另一大优势在于,除了是开源的,因为它是基于Java并兼容所有的平台。