上海涛德顾问学院

上海涛德顾问学院 门户 查看主题

什么是Hadoop

发布者: 涛德教育 | 发布时间: 2014-4-28 22:08| 查看数: 5285| 评论数: 0|帖子模式

Hadoop 是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算.

Hadoop一般用于运行应用程序在大型集群的廉价硬件设备上。为应用程序透明的提供了一组稳定/可靠的接口和数据储存。在Hadoop中实现了Google的MapReduce算法,它能够把应用程序分割成许多很小的工作单元,每个单元可以在任何集群节点上执行或重复执行。此外,Hadoop还提供一个分布式文件系统HDFS用来在各个计算节点上存储数据,并提供了对数据读写的高吞吐率。由于应用了map/reduce和分布式文件系统使得Hadoop框架具有高容错性,它会自动处理失败节点。


Hadoop核心是:

1 HDFS:提供了大数据的存储

2 MapReduce.提供了对数据的计算。


Hadoop架构图

Hadoop架构图

Hadoop的集群结构体系主要由 以下对象构成。

1 NameNode:记录元数据信息。例如:文件是如何被拆分成block以及这些block都存储到了那些DateNode节点.

2 DataNode 记录数据。.

3 Secondary NameNode 辅助NameNode收集文件系统运行的状态信息。充当NameNode冗余。

4 JobTracker 负责调度为与多个TaskTracker完成计算.

4 TaskTracker负责某一个map或者reduce任务.


最新评论

上海涛德顾问学院 ( 沪ICP备14006824号 )  

GMT+8, 2018-6-18 16:00 , Processed in 0.274449 second(s), 28 queries , Gzip On.

Top Data World

回顶部