Hadoop的三大核心组件:

hdfs、yarn、MapReduce

Hadoop核心组件包括:

基础组件:hdfs、yarn、MapReduce
常用组件:hive、hbase、streaming、zookeeper

Hdfs

分布式海量数据存储功能

yarn

提供任务调度和资源管理功能
资源管理:协调平衡集群中的计算节点,合理分配
任务调度:一个作业对应多个任务,负责任务调度,状态监控,容错管理等。

MapReduce

分布式编程模型和计算框架,解决分布式门槛高的问题,基于其框架对分布式计算的抽象map和reduce,可以实现分布式计算程序。

hive

提供数据摘要和数据仓库,解决数据仓库构建问题,基于Hadoop平台的存储和计算,与传统SQL相结合,让熟悉SQL的编程人员轻松向Hadoop平台迁移。

streaming

解决非java开发人员使用Hadoop平台的语言问题,使各种语言如C++,python,shell等均可以无障碍使用Hadoop平台。

hbase

基于列式存储模型的分布式数据库,解决某些场景下,需要Hadoop平台数据及时响应的问题。

zookeeper

分布式协同服务,主要解决分布式下数据管理问题,统一平台,状态同步,集群管理,配置同步。

Logo

权威|前沿|技术|干货|国内首个API全生命周期开发者社区

更多推荐