Hadoop分布式文件系统HDFS是Hadoop数据存储管理的基础，是一个分布式文件系统，容错性高，高吞吐率，有效的收集海量数据，将大数据文件切成小数据块，再写入不同节点，这些节点被称为数据节点（DataNode），为了使用户在使用时可以访问到每一个数据块，HDFS使用了一个专门保存文件属性信息的节点——名称节点（NameNode）。

2，MapReduce

上边讲到过，MapReduce就是处理数据的，用于海量数据的分布式处理，把对大数据的操作分发给多个子节点进行并行处理，然后整合结果，得到最终的计算结果，MapReduce就是一个分赛处理并汇总结果的过程。

3，YARN

YARN用于资源调度，就是为MapReduce提供计算资源的，是通用资源管理系统，负责将系统资源分配给在Hadoop集群中的应用程序，并调度需要在不同节点执行的任务，相当于一个分布式操作系统平台，它的组件有ResourceManager,ApplicationMaster,NodeManager,采用master/slave(主/从)结构。

总的来说：HDFS用于海量分布式数据的存储，MapReduce用于海量数据分布处理，YARN用于进行资源调度，为MapReduce提供算力资源，HDFS和YARN加起来就是一个分布式操作系统，而MapReduce是运行在这个操作系统上的大数据处理框架。

三，Hadoop HA 集群原理

1,HDFS HA 实现原理

简单来说，完全分布式集群的HDFS下至有一个Namenode进程，当它发生故障时，整个集群将无法工作，那么如何避免呢？很简单，每个HDFS可以部署两个NameNode实列，一个处于active状态，一个处于standby状态，两个Name Node需要同步，为保证active Name Node和standby NameNode的同步，当active NameNode的命名空间发生改变时，会将日志写入DataNode的JournalNode中，standby NameNode会一直监控JournalNode的变化，从而实现两个NameNode的状态同步。

2，主备切换

当active NameNode出现故障后，需要自动切换到standby NameNode，让standby 替代active，从而实现HA，而实现主备切换主要是通过zookeeper集群和FailoverController服务，每个NameNode本地都会有一个FailoverController，他的作用就是向本地的NameNode做健康监控，并时刻与另一端通信，而zookeeper集群则会给一个独占锁，就是标明哪个是active的NameNode。通过FailoverController来通信其NameNode状态，通过zookeeper来标识哪个为active的NameNode，从而实现故障的替换实现真正的高可用。

3，Zookeeper的功能原理

ZooKeeper集群主要负责Hadoop集群的一些数据管理问题，命名服务，配置管理，状态同步，集群管理，队列管理，分布式锁等。

ZooKeeper=文件系统+监测通知
ZooKeeper集群由俩个角色组成，Leader和Follower组成，多个Follower和一个Leader

Leader主要功能就是恢复数据，维持通信

Follower主要功能就是向Leader发送请求，接收Leader的消息并处理，接收Client的请求，进行Leader的投票，结果返回Client

ZooKeeper选举机制，ZooKeeper集群会通过Paxos算法选举出Leader角色是哪个节点，Paxos算法简单来说就是过半选举，比如三台节点，一次启动ZooKeeper，那么第二台节点的ZooKeeper状态就是Leader。

4，JournalNode服务原理

前边说了，为了实现两个NameNode的数据同步，引入了一组名为JournalNode的独立进程进行通信，当active状态的NameNode发生改变时会写入JournalNode中，而standby状态的NameNode会读取JournalNode的变更信息还有日志的变化，这就可以保证在集群出错时NameNode可以完全同步并实现从standby到active状态的切换，从而保持集群的正常运行。

亚马逊云科技技术品牌专区

更多推荐

企业物联网平台如何选择？

亚马逊云科技技术品牌专区

STM32节点移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）

STM32移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）前言前言在移植协议之前，先给大家科普一下Lora 和 lorawan 的区别。LoRa 是LPWAN通信技术中的一种，是美国Semtech公司采用和推广的一种基于扩频技术的超远距离无线传输方案。这一方案改变了以往关于传输距离与功耗的折衷考虑方式为用户提供一种简单的能实现远距离、长电池寿命、大容量的系统，进而扩...

亚马逊云科技技术品牌专区

从华为的MQTT到TdEngineRPC，解读物联网时代的分布式

今天中秋节，笔者首先祝各位读者们中秋快乐，之所以在今天这个团圆节来谈分布式的话题，就是要聊聊物联网是如何通过MQTT连接各类终端，如何通过RPC整合各种数据的。下面就通过代码+动图的方式来解读一下华为LiteOS的MQTT与TD的RPC。MQTT协议MQTT是一个客户机服务器发布/订阅消息传输协议。它重量轻、开放、简单、易于实现。这些特性使其非常适合在物联网的低带宽、...