Hadoop集群异常：两个NameNode全部为StandBy状态

之前的集群状态一直是很好用，可能中间忙于其他的事情，有些文件失效了吧，这次运行的时候，出现了问题，那就是两个NameNode全部是StandBy的状态，这种问题存在的原因大部分都是因为Zookeeper的zkfc进程未启动成功，当然即使你启动了Zookepper进程也是没用的，因为此时只要ZKFC进程未启动的话，那么，HDFS就没办法与Zookeeper之间建立沟通的桥梁。ZKFC是ZooKeep

低调的洋仔

22887人浏览 · 2016-08-24 19:56:50

低调的洋仔 · 2016-08-24 19:56:50 发布

转载请注明出处：Hadoop集群异常：两个NameNode全部为StandBy状态

自动故障转移为HDFS部署增加了两个新组件：ZooKeeper和ZKFailoverController（ZKFC）进程。ZooKeeper是维护少量协调数据，通知客户端这些数据的改变和监视客户端故障的高可用服务。

HA的自动故障转移依赖于ZooKeeper的主要功能

1. 故障检测：集群中的每个NameNode在ZooKeeper中维护了一个持久会话，如果机器崩溃，ZooKeeper中的会话将终止，ZooKeeper通知另一个NameNode需要触发故障转移。

2. ZooKeeper提供了一个简单的机制用于唯一的选择一个节点为active状态。如果目前现役NameNode崩溃，另一个节点可能从ZooKeeper获得特殊的排外锁以表明它应该成为现役NameNode。

自动故障转移组件ZKFC

ZKFC是自动故障转移中的另一个新组件，是ZooKeeper的客户端，也监视和管理NameNode的状态。每个运行NameNode的主机也运行了一个ZKFC进程，ZKFC负责：

1. 健康监测：ZKFC使用一个健康检查命令定期地ping与之在相同主机的NameNode，只要该NameNode及时地回复健康状态，ZKFC认为该节点是健康的。如果该节点崩溃，冻结或进入不健康状态，健康监测器标识该节点为非健康的。

2. ZooKeeper会话管理：当本地NameNode是健康的，ZKFC保持一个在ZooKeeper中打开的会话。如果本地NameNode处于active状态，ZKFC也保持一个特殊的znode锁，该锁使用了ZooKeeper对短暂节点的支持，如果会话终止，锁节点将自动删除。

3. 基于ZooKeeper的选择：如果本地NameNode是健康的，且ZKFC发现没有其它的节点当前持有znode锁，它将为自己获取该锁。如果成功，则它已经赢得了选择，并负责运行故障转移进程以使它的本地NameNode为active。故障转移进城与前面描述的手动故障转移相似，首先如果必要保护之前的现役NameNode，然后本地NameNode转换为active状态。

在典型部署中，ZooKeeper守护进程运行在三个或者五个节点上，但由于ZooKeeper本身需要较少的资源，所以将ZooKeeper部署在与现役NameNode和待机NameNode相同的主机上，还可以将ZooKeeper部署到与YARN的ResourceManager相同的节点上。建议配置ZooKeeper将数据存储在与HDFS元数据不同的硬盘上以得到最好的性能和隔离性。在配置自动故障转移之前需要先停掉集群，目前在集群运行时还不可能将手动故障转移的安装转换为自动故障转移的安装。

配置HA的自动故障转移

首先在hdfs-site.xml中添加下面的参数，该参数的值默认为false：

<property>
   <name>dfs.ha.automatic-failover.enabled</name>
   <value>true</value>
</property>

在core-site.xml文件中添加下面的参数，该参数的值为ZooKeeper服务器的地址，ZKFC将使用该地址。

<property>
   <name>ha.zookeeper.quorum</name> <value>hadoop:2181,hadoopwy1:2181,hadoopwy2:2181</value>
</property>

在HA或者HDFS联盟中，上面的两个参数还需要以NameServiceID为后缀，比如dfs.ha.automatic-failover.enabled.mycluster。除了上面的两个参数外，还有其它几个参数用于自动故障转移，比如ha.zookeeper.session-timeout.ms，但对于大多数安装来说都不是必须的。

在添加了上述的配置参数后，下一步就是在ZooKeeper中初始化要求的状态，可以在任一NameNode中运行下面的命令实现该目的，该命在ZooKeeper中创建znode：

$ hdfs zkfc -formatZK

执行该命令需要进入Hadoop的安装目录下面的bin目录中找到hdfs这个命令，输入上面的命令执行，然后就可以修复这个问题了。

启动并测试

进入Hadoop的安装目录下面的sbin目录中，找到start-dfs.sh命令可以启动NameNode，当然这里需要你在配置了NameNode主节点的Hadoop节点上面来执行他。

./start-dfs.sh

转载请注明出处： Hadoop集群异常：两个NameNode全部为StandBy状态

向您推荐>>Eolink开发者社区

权威｜前沿｜技术｜干货｜国内首个API全生命周期开发者社区

更多推荐

ELK实现containerd的容器日志采集展示【基于logging的全栈监测】

企业级ELK Stack构建介绍

云原生

深入理解 Mocha 测试框架：从零实现一个 Mocha

前言什么是自动化测试自动化测试在很多团队中都是Devops环节中很难执行起来的一个环节，主要原因在于测试代码的编写工作很难抽象，99%的场景都需要和业务强绑定，而且写测试代码的编写工作量往往比编写实际业务代码的工作量更多。在一些很多业务场景中投入产出比很低，适合写自动化测试的应该是那些中长期业务以及一些诸如组件一样的基础库。自动化测试是个比较大的概念，其中分类也比较多，比如单元测试，端对端测试，集

云原生

(20200916 Solved)docker-compose up创建容器自动退出

问题描述如题，创建容器后自动退出了。并且docker start container无效解决方案原因是缺失了控制终端的配置，需要在docker-compose.yml中增加tty:true ，有时候这样也不行，需要再增加一个command:/bin/bash，命令不一定是这个，需要是一个不会退出的命令，然后用-d后台启动容器。Referencesdocker-compose启动容器后自动退出...