Hadoop HA——namenode无法启动问题解决

今天按照之前《Hadoop2.6.0 + zookeeper集群环境搭建》一文重新搭建了Hadoop2.7.2+zookeeper的HA，实现namenode挂掉后可以自动切换，总体来说还算比较顺利。搭建完成后一切正常！但是！第二天重新启动集群的时候出现问题：两个namenode有一个始终启动不了！，具体问题描述如下：问题描述HA按照规划配置好，启动后，NameNod

yhao浩

18113人浏览 · 2016-09-03 23:30:56

yhao浩 · 2016-09-03 23:30:56 发布

问题描述

HA按照规划配置好，启动后，NameNode不能正常启动。刚启动的时候 jps 看到了NameNode，但是隔了一两分钟，再看NameNode就不见了。查看日志发现以下报错信息：

org.apache.hadoop.ipc.Client:Retrying connect to server

但是测试之后，发现下面2种情况：

先启动JournalNode，再启动Hdfs，NameNode可以启动并可以正常运行
使用start-dfs.sh启动，众多服务都启动了，隔两分钟NameNode会退出，再次hadoop-daemon.sh start namenode单独启动可以成功稳定运行NameNode。

再看NameNode的日志，不要嫌日志长，其实出错的蛛丝马迹都包含其中了，如下：

问题分析

看着日志很长，来分析一下，注意看日志中使用颜色突出的部分。

可以肯定NameNode不能正常运行，不是配置错了，而是不能连接上JournalNode、

查看JournalNode的日志没有问题，那么问题就在JournalNode的客户端NameNode。

2016-09-0300:58:46,256 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: hadoop2/192.168.1.132:8485. Already tried 0 time(s);retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000MILLISECONDS)

来分析上句的日志：

NameNode作为JournalNode的客户端发起连接请求，但是失败了，然后NameNode又向其他节点依次发起了请求都失败了，直至到了最大重试次数。

通过实验知道，先启动JournalNode或者再次启动NameNode就可以了，说明JournalNode并没有准备好，而NameNode已经用完了所有重试次数。

解决办法

修改core-site.xml中的ipc参数

<name>ipc.client.connect.max.retries</name>

Indicates the number of retries a clientwill make to establisha server connection.

</description>

</property>

<name>ipc.client.connect.retry.interval</name>

Indicates the number of milliseconds aclient will wait for before retrying to establish a server connection.

</description>

</property>

Namenode向JournalNode发起的ipc连接请求的重试间隔时间和重试次数，我的虚拟机集群实验大约需要2分钟，NameNode即可连接上JournalNode。连接后很稳定。

注意：仅对于这种由于服务没有启动完成造成连接超时的问题，都可以调整core-site.xml中的ipc参数来解决。如果目标服务本身没有启动成功，这边调整ipc参数是无效的。

结果

可以看到namenode已经正常启动了，并且比较稳定

从界面上也能看到两个namenode都已启动，一个为active状态，一个为standby状态。

向您推荐>>Eolink开发者社区

权威｜前沿｜技术｜干货｜国内首个API全生命周期开发者社区

更多推荐

ELK实现containerd的容器日志采集展示【基于logging的全栈监测】

企业级ELK Stack构建介绍

云原生

深入理解 Mocha 测试框架：从零实现一个 Mocha

前言什么是自动化测试自动化测试在很多团队中都是Devops环节中很难执行起来的一个环节，主要原因在于测试代码的编写工作很难抽象，99%的场景都需要和业务强绑定，而且写测试代码的编写工作量往往比编写实际业务代码的工作量更多。在一些很多业务场景中投入产出比很低，适合写自动化测试的应该是那些中长期业务以及一些诸如组件一样的基础库。自动化测试是个比较大的概念，其中分类也比较多，比如单元测试，端对端测试，集

云原生

(20200916 Solved)docker-compose up创建容器自动退出

问题描述如题，创建容器后自动退出了。并且docker start container无效解决方案原因是缺失了控制终端的配置，需要在docker-compose.yml中增加tty:true ，有时候这样也不行，需要再增加一个command:/bin/bash，命令不一定是这个，需要是一个不会退出的命令，然后用-d后台启动容器。Referencesdocker-compose启动容器后自动退出...

云原生

所有评论(0)

查看更多评论

yhao浩

@yhao2014

已为社区贡献2条内容