ZooKeeper安装部署

1 概述 ZooKeeper（动物园管理员），顾名思义，是用来管理Hadoop（大象）、Hive（蜜蜂）、Pig（小猪）的管理员，同时Apache HBase、Apache Solr、LinkedIn Sensei等众多项目中都采用了ZooKeeper。 ZooKeeper是Hadoop的正式子项目，与Hadoop密切相关但却没有任何依赖。它是一个针对大型应用提供高可用的数据管理、应用

看山

5792人浏览 · 2014-10-21 13:14:41

看山 · 2014-10-21 13:14:41 发布

1 概述

ZooKeeper（动物园管理员），顾名思义，是用来管理Hadoop（大象）、Hive（蜜蜂）、Pig（小猪）的管理员，同时Apache HBase、Apache Solr、LinkedIn Sensei等众多项目中都采用了ZooKeeper。

ZooKeeper是Hadoop的正式子项目，与Hadoop密切相关但却没有任何依赖。它是一个针对大型应用提供高可用的数据管理、应用程序协调服务的分布式服务框架，基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，提供的功能包括：配置维护、统一命名服务、状态同步服务、集群管理等。

在分布式应用中，由于工程师不能很好地使用锁机制，以及基于消息的协调机制不适合在某些应用中使用，因此需要有一种可靠的、可扩展的、分布式的、可配置的协调机制来统一系统的状态。Zookeeper的目的就在于此。

根据ZooKeeper官方文档和ZooKeeper的作用，ZooKeeper一般有两种部署方式：

单机模式：运行一个Zookeeper实例
分布式模式：在多台机器上分别运行Zookeeper实例用于组成ZooKeeper集群提供服务
伪分布式模式：在一台物理机上运行多个Zookeeper实例

2 准备工作

JDK，版本大于1.6；
从官网下载最新的稳定版；
ZooKeeper支持在Windows平台上运行，但是只支持使用Windows作为开发平台，不能作为生产平台；
在生产环境，推荐ZooKeeper服务是最少为3个的集群，且最好运行在独立的物理机上。

另外，需要注意的是，ZooKeeper集群是以宕机个数过半才会让整个集群宕机的，所以最好部署奇数个节点。ZooKeeper的单机模式是没有备份的，如果ZooKeeper宕了，服务也就停了，所以，在开发模式中可以使用单机模式，但是生成环境最好使用ZooKeeper集群的分布式模式。

3 单机模式

以单机模式运行ZooKeeper服务是最简单的。因为ZooKeeper服务包含在一个JAR文件中，所以安装过程只要修改一个配置文件就行了。

将下载好的稳定版解压到某个目录，设置环境变量ZOOKEEPER_HOME指向该目录。然后需要修改基本配置，ZooKeeper的配置文件在conf目录下，这个目录下有zoo_sample.cfg和log4j.properties，先将zoo_sample.cfg改名为zoo.cfg（ZooKeeper在启动时会找这个文件作为默认配置文件），在单机模式中，可以修改为下面的内容：

tickTime=2000
dataDir=/home/lxh/hadoop/data/zookeeper
clientPort=2181

tickTime：这个时间是作为 Zookeeper 服务器之间或客户端与服务器之间维持心跳的时间间隔，也就是每个 tickTime 时间就会发送一个心跳。
dataDir：顾名思义就是 Zookeeper 保存数据的目录，默认情况下，Zookeeper 将写数据的日志文件也保存在这个目录里。
clientPort：这个端口就是客户端连接 Zookeeper 服务器的端口，Zookeeper 会监听这个端口，接受客户端的访问请求，通常为2181。

现在使用bin/zkServer.sh脚本启动ZooKeeper：

$ $ZOOKEEPER_HOME/bin/zkServer.sh start

如果显示下面内容，说明启动成功：

JMX enabled by default
Using config: /home/lxh/hadoop/zookeeper-3.4.6/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED

也可以通过jps命令查看：

6056 Jps
6009 QuorumPeerMain

QuorumPeerMain就是ZooKeeper的进程名。

ZooKeeper的日志信息输出使用了log4j，默认是控制台打印，可以修改$ZOOKEEPER_HOME/conf/log4j.properties来控制输出内容和位置。

4 分布式模式

Zookeeper不仅可以单机提供服务，同时也支持多机组成集群来提供服务。

在单机模式中运行ZooKeeper，对于测试、开发比较方便。但是在生产环境中，为了获得可靠的ZooKeeper服务，应该在一个集群上部署 ZooKeeper。因为ZooKeeper集群宕机个数过半才会让整个集群宕机，所以，只要集群中半数以上的ZooKeeper服务启动了，那么总的 ZooKeeper服务将是可用的。从而也推断出，如果有5台机器，可以保证2台机器故障而不影响整个集群，ZooKeeper能继续正常运行。(这里又提到关于集群中机器的数量，是因为我一般喜欢双数，在做架构设计时，极易选择双数作为机器数。)

ZooKeeper的分布式模式的安装配置几乎跟单机模式一样，只是需要增加几个配置，下面是例子：

tickTime=2000
dataDir=/home/lxh/hadoop/data/zookeeper
clientPort=2181
initLimit=5
syncLimit=2
server.1=zoo1:2888:3888
server.2=zoo2:2888:3888
server.3=zoo3:2888:3888

initLimit：用来配置Zookeeper接受客户端（此处指是Zookeeper服务器集群中连接到Leader的Follower服务器）初始化连接时最长能忍受多少个心跳时间间隔数。超过这个时间，将被认为是连接失败。上面设置的总的时间长度是5*2000毫秒。
syncLimit：限定leader与follower之间发送消息，请求和应答时间长度，最长不能超过多少个tickTime的时间长度，上面设置的总时间长度是2*2000毫秒。
server.A=B：C：D：其中 A 是一个数字，表示这个是第几号服务器；B 是这个服务器的 ip 地址；C 表示的是这个服务器与集群中的 Leader 服务器交换信息的端口；D 表示的是万一集群中的 Leader 服务器挂了，需要一个端口来重新进行选举，选出一个新的 Leader，而这个端口就是用来执行选举时服务器相互通信的端口。如果是伪集群的配置方式，由于 B 都是一样，所以不同的 Zookeeper 实例通信端口号不能一样，所以要给它们分配不同的端口号。

另外，在集群模式下，除了修改zoo.cfg配置文件，还要配置一个文件myid，这个文件在dataDir目录下，这个文件里面就有一个数据就是A的值，Zookeeper启动时会读取这个文件，拿到里面的数据与zoo.cfg里面的配置信息比较从而判断到底是哪个server。

向您推荐>>Eolink开发者社区

权威｜前沿｜技术｜干货｜国内首个API全生命周期开发者社区

更多推荐

深入理解 Mocha 测试框架：从零实现一个 Mocha

前言什么是自动化测试自动化测试在很多团队中都是Devops环节中很难执行起来的一个环节，主要原因在于测试代码的编写工作很难抽象，99%的场景都需要和业务强绑定，而且写测试代码的编写工作量往往比编写实际业务代码的工作量更多。在一些很多业务场景中投入产出比很低，适合写自动化测试的应该是那些中长期业务以及一些诸如组件一样的基础库。自动化测试是个比较大的概念，其中分类也比较多，比如单元测试，端对端测试，集

云原生

ELK实现containerd的容器日志采集展示【基于logging的全栈监测】

企业级ELK Stack构建介绍

云原生

(20200916 Solved)docker-compose up创建容器自动退出

问题描述如题，创建容器后自动退出了。并且docker start container无效解决方案原因是缺失了控制终端的配置，需要在docker-compose.yml中增加tty:true ，有时候这样也不行，需要再增加一个command:/bin/bash，命令不一定是这个，需要是一个不会退出的命令，然后用-d后台启动容器。Referencesdocker-compose启动容器后自动退出...

云原生

所有评论(0)

查看更多评论

看山

@conansix

已为社区贡献2条内容