HA架构搭建hadoop详解,只需要跟着我的步骤按部就班>>Linux
1.时间同步yum install ntp启动NTP时间服务器:service ntpd start设置NTP开机自动启动:chkconfig ntpd on查看NTP是否正常运行:chkconfig | grep ntp2.node1,2,3,4做免密钥登录ssh-keygen -t dsa -P ‘’ -f ~/.ssh/id_dsacat ~/.ssh/id_dsa.pub...
HA搭建HA其实很简单,我们分为两步,先搭建好hadoop再基于它修改为HA的就行了
跟着我一步一步来
1.时间同步yum install ntp
启动NTP时间服务器:service ntpd start
设置NTP开机自动启动:chkconfig ntpd on
查看NTP是否正常运行:chkconfig | grep ntp
2.node1,2,3,4做免密钥登录
ssh-keygen -t dsa -P ‘’ -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub > ~/.ssh/authorized_keys
scp authorized_keys node02:pwd
把authorized_keys拷贝到node02
cat id_dsa.pub >> authorized_keys 往authorized_keys里追加node02的公钥
3.和配置jdk
rpm -ivh /root/myapp/jdk-7u80-linux-x64.rpm 安装jdk
export JAVA_HOME=/usr/java/jdk1.7.0_80
export PATH=
P
A
T
H
:
PATH:
PATH:JAVA_HOME/bin
export PATH=/usr/bin:/usr/sbin:/bin:/sbin:/usr/X11R6/bin 配置错了回滚bash
4.将node1上的/etc/profile通过网络拷贝到node2、3、4
在node2、3、4上执行. /etc/profile让它生效
5.解压hadoop-2.6.5.tar.gz到/opt目录
tar -zxf hadoop-2.6.5.tar.gz -C /opt
向/etc/profile添加两行
export HADOOP_PREFIX=/opt/hadoop-2.6.5
export PATH=
P
A
T
H
:
PATH:
PATH:HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbin
6.在/opt/hadoop-2.6.5/etc/hadoop/hadoop-env.sh中第25行配置
export JAVA_HOME=/usr/java/jdk1.7.0_80
7.slaves,三个datanode所在的位置主机名称:
node2
node3
node4
8.core-site.xml
<configuration>
<!-- 指定namenode的位置:在node1上的9000端口发布一个hdfs协议的服务,用于和datanode以及客户端以及secondarynamenode通信 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://node1:9000</value>
</property>
<!-- 指定该路径,该路径决定了datanode、namenode以及secondarynamenode放数据的目录
dfs.namenode.name.dir
dfs.datanode.data.dir
dfs.namenode.checkpoint.dir
-->
<property>
<name>hadoop.tmp.dir</name>
<value>/var/bjsxt/hadoop/full</value>
</property>
</configuration>
9.hdfs-site.xml
<configuration>
<!-- 指定block默认副本个数 -->
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<!--指定secondarynamenode的http服务所在的主机和端口号,同时也就指定了secondarynamenode所在的主机-->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>node2:50090</value>
</property>
</configuration>
10.将/opt/hadoop-2.6.5/etc/hadoop/* 网络拷贝到node2node3node4上
scp -r * node2:pwd
scp -r * node3:pwd
scp -r * node4:pwd
11.格式化
在node1上执行格式化操作:
hdfs namenode -format
12.启动集群:
在node1到node4上的任意一台服务器都可以执行:
start-dfs.sh
13.停止集群:
在node1到node4上的任意一台服务器都可以执行:
stop-dfs.sh
14.如果发生异常,看日志:/opt/hadoop-2.6.5/logs
以上就是搭建hadoop分布式最简单的操作,接下来我们加入HA架构
搭建HA集群:
1、zookeeper集群搭建
a) 将zookeeper.tar.gz上传到node2、node3、node4
b) 解压到/opt
tar -zxf zookeeper-3.4.6.tar.gz -C /opt
c) 配置环境变量:
export ZOOKEEPER_PREFIX=/opt/zookeeper-3.4.6
export PATH=
P
A
T
H
:
PATH:
PATH:ZOOKEEPER_PREFIX/bin
然后. /etc/profile让配置生效
d) 到/opt/zookeeper-3.4.6/conf下
复制zoo_sample.cfg为zoo.cfg
cp zoo_sample.cfg zoo.cfg
e) 编辑zoo.cfg
dataDir=/tmp/zookeeper改为
dataDir=/var/huawei/zookeeper/data 存放zookeeper数据的地方
在clientPort=2181下添加:
server.1=node2:2881:3881 2881投票端口 123他们互相通信走的端口
server.2=node3:2881:3881 3881选举端口
server.3=node4:2881:3881
f) node04创建/var/bjsxt/zookeeper/data目录,并在该目录下放一个文件:myid
在myid中写下当前zookeeper的编号
mkdir -p /var/bjsxt/zookeeper/data
echo 3 > /var/bjsxt/zookeeper/data/myid
g) 将/opt/zookeeper-3.4.6通过网络拷贝到node2、node3上
scp -r zookeeper-3.4.6/ node2:/opt
scp -r zookeeper-3.4.6/ node3:/opt
h) 在node2和node3上分别创建/var/bjsxt/zookeeper/data目录,
并在该目录下放一个文件:myid
node2:
mkdir -p /var/bjsxt/zookeeper/data
echo 1 > /var/bjsxt/zookeeper/data/myid
node3:
mkdir -p /var/bjsxt/zookeeper/data
echo 2 > /var/bjsxt/zookeeper/data/myid
i) 启动zookeeper
zkServer.sh start
zkServer.sh start|stop|status
j) 关闭zookeeper
zkServer.sh stop
l) 连接zookeeper
zkCli.sh
m) 退出zkCli.sh命令
quit
2、hadoop配置
core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://mycluster</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/var/bjsxt/hadoop/ha</value>
</property>
<!-- 指定每个zookeeper服务器的位置和客户端端口号 -->
<property>
<name>ha.zookeeper.quorum</name>
<value>node2:2181,node3:2181,node4:2181</value>
</property>
</configuration>
hdfs-site.xml
<configuration>
<!-- 指定block默认副本个数 -->
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<!-- 用于解析fs.defaultFS中hdfs://mycluster中的mycluster地址 -->
<property>
<name>dfs.nameservices</name>
<value>mycluster</value>
</property>
<!-- mycluster下面由两个namenode服务支撑 -->
<property>
<name>dfs.ha.namenodes.mycluster</name>
<value>nn1,nn2</value>
</property>
<!--指定nn1的地址和端口号,发布的是一个hdfs://的服务-->
<property>
<name>dfs.namenode.rpc-address.mycluster.nn1</name>
<value>node1:8020</value>
</property>
<property>
<name>dfs.namenode.rpc-address.mycluster.nn2</name>
<value>node2:8020</value>
</property>
<!--指定三台journal服务器的地址-->
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://node1:8485;node2:8485;node3:8485/mycluster</value>
</property>
<!-- 指定客户端查找active的namenode的策略:
会给所有namenode发请求,以决定哪个是active的 -->
<property>
<name>dfs.client.failover.proxy.provider.mycluster</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<!--在发生故障切换的时候,ssh到对方服务器,将namenode进程kill掉 kill -9 55767-->
<property>
<name>dfs.ha.fencing.methods</name>
<value>sshfence</value>
</property>
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/root/.ssh/id_dsa</value>
</property>
<!-- 指定journalnode在哪个目录存放edits log文件 -->
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/var/bjsxt/hadoop/ha/jnn</value>
</property>
<!--启用自动故障切换-->
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
</configuration>
再把/opt/hadoop-2.6.5/etc/hadoop/*scp到其他的node上
3、启动HA的hadoop
a) 在node1\node2\node3上启动三台journalnode
hadoop-daemon.sh start journalnode
b) 任意选择node1或者node2,格式化HDFS
hdfs namenode -format
格式化后,启动namenode进程
hadoop-daemon.sh start namenode
c) 在另一台node2或者node1上同步元数据
hdfs namenode -bootstrapStandby
d) 初始化zookeeper上的内容
hdfs zkfc -formatZK
e) 启动hadoop集群,可在node1到node4这四台服务器上任意位置执行
start-dfs.sh
4、zookeeper操作
在node2或者node3或者node4上运行
zkCli.sh
ls /hadoop-ha/mycluster 查看临时文件
get /hadoop-ha/mycluster/ActiveStandbyElectorLock 查看临时文件的内容
退出zkCli.sh
quit
5、停止集群:
首先
stop-dfs.sh
其次,停止zookeeper集群
node2、node3、node4上执行:
zkServer.sh stop
PS:截图太麻烦了,自己整理了下流程步骤,有不清楚或者遇到什么问题留言咨询,乐意解答
更多推荐
所有评论(0)