一、环境准备

1)jdk(hadoop是由java语言编写的)
2) 防火墙关闭(iptables,selinux)
3)设置主机名,以及ip映射
4)设置时钟同步
5)设置免密登录
6)windows配置ip映射
说明:具体操作参照上两篇博客(集群环境搭建和zookeeper搭建)

二、搭建hadoop集群

1、解压hadoop的cdh预编译版本的安装包到esport/server

2、进行hdfs和yarn中的节点规划,具体哪些节点部署到哪台机器上

在这里插入图片描述

3.修改三类配置文件(/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/路径在这里插入代码片下)

a) 第一类配置文件——shell脚本(保证hadoop可以加载到jdk)

vim  hadoop-env.sh

在这里插入图片描述
b) 第二类配置文件——主角色
配置了4个xml文件(分别描述了4个模块)

  • core-site.xml 是common模块

    vim core-site.xml

- ![在这里插入图片描述](https://img-blog.csdnimg.cn/2019072019200447.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjQ1ODcwOA==,size_16,color_FFFFFF,t_70

  • hdfs-site.xml 是hdfs模块

指定hdfs副本的数量,默认是3,我们修改为2(包括源文件,总共是2) 指定secondaryManager的部署位置以及端口号

vim hdfs-site.xml

在这里插入图片描述

  • 指定mr运行时的框架 执行在yarn中运行

先修改配置文件的名字将mapred-site.template.xml修改为mapred-site.xml

mv  mapred-site.template.xml mapred-site.xml

在该配置文件中配置

在这里插入图片描述

  • yarn-site.xml

    vim yarn-site.xml

指定yarn的主角色的地址,以及nodemanager上运行的附属服务

在这里插入图片描述
c第三类配置文件——从角色

vim slaves

在这里插入图片描述

作用:配合一键启动脚本 到slaves指定的机器上启动hdfs和yarn集群的从角色
-通过 dfs.hosts 指定的slaves文件中的机器才可以加入hadoop集群 白名单

上述操作完成主节点的配置,然后scp复制到其他机器上

cd /export/servers/
scp -r hadoop-2.6.0-cdh5.14.0/ node-2:$PWD
scp -r hadoop-2.6.0-cdh5.14.0/ node-3:$PWD

4、添加hadoop环境变量

vim /etc/profile

在这里插入图片描述

5.启动前的初始化

说明:首次启动集群时,需要针对HDFS进行初始化操作,因为有一些文件目录不存在,该操作只需要进行一次,通常在namenode所在节点进行
该初始化操作(format)主要创建了hadoop运行时依赖的一些文件夹和文件
注意:不能多次初始化,如果多次,主角色的角色将互不识别,之前的元数据丢失(因为每一次初始化会自动生成一个新的version,会有新的集群标识clusterID)

hadoop namenode -format

6、集群启动
启动hdfs集群

start-dfs.sh

启动yarn集群

start-yran.sh

启动成功之后就可以访问hadoop提供的对应的web-ui页面
hdfs启动成功之后访问http://node02:50070(node02是namenode所在节点的名字或者ip)
yarn启动成功之后访问http://node02:8088 (node02是resourcemanager所在节点的名字)

Logo

更多推荐