Linux从零搭建Hadoop集群(CentOS7+hadoop 3.2.0+JDK1.8完全分布式集群)

关键字：LinuxCentOS Hadoop Java版本： CentOS7 Hadoop3.2.0 JDK1.8说明：Hadoop从版本2开始加入了Yarn这个资源管理器，Yarn并不需要单独安装。只要在机器上安装了JDK就可以直接安装Hadoop，单纯安装Hadoop并不依赖Zookeeper之类的其他东西。1.下载hadoop本博文使用的hadoop是3...

1-只小猴子

10985人浏览 · 2019-06-27 19:24:57

1-只小猴子 · 2019-06-27 19:24:57 发布

关键字：Linux CentOS Hadoop Java

版本： CentOS7 Hadoop3.2.0 JDK1.8

说明：Hadoop从版本2开始加入了Yarn这个资源管理器，Yarn并不需要单独安装。只要在机器上安装了JDK就可以直接安装Hadoop，单纯安装Hadoop并不依赖Zookeeper之类的其他东西。

1.下载hadoop

本博文使用的hadoop是3.2.0版本

打开下载地址选择页面：

http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.2.0/hadoop-3.2.0.tar.gz

如图：

2.安装3个虚拟机并实现ssh免密码登录

2.1安装3个机器

我这里使用的是Centos7.4，安装方法不再详细介绍，节省时间装好一个可以克隆出来两个，然后修改好IP。

如图：

说明：为了免去后面一系列授权的麻烦，这里直接使用root账户登录和操作了。

查看这3个机器的IP。我的机器名和ip的对应关系是:

hadoop_1 192.168.217.128

hadoop_2 192.168.217.129

hadoop_3 192.168.217.130

2.2检查机器名称

为了后续操作方便，确保机器的hostname是我们想要的。拿192.168.217.128这台机器为例，用root账户登录，然后使用hostname命令查看机器名称

如图：

我的分别是：

hadoop_1 hadoop-1

hadoop_2 hadoop-2

hadoop_3 hadoop-3

PS：修改机器名称命令 hostname 你想要的名称(eg: hostname hadoop-1)

2.3 修改/etc/hosts文件

修改这3台机器的/etc/hosts文件，在文件中添加以下内容：

说明：IP地址没必要和我的一样，这里只是做一个映射，只要映射是对的就可以，至于修改方法，可以用vi/vim命令，也可以在你的本地机器上把hosts文件内容写好后，拿到Linux机器上去覆盖。

配置完成后使用ping命令检查这3个机器是否相互ping得通，以hadoop-1为例，执行命令：

ping -c 3 hadoop-2

如图：

三个机器互相ping一下，ping得通即可。

2.4给3个机器生成秘钥文件

以hadoop-1为例，执行命令，生成空字符串的秘钥(后面要使用公钥)，命令是：

ssh-keygen -t rsa

如图：

执行命令后一直Enter即可！

因为我现在用的是root账户，所以秘钥文件保存到了/root/.ssh/目录内，可以使用命令查看，命令是：

ls /root/.ssh/

如图：

使用同样的方法为hadoop-2和hadoop-3生成秘钥(命令完全相同，不用做任何修改)。

2.5在hadoop-1上创建authorized_keys文件

接下来要做的事情是在3台机器的/root/.ssh/目录下都存入一个内容相同的文件，文件名称叫authorized_keys，文件内容是我们刚才为3台机器生成的公钥。为了方便，我下面的步骤是现在hadoop-1上生成authorized_keys文件，然后把3台机器刚才生成的公钥加入到这个hadoop-1的authorized_keys文件里，然后在将这个authorized_keys文件复制到hadoop-2和hadoop-3上面。

首先使用命令，在hadoop-1的/root/.ssh/目录中生成一个名为authorized_keys的文件，命令是：

touch /root/.ssh/authorized_keys

如图：

再次使用命令 ls /root/.ssh 查看可发现多出一个文件authorized_keys。

然后将hadoop-1上的/root/.ssh/id_rsa.pub文件内容，hadoop-2上的/root/.ssh/id_rsa.pub文件内容，hadoop-3上的/root/.ssh/id_rsa.pub文件内容复制到这个authorized_keys文件中，复制的方法很多了，可以用cat命令和vim命令结合来弄，也可以直接把这3台机器上的/root/.ssh/id_rsa.pub文件下载到本地，在本地将authorized_keys文件编辑好在上载到这3台机器上。

2.6测试使用ssh进行无密码登录

在hadoop-2服务器执行命令

ssh hadoop-1

如图：

可以看到在没有输入密码的情况下从服务器hadoop-2成功登录到hadoop-1服务器，此时就可以在hadoop-2服务器操作hadoop-1服务器了哦~

三台机器互相ssh一下，第一次登录需要输入yes，之后就不需要了。出现上图表示成功！

测试能连接后不要忘记执行 exit 退出登录，如图：

3.安装jdk和hadoop

3.1 安装JDK

安装jdk在这里不在细数，此篇文章介绍很详细（https://blog.csdn.net/s1078229131/article/details/93887052）

3.2 安装hadoop

注意：不需要在3台机器上重复下面所讲的步骤。只需要在hadoop-1服务器上配置好后使用scp命令复制到其余两台服务器即可。

3.2.1 上载文件并解压缩

1.在opt目录下新建一个名为hadoop的目录，并将下载得到的hadoop-3.2.0.tar上载到该目录下

2.执行解压缩命令

tar -xvf hadoop-3.2.0.tar.gz

如图:

3.2.2新建几个目录

在/root目录下新建几个目录，复制粘贴执行下面的命令：

mkdir /root/hadoop
mkdir /root/hadoop/tmp
mkdir /root/hadoop/var
mkdir /root/hadoop/dfs
mkdir /root/hadoop/dfs/name
mkdir /root/hadoop/dfs/data

3.2.3修改etc/hadoop中的一系列配置文件

修改/opt/hadoop/hadoop-3.2.0/etc/hadoop目录内的一系列文件。

修改core-site.xml

执行 vi /opt/hadoop/hadoop-3.2.0/etc/hadoop/core-site.xml 命令

在<configuration>节点内加入配置:

   <property>
        <name>hadoop.tmp.dir</name>
        <value>/root/hadoop/tmp</value>
        <description>Abase for other temporary directories.</description>
   </property>
   <property>
        <name>fs.default.name</name>
        <value>hdfs://hadoop-1:9000</value>
   </property>

修改hadoop-env.sh

执行 vi /opt/hadoop/hadoop-3.2.0/etc/hadoop/hadoop-env.sh 命令

将export   JAVA_HOME=${JAVA_HOME}

        修改为：

        export   JAVA_HOME=/opt/java/jdk1.8.0_121

        说明：修改为自己的JDK路径

修改hdfs-site.xml

执行 vi /opt/hadoop/hadoop-3.2.0/etc/hadoop/hdfs-site.xml 文件

在<configuration>节点内加入配置:

<property>
   <name>dfs.name.dir</name>
   <value>/root/hadoop/dfs/name</value>
   <description>Path on the local filesystem where theNameNode stores the namespace and transactions logs persistently.
   </description>
</property>

<property>
   <name>dfs.data.dir</name>
   <value>/root/hadoop/dfs/data</value>
   <description>Comma separated list of paths on the localfilesystem of a DataNode where it should store its blocks.
   </description>
</property>

<property>
   <name>dfs.replication</name>
   <value>2</value>
</property>

<property>
   <name>dfs.permissions</name>
   <value>false</value>
   <description>need not permissions</description>
</property>

PS：dfs.permissions配置为false后，可以允许不要检查权限就生成dfs上的文件，方便倒是方便了，但是你需要防止误删除，请将它设置为true，或者直接将该property节点删除，因为默认就是true。

新建并且修改mapred-site.xml

执行 vi /opt/hadoop/hadoop-3.2.0/etc/hadoop/mapred-site.xml 命令，在<configuration>节点内加入配置:

<!-- 配置mapReduce在Yarn上运行(默认本地运行) -->
<property>
   <name>mapreduce.framework.name</name>
   <value>yarn</value>
</property>

修改workers文件

执行命令 vi /opt/hadoop/hadoop-3.2.0/etc/hadoop/workers 命令，将里面的localhost删除，添加如下内容：
```
hadoop-1
hadoop-2
hadoop-3
```

修改yarn-site.xml文件

执行 vi /opt/hadoop/hadoop-3.2.0/etc/hadoop/yarn-site.xml 命令，

在<configuration>节点内加入配置(注意了，内存根据机器配置越大越好，我这里只配2个G是因为机器不行):

   <property>
        <description>指定YARN的老大（ResourceManager）的地址</description>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop-1</value>
   </property>

<!-- NodeManager上运行的附属服务。需要配置成mapreduce_shfffle,才可运行MapReduce程序默认值 -->
   <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
   </property>

   <property>
        <discription>每个节点可用内存,单位MB,默认8182MB</discription>
        <name>yarn.scheduler.maximum-allocation-mb</name>
        <value>2048</value>
   </property>

   <property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
   </property>

说明：yarn.nodemanager.vmem-check-enabled这个的意思是忽略虚拟内存的检查，如果你是安装在虚拟机上，这个配置很有用，配上去之后后续操作不容易出问题。如果是实体机上，并且内存够多，可以将这个配置去掉。

配置hadoop-3.2.0/sbin/目录下start-dfs.sh、start-yarn.sh、stop-dfs.sh、stop-yarn.sh文件

在start-dfs.sh、stop-dfs.sh开始第一行加上
```
HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
```
在start-yarn.sh、stop-yarn.sh开始第一行加上
```
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root
```

配置好后，将 hadoop-1上的 /opt/hadoop/hadoop-3.2.0 文件夹复制到各个节点上。

scp -r /opt/hadoop/hadoop-3.2.0 root@hadoop-2:/opt/hadoop/
scp -r /opt/hadoop/hadoop-3.2.0 root@hadoop-3:/opt/hadoop/
 
scp /etc/profile root@hadoop-2:/etc/    #copy配置文件到各个节点
scp /etc/profile root@hadoop-3:/etc/

4.启动Hadoop

4.1在namenode上执行初始化

因为hadoop-1是namenode，hadoop-2和hadoop-3都是datanode，所以只需要对hadoop-1进行初始化操作，也就是对hdfs进行格式化。

进入到hadoop-1这台机器的/opt/hadoop/hadoop-3.2.0/bin目录，也就是执行命令：

cd /opt/hadoop/hadoop-3.2.0/bin

执行初始化脚本，也就是执行命令：

./hadoop namenode -format

如图：

4.2在namenode上执行启动命令

因为hadoop-1是namenode，hadoop-2和hadoop-3都是datanode，所以只需要再hadoop-1上执行启动命令即可。

进入到hadoop-1这台机器的/opt/hadoop/hadoop-3.2.0/sbin目录，也就是执行命令：

cd /opt/hadoop/hadoop-3.2.0/sbin

执行初始化脚本，也就是执行命令：

./start-all.sh

如图：

5.测试hadoop

haddoop启动了，需要测试一下hadoop是否正常。

执行命令，关闭防火墙，CentOS7下，命令是：

systemctl stop firewalld.service(只是临时关闭，重启服务器会重新开启防火墙)

如图：

有关Linux防火墙详细说明可查看：Linux关闭防火墙命令(永久和暂时)

下面回归正题，到此Linux Hadoop3.2.0集群配置完毕--验证以下吧！

hadoop-1是我们的namenode，该机器的IP是192.168.217.128，在本地电脑访问如下地址:

http://192.168.217.128:9870/

自动跳转到了overview页面

如图：

在本地浏览器里访问如下地址：

http://192.168.217.128:8088/

自动跳转到了cluster页面

如图：

最后给各位看官来波福利！

阿里云服务器2000元代金券和折扣免费领：https://promotion.aliyun.com/ntms/yunparter/invite.html?userCode=ypbt9nme

性能级主机2-5折：https://promotion.aliyun.com/ntms/act/enterprise-discount.html?userCode=ypbt9nme

新用户云通讯专享8折：https://www.aliyun.com/acts/alicomcloud/new-discount?userCode=ypbt9nme

新老用户云主机低4折专项地址：https://promotion.aliyun.com/ntms/act/qwbk.html?userCode=ypbt9nme

680元即可注册商标专项地址：https://tm.aliyun.com/?userCode=ypbt9nme

17元/月云主机：https://promotion.aliyun.com/ntms/act/qwbk.html?spm=5176.11533447.1097531.13.22805cfaiTv7SN&userCode=ypbt9nme

向您推荐>>Eolink开发者社区

权威｜前沿｜技术｜干货｜国内首个API全生命周期开发者社区

更多推荐

ELK实现containerd的容器日志采集展示【基于logging的全栈监测】

企业级ELK Stack构建介绍

云原生

深入理解 Mocha 测试框架：从零实现一个 Mocha

前言什么是自动化测试自动化测试在很多团队中都是Devops环节中很难执行起来的一个环节，主要原因在于测试代码的编写工作很难抽象，99%的场景都需要和业务强绑定，而且写测试代码的编写工作量往往比编写实际业务代码的工作量更多。在一些很多业务场景中投入产出比很低，适合写自动化测试的应该是那些中长期业务以及一些诸如组件一样的基础库。自动化测试是个比较大的概念，其中分类也比较多，比如单元测试，端对端测试，集

云原生

(20200916 Solved)docker-compose up创建容器自动退出

问题描述如题，创建容器后自动退出了。并且docker start container无效解决方案原因是缺失了控制终端的配置，需要在docker-compose.yml中增加tty:true ，有时候这样也不行，需要再增加一个command:/bin/bash，命令不一定是这个，需要是一个不会退出的命令，然后用-d后台启动容器。Referencesdocker-compose启动容器后自动退出...