Hadoop伪分布式环境搭建详细步骤和词频统计

一.Linux系统配置以下操作是在root用户下进行的1.配置主机名（1）修改/etc/hosts文件，自定义主机名，这里修改为master[root@localhost ~]# vi /etc/hosts127.0.0.1localhost master localhost4 localhost4.localdomain4::1localhos

大神神奇奇

3326人浏览 · 2017-12-21 00:20:20

大神神奇奇 · 2017-12-21 00:20:20 发布

一.Linux系统配置
以下操作是在root用户下进行的

1.配置网络环境
在Linux图形化界面，点击窗口栏的System-Preferences-Network Connections-System eth0-IPv4 Settings
Method的选项默认是DHCP，修改为Manual
点击右侧的Add，Address填写为ip地址，Network填写255.255.255.0，Gateway填写0.0.0.0

2.配置本地映射
在window上，配置hosts文件
打开文件C:\Windows\System32\drivers\etc\hosts
最后一行追加：ip 主机名

192.168.172.101 master

3.关闭防火墙

# service iptables status           //查看防火墙状态
# service iptables stop             //临时关闭防火墙
# chkconfig iptables off            //永久关闭防火墙

若是永久关闭防火墙，重启后才会生效
4.在Linux上配置hosts列表

# vi /etc/hosts

打开文件后，在最后一行追加

192.168.172.144  master

5.创建文件夹，上传安装包

# sudo mkdir -p /opt/software               //用来存放安装包
# sudo mkdir -p /opt/modules                //软件安装在这个文件夹
# sudo mkdir -p /opt/data/tmp               //存放数据
# sudo chown -R hadoop:hadoop *

使用rz工具或者filezilla将安装包上传到/opt/software目录下
我使用的安装包是hadoop-2.5.0.tar.gz 和 jdk-8u151-linux-x64.tar.gz
二.安装配置JDK
这个过程也是步骤特别多，请参考我的博文《Linux系统上安装Java详细步骤》，地址是http://blog.csdn.net/MusicEnchanter/article/details/78751354

三.安装配置Hadoop
1.将hadoop安装包解压到/opt/modules目录下

# tar -zxvf hadoop-2.5.0.tar.gz -C /opt/modules

2.配置环境变量

# vi /etc/profile

在文件最后插入如下语句

# HADOOP_HOME
export HADOOP_HOME=/opt/modules/hadoop-2.5.0
export HADOOP_CONF_FILE=$HADOOP_HOME/etc/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

检查配置结果

# source /etc/profile              //使配置生效
# echo $HADOOP_HOME                //若出现hadoop安装路径，则配置成功

3.配置 hadoop-env.sh，yarn-env.sh，mapred-env.sh三个文件

# echo $JAVA_HOME

返回的是java路径：

/opt/modules/jdk1.8.0_151

使用vi命令分别打开这三个文件，将java路径修改为

export JAVA_HOME=/opt/modules/jdk1.8.0_151

# bin/hadoop         //查看是否生效

4.配置core-site.xml

<configuration>
<property>      
<name>fs.defaultFS</name>       
<value>hdfs://192.168.172.147:8020</value>
</property>
<property>  
<name>hadoop.tmp.dir</name> 
<value>/opt/data/tmp</value>
</property>
</configuration>

指定namenode所在机器位置及交互端口号，另外也是指定使用的是HDFS文件系统
5.配置hdfs-site.xml

<configuration>
<property>  
<name>dfs.replication</name>    
<value>1</value>    
</property>
</configuration>

指定副本数的个数，默认的是三个
6.配置slaves，将文件内容修改为主机名即可

master

指定从节点位置，包括DataNode和nodemanager
7.格式化namenode

# bin/hdfs namenode format

8.启动

# hadoop-daemon.sh start namenode
# hadoop-daemon.sh start datanode

9.验证，进入hdfs外部管理界面
在浏览器输入

master:50070

10.

# bin/hdfs dfs -mkdir -p temp/conf`            //创建一个文件夹
# bin/hdfs dfs -mkdir -p /t/conf               //创建一个文件夹
# bin/hdfs dfs -put etc/hadoop/hdfs-site.xml
      /user/hadoop/temp/conf`                  //上传文件
# bin/hdfs dfs -ls /user/hadoop/temp/conf      //查看目录下文件
# bin/hdfs dfs -get /user/hadoop/temp/conf/hdfs-site.xml /home/hadoop/get-site.xml                //将文件下载到本地并更名

11.配置mapred-site.xml

<property>  
<name>mapreduce.framework.name</name>   
<value>yarn</value>
</property>

12.配置yarn-site.xml

<property>  
<name>yarn.resourcemanager.hostname</name>
<value>此处写ip地址</value>
</property>

<property>  
<name>yarn.nodemanager.aux-services</name>      
<value>mapreduce_shuffle</value>
</property>

13.启动yarn

#  yarn-daemon.sh start resourcemanager              // 启动resourcemanager

14.进入yarn外部管理界面

在浏览器输入
hadoop1：8088

15.验证配置成功–词频统计

# vi /opt/data/wc.input
# bin/hdfs dfs -mkdir -p /user/hadoop/wordcount/input
# bin/hdfs dfs -put /opt/data/wc.input /user/hadoop/wordcount/input
mapreduce输出路径不能事先创建
# bin/hdfs dfs -mkdir -p /user/hadoop/wordcount/output
# bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /user/hadoop/wordcount/input /user/hadoop/wordcount/output
# bin/hdfs dfs -text /user/hadoop/wordcount/output/part*

Linux

更多推荐

网卡速率和双工模式的配置

http://linux.chinaitlab.com/system/792187.html1、mii-tool 配置网络设备协商方式的工具； 1.1 mii-tool 介绍； mii-tool - view, manipulate media-independent interface status （mii-tool 是查看，管理介质的网络接口的状态）

Linux

Linux虚拟文件系统之文件系统卸载（sys_umount())

Linux中卸载文件系统由umount系统调用实现，入口函数为sys_umount()。较于文件系统的安装较为简单，下面是具体的实现。1. /*sys_umont系统调用*/2. SYSCALL_DEFINE2(umount, char __user *, name, int, flags)3. {4.struct path path;

Linux

Linux系统下超级终端Minicom的使用方法（例如：连接交换机，路由器等）转http://baike.baidu.com/view/2911642.htm?fr=ala0_1

Linux系统下超级终端Minicom的使用方法 　　Linux下的Minicom的功能与下的超级终端功能相似，适于在通过超级终端对设备的管理以及对嵌入操作系统的升级，现写出Minicom的使用手册： 　　1．启动minicom 　　以root权限登录系统 　　使用命令 　　minicom –s 则minicom启动，屏