Hadoop伪分布式环境搭建详细步骤和词频统计
一.Linux系统配置以下操作是在root用户下进行的1.配置主机名(1)修改/etc/hosts文件,自定义主机名,这里修改为master[root@localhost ~]# vi /etc/hosts127.0.0.1localhost master localhost4 localhost4.localdomain4::1localhos
一.Linux系统配置
以下操作是在root用户下进行的
1.配置网络环境
在Linux图形化界面,点击窗口栏的System-Preferences-Network Connections-System eth0-IPv4 Settings
Method的选项默认是DHCP,修改为Manual
点击右侧的Add,Address填写为ip地址,Network填写255.255.255.0,Gateway填写0.0.0.0
2.配置本地映射
在window上,配置hosts文件
打开文件C:\Windows\System32\drivers\etc\hosts
最后一行追加:ip 主机名
192.168.172.101 master
3.关闭防火墙
# service iptables status //查看防火墙状态
# service iptables stop //临时关闭防火墙
# chkconfig iptables off //永久关闭防火墙
若是永久关闭防火墙,重启后才会生效
4.在Linux上配置hosts列表
# vi /etc/hosts
打开文件后,在最后一行追加
192.168.172.144 master
5.创建文件夹,上传安装包
# sudo mkdir -p /opt/software //用来存放安装包
# sudo mkdir -p /opt/modules //软件安装在这个文件夹
# sudo mkdir -p /opt/data/tmp //存放数据
# sudo chown -R hadoop:hadoop *
使用rz工具或者filezilla将安装包上传到/opt/software目录下
我使用的安装包是hadoop-2.5.0.tar.gz 和 jdk-8u151-linux-x64.tar.gz
二.安装配置JDK
这个过程也是步骤特别多,请参考我的博文《Linux系统上安装Java详细步骤》,地址是http://blog.csdn.net/MusicEnchanter/article/details/78751354
三.安装配置Hadoop
1.将hadoop安装包解压到/opt/modules目录下
# tar -zxvf hadoop-2.5.0.tar.gz -C /opt/modules
2.配置环境变量
# vi /etc/profile
在文件最后插入如下语句
# HADOOP_HOME
export HADOOP_HOME=/opt/modules/hadoop-2.5.0
export HADOOP_CONF_FILE=$HADOOP_HOME/etc/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
检查配置结果
# source /etc/profile //使配置生效
# echo $HADOOP_HOME //若出现hadoop安装路径,则配置成功
3.配置 hadoop-env.sh,yarn-env.sh,mapred-env.sh三个文件
# echo $JAVA_HOME
返回的是java路径:
/opt/modules/jdk1.8.0_151
使用vi命令分别打开这三个文件,将java路径修改为
export JAVA_HOME=/opt/modules/jdk1.8.0_151
# bin/hadoop //查看是否生效
4.配置core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.172.147:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/data/tmp</value>
</property>
</configuration>
指定namenode所在机器位置及交互端口号,另外也是指定使用的是HDFS文件系统
5.配置hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
指定副本数的个数,默认的是三个
6.配置slaves,将文件内容修改为主机名即可
master
指定从节点位置,包括DataNode和nodemanager
7.格式化namenode
# bin/hdfs namenode format
8.启动
# hadoop-daemon.sh start namenode
# hadoop-daemon.sh start datanode
9.验证,进入hdfs外部管理界面
在浏览器输入
master:50070
10.
# bin/hdfs dfs -mkdir -p temp/conf` //创建一个文件夹
# bin/hdfs dfs -mkdir -p /t/conf //创建一个文件夹
# bin/hdfs dfs -put etc/hadoop/hdfs-site.xml
/user/hadoop/temp/conf` //上传文件
# bin/hdfs dfs -ls /user/hadoop/temp/conf //查看目录下文件
# bin/hdfs dfs -get /user/hadoop/temp/conf/hdfs-site.xml /home/hadoop/get-site.xml //将文件下载到本地并更名
11.配置mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
12.配置yarn-site.xml
<property>
<name>yarn.resourcemanager.hostname</name>
<value>此处写ip地址</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
13.启动yarn
# yarn-daemon.sh start resourcemanager // 启动resourcemanager
14.进入yarn外部管理界面
在浏览器输入
hadoop1:8088
15.验证配置成功–词频统计
# vi /opt/data/wc.input
# bin/hdfs dfs -mkdir -p /user/hadoop/wordcount/input
# bin/hdfs dfs -put /opt/data/wc.input /user/hadoop/wordcount/input
mapreduce输出路径不能事先创建
# bin/hdfs dfs -mkdir -p /user/hadoop/wordcount/output
# bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /user/hadoop/wordcount/input /user/hadoop/wordcount/output
# bin/hdfs dfs -text /user/hadoop/wordcount/output/part*
更多推荐
所有评论(0)