hadoop伪分布式配置及遇到的问题
一、运行wordcount例子在hadoop上新建目录,然后用put程序将linux中的文件input1.txt和input2.txt输入到hadoop文件系统中的/tmp/input/中 hadoopfs -mkdir /tmp/inputhadoopfs -mkdir /tmp/outputhadoopfs -put input1.txt /tmp/input/hado
一、运行wordcount例子
在hadoop上新建目录,然后用put程序将linux中的文件input1.txt和input2.txt输入到hadoop文件系统中的/tmp/input/中
hadoopfs -mkdir /tmp/input
hadoopfs -mkdir /tmp/output
hadoopfs -put input1.txt /tmp/input/
hadoop fs -put input2.txt /tmp/input/
执行wordcount例子,注意:/tmp/output1的“/”要加上。而且/tmp/output1这个输出目录不能提前创建。
执行程序:
bin/hadoop jar~/software/hadoop-0.20.2/hadoop-0.20.2-examples.jar wordcount /tmp/input/tmp/output1
查看结果:
(1)浏览器查看hdfs
(2)命令行:bin/hadoop fs -cat/tmp/output1/part-r-00000
二、进入不了hdfs
hadoop运行状态直接关机,导致hadoop数据目录(/tmp/hadoop-USERNAME)被删除,重起开启计算机,,使用start-all.sh启动hadoop,使用jps命令(启动hadoop服务后直接在终端中输入jps即可)会发现namenode没起来。
解决方案:应该删除 /tmp/hadoop-root/dfs/name这个目录,然后再重新格式化,成功。然后执行bin/stop-all.sh,bin/hadoop namenode –format命令重新格式化。
注意要关机前使用命令stop-all.sh关闭hadoop。
三、单击伪分布式配置
1.装jdk,配置环境变量
chmod +x jdk-6u24-linux-i586.bin
./jdk-6u24-linux-i586.bin
修改文件:sudo gedit /etc/profile
#set Java Environment
export JAVA_HOME="/home/user/software/jdk1.6.0_24"
export CLASSPATH="$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib"
export PATH="$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOMR/bin"
umask 022
2.装ssh
1)确认已经连接上互联网,输入命令
sudo apt-get install ssh
2)配置为可以无密码登录本机。
首先查看在u用户下是否存在.ssh文件夹(注意ssh前面有“.”,这是一个隐藏文件夹),输入命令:
1) ls -a /home/u
一般来说,安装SSH时会自动在当前用户下创建这个隐藏文件夹,如果没有,可以手动创建一个。u为当前登陆系统的用户名。
接下来,输入命令:
2)ssh-keygen -t dsa-P '' -f ~/.ssh/id_dsa
解释一下,ssh-keygen代表生成密钥;-t(注意区分大小写)表示指定生成的密钥类型;dsa是dsa密钥认证的意思,即密钥类型;-P用于提供密语;-f指定生成的密钥文件。(关于密钥密语的相关知识这里就不详细介绍了,里面会涉及SSH的一些知识,如果读者有兴趣,可以自行查阅资料。)
在Ubuntu中,~代表当前用户文件夹,这里即/home/u。
这个命令会在.ssh文件夹下创建两个文件id_dsa及id_dsa.pub,这是SSH的一对私钥和公钥,类似于钥匙及锁,把id_dsa.pub(公钥)追加到授权的key里面去。
输入命令:
3) cat~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
这段话的意思是把公钥加到用于认证的公钥文件中,这里的authorized_keys是用于认证的公钥文件。
至此无密码登录本机已设置完毕。
4)验证SSH是否已安装成功,以及是否可以无密码登录本机。(如果需要输入密码,那么可以修改/etc/ssh/sshd_config文件下的PasswordAuthentication no)
输入命令:
1. ssh -version
显示结果:
OpenSSH_5.1p1 Debian-6ubuntu2, OpenSSL 0.9.8g 19Oct 2007
Bad escapecharacter 'rsion'.
显示SSH已经安装成功了。
输入命令:
2. ssh localhost
会有如下显示:
Theauthenticity of host 'localhost (::1)' can't be established.
RSA keyfingerprint is 8b:c3:51:a5:2a:31:b7:74:06:9d:62:04:4f:84:f8:77.
Are you sureyou want to continue connecting (yes/no)? yes
Warning: Permanentlyadded 'localhost' (RSA) to the list of known hosts.
Linux master2.6.31-14-generic #48-Ubuntu SMP Fri Oct 16 14:04:26 UTC 2009 i686
To accessofficial Ubuntu documentation, please visit:
http://help.ubuntu.com/
Last login:Mon Oct 18 17:12:40 2010 from master
admin@Hadoop:~$
这说明已经安装成功,第一次登录时会询问你是否继续链接,输入yes即可进入。
实际上,在Hadoop的安装过程中,是否无密码登录是无关紧要的,但是如果
配置无密码登录,每次启动Hadoop,都需要输入密码以登录到每台机器的DataNode上,考虑到一般的Hadoop集群动辄数百台或上千台机器,因此一般来说都会配置SSH的无密码登录。
ps -e |grep ssh
如果看到sshd那说明ssh-server已经启动了。
如果没有则可以这样启动:sudo /etc/init.d/sshstart
ssh-server配置文件位于/ etc/ssh/sshd_config,在这里可以定义SSH的服务端口,默认端口是22,你可以自己定义成其他端口号,如222。
然后重启SSH服务:
sudo /etc/init.d/ssh stop
sudo /etc/init.d/ssh start
3. Hadoop-env.sh:
export JAVA_HOME=你的JDK安装地址 //不要加双引号
指定JDK的安装位置:
4. conf/core-site.xml:
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
这是Hadoop核心的配置文件,这里配置的是HDFS的地址和端口号。
5.conf/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
这是Hadoop中HDFS的配置,配置的备份方式默认为3,在单机版的Hadoop中,需要将其改为1。
6.conf/mapred-site.xml:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
这是Hadoop中MapReduce的配置文件,配置的是JobTracker的地址和端口。
需要注意的是,如果安装的是0.20之前的版本,那么只有一个配置文件,即为Hadoop-site.xml。
接下来,在启动Hadoop前,需格式化Hadoop的文件系统HDFS(这点与Windows是一样的,重新分区后的卷总是需要格式化的)。进入Hadoop文件夹,输入下面的命令:
1. bin/Hadoop NameNode -format
格式化文件系统,接下来启动Hadoop。
输入命令:
1. bin/start-all.sh(全部启动)
最后,验证Hadoop是否安装成功。
打开浏览器,分别输入网址:
1. http://localhost:50030(MapReduce的Web页面)
2. http://localhost:50070 (HDFS的Web页面)
如果都能查看,说明Hadoop已经安装成功。
对于Hadoop来说,安装MapReduce及HDFS都是必须的,但是如果有必要,你依然可以只启动HDFS(start-dfs.sh)或MapReduce(start-mapred.sh)。
四、遇到的问题
(1)遇到在hadoop/bin目录下,直接执行hadoop,start-all.sh等命令失效的情况。但是在hadoop目录下通过bin/hadoop,bin/start-all.sh方式则未失效。
解决方案:
方法1:使用命令添加环境变量
export PATH=”$PATH:/home/user/software/hadoop-0.20.2/bin:”;
千万不要执行exportPATH=”/home/user/software/hadoop-0.20.2/bin:”;这样会把PATH中前面的环境变量覆盖掉。
另外注意:/etc/profile文件中的环境变量会自动添加,所以以上PATH最好写在该文件中,
如下所示:
#set Java Environment
export JAVA_HOME="/home/user/software/jdk1.6.0_24"
export CLASSPATH="$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib"
export PATH="$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOMR/bin:/home/user/software/hadoop-0.20.2/bin:"
umask 022
修改之后可以通过hadoop,start-all.sh,stop-all.sh,hadoop-daemonstart –namenode等命令直接执行。
更多推荐
所有评论(0)