Hadoop 2.0 安装向导

最新版本的HADOOP2.0与老版本相比有不同的目录结构。本文将介绍一种简单安装Hadoop2.0到你的电脑上的方法（Hadoop 0.23安装）。这有许多可以执行的方式，现在介绍以下：如果想安装老版本的hadoop此处不再介绍。首先一个可用的linux操作系统，此处介绍使用ubuntu创建一个名为hadoop的用户并做以下操作：1、配置SSH2、安装JDK

donson_x64

4452人浏览 · 2012-06-05 19:26:46

donson_x64 · 2012-06-05 19:26:46 发布

最新版本的HADOOP2.0与老版本相比有不同的目录结构。

本文将介绍一种简单安装Hadoop2.0到你的电脑上的方法（Hadoop 0.23 安装）。

这有许多可以执行的方式，现在介绍以下：

如果想安装老版本的hadoop此处不再介绍。

首先一个可用的linux操作系统，此处介绍使用ubuntu

创建一个名为hadoop的用户并做以下操作：

1、配置SSH

2、安装JDK

3、安装Hadoop

更新 repository
#sudo apt-get update

下载SSH

   
      1
      #sudo apt-get install openssh-serveropenssh-client
     
      2
      #ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
     
      3
      #cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 
     
      4
       
      5
      #sudo chmod go-w $HOME $HOME/.ssh
     
      6
      #sudo chmod 600 $HOME/.ssh/authorized_keys
     
      7
      #sudo chown `whoami` $HOME/.ssh/authorized_keys

测试 SSH

   
      01
      #ssh localhost
     
      02
      OK
     
      03
      #exit
     
      04
      安装jdk
     
      05
       
      06
      #sudo mkdir /usr/java
     
      07
      #cd /usr/java
     
      08
      #sudo wgethttp://download.oracle.com/otn-pub/java/jdk/6u31-b04/jdk-6u31-linux-i586.bin 
     
      09
       
      10
      #sudo chmod o+w jdk-6u31-linux-i586.bin
     
      11
      #sudo chmod +x jdk-6u31-linux-i586.bin
     
      12
      #sudo ./jdk-6u31-linux-i586.bin

下载并解压hadoop2.0.x并解压到一个文件夹中，此处叫此文件夹为HADOOP_PREFIX

设置环境变量

   
      1
      exportHADOOP_PREFIX="/home/hadoop/software/hadoop-2.0.0-alpha"
     
      2
      export  PATH=$PATH:$HADOOP_PREFIX/bin
     
      3
      export  PATH=$PATH:$HADOOP_PREFIX/sbin 
     
      4
       
      5
      exportHADOOP_MAPRED_HOME=${HADOOP_PREFIX}
     
      6
      export  HADOOP_COMMON_HOME=${HADOOP_PREFIX}
     
      7
      export  HADOOP_HDFS_HOME=${HADOOP_PREFIX}
     
      8
      export  YARN_HOME=${HADOOP_PREFIX}

重启一次电脑使env / path 变量生效

Hadoop 2.x 版本中 /etc/hadoop 是默认的配置文件夹

需要在/etc/hadoop目录中修改/创建以下属性文件

编辑 core-site.xml

   
      01
      <configuration> 
     
      02
       
      03
      <property>
     
      04
      <name>fs.default.name</name>
     
      05
      <value>hdfs://localhost:8020</value>
     
      06
      <description>The name of the default file system. Either the
     
      07
      literal string "local" or a host:port for NDFS.
     
      08
      </description>
     
      09
      <final>true</final>
     
      10
      </property>
     
      11
      </configuration>

编辑hdfs-site.xml

   
      01
      <configuration>
     
      02
      <property>
     
      03
      <name>dfs.namenode.name.dir</name>
     
      04
      <value>file:/home/hadoop/workspace/hadoop_space/hadoop23/dfs/name</value>
     
      05
      <description>Determines where on the local filesystem the DFS name node
     
      06
      should store the name table. If this is a comma-delimited list
     
      07
      of directories then the name table is replicated in all of the
     
      08
      directories, for redundancy. </description>
     
      09
      <final>true</final>
     
      10
      </property> 
     
      11
       
      12
      <property>
     
      13
      <name>dfs.datanode.data.dir</name>
     
      14
      <value>file:/home/hadoop/workspace/hadoop_space/hadoop23/dfs/data</value>
     
      15
      <description>Determines where on the local filesystem an DFS data node
     
      16
      should store its blocks. If this is a comma-delimited
     
      17
      list of directories, then data will be stored in all named
     
      18
      directories, typically on different devices.
     
      19
      Directories that do not exist are ignored.
     
      20
      </description>
     
      21
      <final>true</final>
     
      22
      </property> 
     
      23
       
      24
      <property>
     
      25
      <name>dfs.replication</name>
     
      26
      <value>1</value>
     
      27
      </property> 
     
      28
       
      29
      <property>
     
      30
      <name>dfs.permissions</name>
     
      31
      <value>false</value>
     
      32
      </property> 
     
      33
       
      34
      </configuration>

路径

file:/home/hadoop/workspace/hadoop_space/hadoop23/dfs/name与

file:/home/hadoop/workspace/hadoop_space/hadoop23/dfs/data

是计算机中的一些文件夹，用于存放数据和编辑文件的

路径必须用一个详细的URI描述。

在 /etc/hadoop 使用以下内容创建一个文件mapred-site.xml

   
      01
      <configuration>
     
      02
      <property>
     
      03
      <name>mapreduce.framework.name</name>
     
      04
      <value>yarn</value>
     
      05
      </property> 
     
      06
       
      07
      <property>
     
      08
      <name>mapred.system.dir</name>
     
      09
      <value>file:/home/hadoop/workspace/hadoop_space/hadoop23/mapred/system</value>
     
      10
      <final>true</final>
     
      11
      </property> 
     
      12
       
      13
      <property>
     
      14
      <name>mapred.local.dir</name>
     
      15
      <value>file:/home/hadoop/workspace/hadoop_space/hadoop23/mapred/local</value>
     
      16
      <final>true</final>
     
      17
      </property> 
     
      18
       
      19
      </configuration>

路径

file:/home/hadoop/workspace/hadoop_space/hadoop23/mapred/system与

file:/home/hadoop/workspace/hadoop_space/hadoop23/mapred/local

为计算机中用于存放数据的文件夹

路径必须用一个详细的URI描述。

编辑yarn-site.xml

   
      01
      <configuration>
     
      02
      <property>
     
      03
      <name>yarn.nodemanager.aux-services</name>
     
      04
      <value>mapreduce.shuffle</value>
     
      05
      </property>
     
      06
      <property>
     
      07
      <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
     
      08
      <value>org.apache.hadoop.mapred.ShuffleHandler</value>
     
      09
      </property> 
     
      10
       
      11
      </configuration>