一:上传spark压缩包,并解压。
①:在搭建spark 的时候先搭建好Hadoop集群Hadoop的搭建
spark配置环境变量

export SPARK_HOME=/home/spark-2.3.2
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

②:在这里插入代码片进入到spark目录下的conf目录进行如下操作,
分别是Spark的依赖的jdk目录,Spark根目录,Hadoop配置目录和Spark本地的数据存储目录。加完后保存。

cp spark-env.sh.template spark-env.sh
vi spark-env.sh
# 修改内容如下
export JAVA_HOME=/home/jdk/java
export SPARK_HOME=/home/spark-2.3.2
export SPARK_LOCAL_DIRS=/home/spark-2.3.2/tmp
export HADOOP_CONF_DIR=/home/hadoop-2.7.7/etc/hadoop

③: 修改slaves.template,按上一个步骤,先复制在更改名字为slaves,删除里面的localhost,添加各个主机的ip作为子节点。

如:
192.168.85.128
192.168.85.129
192.168.85.130

④:接下指定Spark集群的默认配置,通过指定Spark的环境变量文件spark-defaults.conf,位于Spark安装目录下的conf目录下,同样默认不存在这个文件,只有spark-defaults.conf.template。
所以同样将其重命名为spark-defaults.conf:

spark.yarn.historyServer.address   192.168.85.128:18080
spark.eventLog.enabled           true
# hdfs://192.168.85.128:9000/spark 是在hdfs的50070端口上创建的。
spark.eventLog.dir               hdfs://192.168.85.128:9000/spark
spark.serializer                 org.apache.spark.serializer.KryoSerializer

注意IP为主服务器的实际IP,注意替换。

  • 在其他节点配置的时候换成其他节点的ip地址

⑤: 启动spark
在启动spark之前,先启动Hadoop并在hdfs上创建一个spark目录。

二:
①:同样的操作在另外两个集群上搭建
直接scp拷贝到其他集群上即可。

bin/hdfs dfs -mkdir -p /spark
# 启动spark服务
sbin/start-all.sh
# 启动spark的shll界面
bin/spark-shell --master spark://192.168.85.128:7077
Logo

大数据从业者之家,一起探索大数据的无限可能!

更多推荐