启动spark shell

Spark 和 Hadoop的交互

Spark部署模式包括:

  • Local 模式:单机模式
  • Standlone模式:使用Spark自带的简单集群管理器
  • YARN 模式:使用YARN作为集群管理器
  • Mesos 模式:使用Mesos作为集群管理器

启动spark shell

在SPAEK-SHELL中运行代码

  • Spark Shell提供了简单的方式来学习Spark API
  • Spark Shell 可以以实时、交互的方式来分析数据
  • Spark Shell 支持Scala和Python

打开Spark的方式(在docker配置spark环境下)

  1. 启动软件 Docker Desktop
  2. 打开cmd控制台
  3. 依次输入命令
docker ps -a  // 查看所有容器的容器
docker start  spark-master   // 启动spark-master节点
docker exec -it spark-master bash  // 进入主节点的bash面板
cd spark  // 选择spark目录
./bin/spark-shell   // 打开spark-shell

进入scala编程界面:
在这里插入图片描述

在Spark-shell中运行代码

spark-shell命令及常用的参数如下:

./bin/spark-shell --master <master-url>

spark的运行模式取决于传递给SparkContext的Master URL的值

Master URL 可以是一下任何一种模式:

  • local:使用一个Worker线程本地化运行spark(默认是local模式,此时完全不并行)
  • local[ * ] :使用逻辑CPU个数数量的线程来本地化运行spark
  • local[K] :使用K个Worker线程本地化运行spark,理想情况下,K应根据运行机器的CPU核数设定
  • spark://HOST:PORT 连接到指定的Spark stanlone master。默认端口是7077
  • yarn-clinet :以客户端模式连接到YARN集群。集群的位置可以在HADOOP_CONF_DIR环境变量中找到
  • yarn-cluster :以集群模式连接YARN集群。集群的位置可以在HADOOP_CONF_DIR环境变量中找到
  • mesos://HOST:POST :连接到指定的Mesos集群。默认端口是5050

如输入:./bin/spark-shell --master local[4] 启动本地四个集群,也就是启动4个线程模拟spark集群:
在这里插入图片描述

在spark-shell中测试scala代码

scala> 8*2+5
res0: Int = 21

退出spark shell:

输入命令:

scala>:quit

或使用Ctrl+D退出spark shell

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐