Learning Spark——使用spark-shell运行Word Count

在hadoop、zookeeper、hbase、spark集群环境搭建中已经把环境搭建好了，工欲善其事必先利其器，现在器已经有了，接下来就要开搞了，先从spark-shell开始揭开Spark的神器面纱。spark-shell是Spark的命令行界面，我们可以在上面直接敲一些命令，就像windows的cmd一样，进入Spark安装目录，执行以下命令打开spark-shell：bin/spark-

Trigl

8632人浏览 · 2017-04-27 11:20:29

Trigl · 2017-04-27 11:20:29 发布

在hadoop、zookeeper、hbase、spark集群环境搭建中已经把环境搭建好了，工欲善其事必先利其器，现在器已经有了，接下来就要开搞了，先从spark-shell开始揭开Spark的神器面纱。

spark-shell是Spark的命令行界面，我们可以在上面直接敲一些命令，就像windows的cmd一样，进入Spark安装目录，执行以下命令打开spark-shell：

bin/spark-shell --master spark://hxf:7077 --executor-memory 1024m --driver-memory 1024m --total-executor-cores 4

executor-memory是slave的内存，driver-memory是master的内存，total-executor-cores是所有的核数

终端显示如下图，可以看到spark-shell已经帮我们初始化了两个变量sc、spark，sc是Spark context，spark是Spark session，没吃过猪肉见过猪跑，像这些包含context啊session啊不用想就很重要，同样Spark的执行就是靠这俩变量，目前先混个眼熟，日后再说

这里写图片描述

Spark管理页面显示如下图：

这里写图片描述

OK，现在我们开始动手敲第一个例子，统计Spark目录下 README.md 这个文件中各个单词出现的次数：

这里写图片描述

首先给出完整的代码，方便大家有一个整体的思路：

val textFile = sc.textFile("file:/data/install/spark-2.0.0-bin-hadoop2.7/README.md")
val wordCounts = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)
wordCounts.collect()

代码很简单，但是第一次见到可能不是很理解，下面进行讲解

1. Spark读取原始数据的方式

首先读取 README.md：

val textFile = sc.textFile("README.md")

这里写图片描述

这条代码是读取原始数据转化为Spark自己的数据格式RDD，一般读取原始数据有两种方式

1、测试用法：调用SparkContext的parallelize方法

val rdd = sc.parallelize(Array(1 to 10))

这样就获取到了1到10的数组，多用于测试程序，正式开发不用这种

2、正式用法：所有Hadoop可以使用的数据源Spark都可以使用，当然我们最常用的还是SparkContext的textFile方法，如读取Hdfs上的文件：

val rdd = sc.parallelize("hadoop://hxf:9000/test/test.log")

2. Spark的基础数据类型RDD

上面通过textFile得到的结果叫做RDD，是Spark的基础数据类型。

RDD是Resillient Distributed Dataset的简称，意思是弹性分布式数据集，这个名字不是太好理解，但是我们可以从字面上了解到RDD是分布式的、并且是数据集合，假设分布式系统下有多个文件，这些文件有很多行，RDD指的是所有这些文件所有行的集合，而不是单独某一行。所以我们对RDD进行的一系列操作都是对整个集合进行的操作，并且Spark是将整个RDD放在内存中进行处理，而不是像MapReduce那样放在磁盘中，所以Spark的运算速度才会比MapReduce快。

接下来继续讲解代码：

val wordCounts = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)
wordCounts.collect()

这里写图片描述

最后的结果显示各个单词出现的次数，代码中的flatMap、map、reduceByKey是RDD的转化操作，collect是RDD的行动操作，不理解没关系，后文详解。这一节先暂时讲到这里，欲听后事如何，请听下回分解。

向您推荐>>Eolink开发者社区

权威｜前沿｜技术｜干货｜国内首个API全生命周期开发者社区

更多推荐

ELK实现containerd的容器日志采集展示【基于logging的全栈监测】

企业级ELK Stack构建介绍

云原生

深入理解 Mocha 测试框架：从零实现一个 Mocha

前言什么是自动化测试自动化测试在很多团队中都是Devops环节中很难执行起来的一个环节，主要原因在于测试代码的编写工作很难抽象，99%的场景都需要和业务强绑定，而且写测试代码的编写工作量往往比编写实际业务代码的工作量更多。在一些很多业务场景中投入产出比很低，适合写自动化测试的应该是那些中长期业务以及一些诸如组件一样的基础库。自动化测试是个比较大的概念，其中分类也比较多，比如单元测试，端对端测试，集

云原生

(20200916 Solved)docker-compose up创建容器自动退出

问题描述如题，创建容器后自动退出了。并且docker start container无效解决方案原因是缺失了控制终端的配置，需要在docker-compose.yml中增加tty:true ，有时候这样也不行，需要再增加一个command:/bin/bash，命令不一定是这个，需要是一个不会退出的命令，然后用-d后台启动容器。Referencesdocker-compose启动容器后自动退出...

云原生

所有评论(0)

查看更多评论

Trigl

@Trigl

已为社区贡献2条内容