第一部分：Spark基础篇

一个复杂的业务逻辑如果有 shuffle，那么就意味着前面阶段产生结果后，才能执行下一个阶段，即下一个阶段的计算要依赖上一个阶段的数据。那么我们按照 shuffle 进行划分(也就是按照宽依赖就行划分)，就可以将一个 DAG 划分成多个 Stage/阶段，在同一个 Stage 中，会有多个算子操作，可以形成一个pipeline 流水线，流水线内的多个平行的分区可以并行执行。

7.3 DAG的Stage如何划分

DAG叫做有向无环图，原始的RDD通过一系列的转换就形成了DAG，根据RDD之间的依赖关系不同将DAG划分成不同的stage。
对于"窄依赖"，partition的转换处理在stage中完成计算，不划分。
对于"宽依赖"，由于shuffle的存在，只能在父RDD处理完成后，才能开始接下来的计算，也就是说需要划分stage。且"宽依赖"是划分stage的依据。

7.4 DAG 划分为 Stage的算法了解吗

核心算法：回溯算法
从后往前回溯/反向解析，遇到窄依赖加入本 Stage，遇见宽依赖进行 Stage 切分。

8 算子类

8.1 Transformation算子

transformation变换/转换算子：用来将rdd进行转化，构建rdd的血缘关系，这种变换并不触发提交作业；

transformation有"惰性"，操作是延迟计算的，Action触发的时候才会真正的计算；

(1) map：对RDD中所有元素施加一个函数映射，返回一个新RDD，该RDD有原RDD中的每个元素经过function转换后组成。特点：输入一条，输出一条；

(2) filter：过滤符合条件的记录数，true保留，false过滤掉；

(3) flatmap：通过传入函数进行映射，对每一个元素进行处理。先map，后flat，与map相似，每个输入项可映射0到多个输出项；

(4) repartition：增加或减少分区，会产生shuffle (多分区到一个分区不会产生shuffle)；

(5) MapPartitions：每次处理一个分区的数据，这个分区的数据处理完后，原RDD中分区数据才能释放，但是数据量大时会导致oom；

(6) MapPartitionsWithIndex：与MapPartition相似，除此之外还会带分区索引值；

(7) foreache：循环遍历数据集中每个元素，并运行相应的逻辑；

(8) sample：随机抽样算子，对传进去的数按比例放回或不放回的抽样；

(9) GroupByKey：对数据会按照key进行分组，key相同会在同一个分区里；

(10) ReduceByKey：将相同的key，将按照相应的逻辑进行处理。先进行本地聚合(分区聚合)，在进行全局聚合；

(11) sortbykey：如果源RDD包含源类型(k,v)对，其中k可排序，则返回新RDD包含(k,v)对，并按照k排序；

(12) union：返回源数据集合参数数据的并集；

(13) distinct：返回对源数据集对元素去重后的新数据集；

还有intersection、aggregateBykey、join、cogroup、cartesian、pipe、coalesce、repartition、Repartition and SortWithPartition等算子。

8.2 Action算子

action算子会触发Spark提交作业(job)，并将数据输出spark系统。

(1) reduce：根据聚合逻辑聚合数据集中每个元素；

(2) take(n)：返回一个数据集包含前n个元素的集合；

(3) first： first=take(1)意思是返回数据集中的第1个元素；

(4) count：返回数据集中元素的个数。会在结果计算完成后回收到Driver端；

(5) collect：将计算结果回收到Driver端；

(6) foreach：循环遍历数据中每个元素，运行相应的逻辑；

(7) foreachPartition：遍历每个partition里边的数据；

还有takeSample、saveAsTextfile、takeOrdered、Save As SequenceFile、SaveAsObjectFile、countByKey等算子。

8.3 groupByKey与reduceByKey的区别

groupByKey：主要实现分组，key相同会在同1个分区里，没有预聚合作用；

reduceByKey：分局部聚合(每个分区的聚合) + 全局聚合(每个分区的汇总聚合)，具有预聚合操作；

reduceByKey效率更高些，尽量避免使用groupByKey

相同点：都是transformation类型的算子，所有的算子都是根据key进行分组，都会发生shuffle过程。

8.4 map和mapPartitions区别

map：每次处理一条数据，对每一个元素作遍历；

mapPartitions：每次处理一个分区数据，这个分区数据处理完后，原RDD中分区数据才能释放，但是数据量大时可能导致ooM；

开发指导: 当内存空间比较大的时候，建议使用mapPartition()，以提高效率。

相同点: 都是基于分区数据的计算。

8.5 updateStateBykey与mapwithState区别

updateStateBykey：统计全局key的状态，但是就算没有数据出入，它也会返回之前key的状态；

缺点: 如果数据量太大的话，我们需要checkpoint数据会占用较大的存储，而且效率也不高。

mapwithState(效率更高，生产中建议使用)：用户统计全局key的状态，但是它如果没有数据输入，便不会返回之前key的状态。我们可以只是关心那些已经发生变化的key，对于没有数据输入，则不会返回那些没有变化key的数据；

优点: 即使数据量很大，checkpoint也不会像updateStateBykey那样，占用较大的存储。

相同点: 对实时数据进行全局的汇总，有状态的计算。

8.6 Repartition和Coalesce区别

① 关系：
两者都是用来改变RDD的partition数量的，repartition底层调用的就是coalesce方法：coalesce(numPartitions, shuffle = true)

② 区别：
repartition一定会发生shuffle，coalesce根据传入的参数来判断是否发生shuffle；

一般情况下增大rdd的partition数量使用repartition，减少partition数量时使用coalesce。

8.7 HashPartitioner 与 RangePartitioner区别

HashPartitioner：使用key计算其hashCode，除以分区的个数取余，得到的值作为分区ID，其结果可能导致分区中的数据量不均匀，产生数据倾斜；

RangePartitioner：尽量保证每个分区中数据量的均匀，而且分区与分区之间是有序的，但是分区内的元素是不能保证有序的，即就是将一点范围的数据映射到某一个分区内。

大数据技术专区

大数据从业者之家,一起探索大数据的无限可能！

更多推荐

一文通览腾讯云大数据ES、数据湖计算、云数据仓库产品新版本技术创新

大数据技术专区

【大数据实训】基于Hive的北京市天气系统分析报告(二)

大数据技术专区

Python大数据之PySpark(七)SparkCore案例

大数据技术专区

所有评论(0)

查看更多评论

奔跑者-辉

@index_test

已为社区贡献1条内容

第一部分：Spark基础篇

奔跑者-辉

1 Spark作业运行流程

2 任务提交四个阶段

3 Spark运行原理

4 Spark 生态圈都包含哪些组件

5 Spark 与 Mapreduce 的区别

5.1 Spark效率 比 MR更高的原因

5.2 Spark 与 MR的Shuffle的区别

6 RDD

6.1 什么是RDD

6.2 RDD五大属性

6.3 关于弹性

6.4 RDD特点

6.5 RDD持久化原理

6.6 RDD有哪些缺陷

6.7 区分RDD的宽窄依赖

6.8 为什么要设计宽窄依赖

7 DAG

7.1 什么是DAG

7.2 DAG中为什么要划分 Stage

7.3 DAG的Stage如何划分

7.4 DAG 划分为 Stage的算法了解吗

8 算子类

8.1 Transformation算子

8.2 Action算子

8.3 groupByKey与reduceByKey的区别

8.4 map和mapPartitions区别

8.5 updateStateBykey与mapwithState区别

8.6 Repartition和Coalesce区别

8.7 HashPartitioner 与 RangePartitioner区别

所有评论(0)

奔跑者-辉

5.1 Spark效率比 MR更高的原因