logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Spark性能优化指南——高级篇(解决倾斜、Shuffle调优)

本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘I

文章图片
#spark#性能优化
到底了