登录社区云,与社区用户共同成长
邀请您加入社区
该用户还未填写简介
暂无可提供的服务
Shuffle指的是集群范围内跨节点、跨进程的数据分发。之前学的几个算子比如map,filter,mapPartition,flatmap都是用于RDD内部的数据转换,不会引入Shuffle计算而groupByKey,sortByKey,reduceByKey,aggregateByKey都会引入Shuffle计算,并且这些算子只可以作用在paired(KV)RDD上。这是最核心的瓶颈。Map 端
机器学习基础