简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
Hive & Spark & Flink 数据倾斜
综上所述,对数据倾斜的问题,首先要判断该 key 是否会对结果产生影响,对其进行过滤或者打上随机 key。然后还可以通过随机前缀的两阶段处理 和 增加 reduce, map,减少 shuffle次数,重分区(Flink)等。
暂无文章信息
该用户还未填写简介
暂无可提供的服务
综上所述,对数据倾斜的问题,首先要判断该 key 是否会对结果产生影响,对其进行过滤或者打上随机 key。然后还可以通过随机前缀的两阶段处理 和 增加 reduce, map,减少 shuffle次数,重分区(Flink)等。