
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
Spark性能优化:核心技巧与实战指南
Spark会将其以高效的方式分发到每个节点一次,而不是随着每个Task序列化传输,极大减少网络开销。:Shuffle是跨节点的数据混洗,涉及磁盘I/O、网络I/O和数据序列化,代价极高。(默认200)增加分区数,让倾斜的Key分散到更多Task中(治标不治本,对于极端倾斜效果有限)。:将倾斜的Key加上随机前缀,打散到不同分区处理,最后再去掉前缀合并结果。:将倾斜的Key单独拿出来处理(如使用广播

Hive性能优化十大技巧
本文总结了Hive性能优化的15个关键策略:1)启用本地模式处理小数据集;2)使用EXPLAIN分析SQL执行计划;3)配置Fetch抓取避免不必要MR任务;4)开启严格模式防止低效SQL;5)JVM重用减少启动开销;6)合理使用分区/分桶和压缩技术;7)动态调整Map/Reduce数量;8)并行执行独立Stage;9)启用CBO优化器;10)谓词下推提前过滤;11)MapJoin优化小表关联;1

到底了







