T1ssy 个人主页

@T1ssy

T1ssy

2025-06-03 16:41:57 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Spark性能优化：核心技巧与实战指南

Spark会将其以高效的方式分发到每个节点一次，而不是随着每个Task序列化传输，极大减少网络开销。：Shuffle是跨节点的数据混洗，涉及磁盘I/O、网络I/O和数据序列化，代价极高。（默认200）增加分区数，让倾斜的Key分散到更多Task中（治标不治本，对于极端倾斜效果有限）。：将倾斜的Key加上随机前缀，打散到不同分区处理，最后再去掉前缀合并结果。：将倾斜的Key单独拿出来处理（如使用广播

#spark #大数据

Hive性能优化十大技巧

本文总结了Hive性能优化的15个关键策略：1）启用本地模式处理小数据集；2）使用EXPLAIN分析SQL执行计划；3）配置Fetch抓取避免不必要MR任务；4）开启严格模式防止低效SQL；5）JVM重用减少启动开销；6）合理使用分区/分桶和压缩技术；7）动态调整Map/Reduce数量；8）并行执行独立Stage；9）启用CBO优化器；10）谓词下推提前过滤；11）MapJoin优化小表关联；1

#hive #hadoop

到底了