logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

数据仓库-Spark为什么比MR快?

(2)Spark不需要将计算的中间结果写入磁盘。这得益于Spark的RDD,在各个RDD的分区中,各自处理自己的中间结果即可。(2)对于Spark来说,每一个Job的结果都可以保存到内存中,供后续Job使用。(1)MR在Map阶段会在溢写阶段将中间结果频繁的写入磁盘,在Reduce阶段再从磁盘拉取数据。(1)对MR来说,每一个Job的结果都会落地到磁盘。(2)Spark的任务是以线程的方式运行在进

文章图片
#数据仓库#spark#mr
数仓-数据治理

1)对表的元数据和业务元数据进行合并,一方面做成数据字典,方便数仓之外人员查看,另一方面可以监控到资源占用较多的任务和表,分别处理小文件和清除僵尸数据,做ddl控制。2)对集群元数据进行合并,监控资源使用情况,峰值,合理安排任务运行时间,错峰,削峰,监控任务运行情况。3)数据质量,老生常谈,数据服务SLA基本靠数据质量来保证,必做空值,重复值,枚举值验证,交叉验证。1)血缘,快速追踪任务上下游,修

#数据仓库#大数据#hive +1
到底了