logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

spark写入hdfs文件小文件解决办法

我们在使用spark写入hdfs文件时,会经常由于partition的数目问题,导致最后保存在hdfs中时产生了很多小文件,之前也用过repartition的方法,但是会出现虽然会大量减少生成文件的数目,但是会使得最后保存文件这一步的效率很低,主要也是当repartition数目很小时,task任务数目也减少了,每个task执行起来的时间变长了。我常识在spark写入hdfs文件后,再合并这些小.

#spark#hdfs
到底了