登录社区云,与社区用户共同成长
邀请您加入社区
该用户还未填写简介
暂无可提供的服务
Hive的后端存储是HDFS,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量。但是在数据仓库中,越是上层的表其汇总程度就越高,数据量也就越小。而且这些表通常会按日期进行分区,随着时间的推移,HDFS的文件数目就会逐渐增加。小文件带来的问题关于这个问题的阐述可以读一读Cloudera的这篇文章。简单来说,HDFS的文件元信息,