logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Hive详解(1)

多级分区相当于在表目录下创建了多级目录文件,并且在最底层目录中添加数据文件,也就是必须在每一级添加数据,否则创建不了注意:在开发中使用多级分区时,分区字段间一定要有依赖关系,如年月日,省市区;一般多级分区表不会超过3级,若分级过多将会产生大量小文件,造成大量内存资源占用(开启容器有最小容量限制),hdfs不善于处理小文件。

文章图片
#hive#大数据#hadoop
Python基础(5)-Pandas

pandas是一个数据分析库,能快速分析结构化数据,并提供了高级数据结构和操作工具。1、Pandas是Python的一个第三方包,也是商业和工程领域最流行的结构化数据工具集,用于数据清洗、处理以及分析2、Pandas和Spark中很多功能都类似,甚至使用方法都是相同的;学会Pandas之后再学习Spark就更加简单快速3、Pandas在整个数据开发的流程中的应用场景:在大数据场景下,数据在流转的过

文章图片
#pandas#python#数据分析
到底了