
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
Hive详解(1)
多级分区相当于在表目录下创建了多级目录文件,并且在最底层目录中添加数据文件,也就是必须在每一级添加数据,否则创建不了注意:在开发中使用多级分区时,分区字段间一定要有依赖关系,如年月日,省市区;一般多级分区表不会超过3级,若分级过多将会产生大量小文件,造成大量内存资源占用(开启容器有最小容量限制),hdfs不善于处理小文件。

Python基础(5)-Pandas
pandas是一个数据分析库,能快速分析结构化数据,并提供了高级数据结构和操作工具。1、Pandas是Python的一个第三方包,也是商业和工程领域最流行的结构化数据工具集,用于数据清洗、处理以及分析2、Pandas和Spark中很多功能都类似,甚至使用方法都是相同的;学会Pandas之后再学习Spark就更加简单快速3、Pandas在整个数据开发的流程中的应用场景:在大数据场景下,数据在流转的过

到底了







