logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据高频面试题之Hive表数据的加载与导出

Hive表数据加载1)直接向分区表中插入数据insert into table score3 partition(month =‘201807’) values (‘001’,‘002’,‘100’);2)通过查询插入数据先通过load加载创建一个表(linux) load data local inpath ‘/export/servers/hivedatas/score.csv’ overwr

#大数据#hive
大数据高频面试题之HiveSQL的转化过程

Hive是如何将SQL转化为MapReduce任务的,整个编译过程分为六个阶段:1.Antlr定义SQL的语法规则,完成SQL词法,语法解析,将SQL转化为抽象语法树AST Tree;2.遍历AST Tree,抽象出查询的基本组成单元QueryBlock;3.遍历QueryBlock,翻译为执行操作树OperatorTree;4.逻辑层优化器进行OperatorTree变换,合并不必要的Reduc

#hive#sql#大数据
大数据高频面试题之Hive的内部表和外部表

创建表时:创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径, 不对数据的位置做任何改变。删除表时:在删除表的时候,内部表的元数据和数据会被一起删除, 而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。1.未被external修饰的是内部表【managed table】,被external修饰的为外部表【extern

#数据仓库#hive#大数据
大数据高频面试题之Hive的分区及其优势

什么是hive分区 : 就是一种对表进行粗略划分的机制,可以实现加快查询速度的组织形式.在使用分区时, 在表目录下会有相应的子目录,当查询时添加了分区谓词,那么该查询会直接定位到相应的子目录中进行查询,避免全表查询,提成查询效率.注意事项:1 . hive的分区使用的表外字段,分区字段是一个伪列但是可以查询过滤。2 . 分区字段不建议使用中文3 . 不太建议使用动态分区。因为动态分区将会使用map

#大数据#hive
大数据高频面试题之如何合理设置Reduce的数量

1.调整reduce个数方法一(1)每个Reduce处理的数据量默认是256MBhive.exec.reducers.bytes.per.reducer=256000000(2)每个任务最大的reduce数,默认为1009hive.exec.reducers.max=1009(3)计算reducer数的公式N=min(参数2,总输入数据量/参数1)2.调整reduce个数方法二在hadoop的ma

#hive#大数据
Linux集群的部署 定时任务 时钟同步(全网最通俗易懂的资料,小白也能看懂!!!)

linux集群的部署​1、在虚拟机中实例三个虚拟机主机,三个虚拟主机需要配置IP,且两两之间可以ping通​2、关闭防火墙(需要在所有的主机中进行设置)​/etc/init.d/iptablesstop​chkconfigiptables off​3、关闭selinux(需要在所有的主机中进行设置)​编辑文件vi /etc/selinux/conf...

到底了