大数据面试指南个人主页

@czxylzl

大数据面试指南

2024-10-18 19:51:18 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大数据高频面试题之Hive表数据的加载与导出

Hive表数据加载1）直接向分区表中插入数据insert into table score3 partition(month =‘201807’) values (‘001’,‘002’,‘100’);2）通过查询插入数据先通过load加载创建一个表(linux) load data local inpath ‘/export/servers/hivedatas/score.csv’ overwr

#大数据 #hive

大数据高频面试题之HiveSQL的转化过程

Hive是如何将SQL转化为MapReduce任务的，整个编译过程分为六个阶段：1.Antlr定义SQL的语法规则，完成SQL词法，语法解析，将SQL转化为抽象语法树AST Tree；2.遍历AST Tree，抽象出查询的基本组成单元QueryBlock；3.遍历QueryBlock，翻译为执行操作树OperatorTree；4.逻辑层优化器进行OperatorTree变换，合并不必要的Reduc

#hive #sql #大数据

大数据高频面试题之Hive的内部表和外部表

创建表时：创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。删除表时：在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。1.未被external修饰的是内部表【managed table】，被external修饰的为外部表【extern

#数据仓库 #hive #大数据

大数据高频面试题之Hive的分区及其优势

什么是hive分区 : 就是一种对表进行粗略划分的机制,可以实现加快查询速度的组织形式.在使用分区时, 在表目录下会有相应的子目录,当查询时添加了分区谓词,那么该查询会直接定位到相应的子目录中进行查询,避免全表查询,提成查询效率.注意事项：1 . hive的分区使用的表外字段，分区字段是一个伪列但是可以查询过滤。2 . 分区字段不建议使用中文3 . 不太建议使用动态分区。因为动态分区将会使用map

#大数据 #hive

大数据高频面试题之如何合理设置Reduce的数量

1．调整reduce个数方法一（1）每个Reduce处理的数据量默认是256MBhive.exec.reducers.bytes.per.reducer=256000000（2）每个任务最大的reduce数，默认为1009hive.exec.reducers.max=1009（3）计算reducer数的公式N=min(参数2，总输入数据量/参数1)2．调整reduce个数方法二在hadoop的ma

#hive #大数据

Linux集群的部署定时任务时钟同步(全网最通俗易懂的资料，小白也能看懂！！！)

linux集群的部署1、在虚拟机中实例三个虚拟机主机，三个虚拟主机需要配置IP，且两两之间可以ping通2、关闭防火墙（需要在所有的主机中进行设置）/etc/init.d/iptablesstopchkconfigiptables off3、关闭selinux（需要在所有的主机中进行设置）编辑文件vi /etc/selinux/conf...

到底了