大数据技术笔试题库--带答案

34、Hive建表时，数值列的字段类型选取decimal（x,y）与Float、double的区别，下列说法正确的是？12、在MapTask的Combine阶段，当处理完所有数据时，MapTask会对所有的临时文件进行一次（B）。16、Hive最重视的性能是可测量性、延展性、（B）和对于输入格式的宽松匹配性。19、按粒度大小的顺序，Hive数据被分为：数据库、数据表、（C）、桶。29、下列说法中，

码农小C

5815人浏览 · 2023-07-17 22:54:21

码农小C · 2023-07-17 22:54:21 发布

一、单选:

1、下列选项中，执行哪一个命令查看Linux系统的IP配置。（C）

A、ipconfig

B、find

C、ifconfig

D、arp -a
注意：windows查看ip配置是ipconfig

2、在MapReduce程序中，map()函数接收的数据格式是（D）。

A、字符串

B、整型

C、Long

D、键值对

3、下列选项中，关于HDFS的架构说法正确的是（B）。

A、HDFS采用的是主备架构

B、HDFS采用的是主从架构

C、HDFS采用的是从备架构

D、以上说法均错误

4、下列选项中，主要用于决定整个MapReduce程序性能高低的阶段是（D）。

A、MapTask

B、ReduceTask

C、分片、格式化数据源

D、Shuffle

5、下列选项中，用于上传文件的Shell命令是（D）。

A、-ls

B、-mv

C、-cp

D、-put

6、HDFS中的Block默认保存（A）份。

A、3份

B、2份

C、1份

D、不确定

7、下列选项中，若是哪个节点关闭了，就无法访问Hadoop集群（A）。

A、namenode

B、datanode

C、secondary namenode

D、yarn

8、下列选项中，Hadoop2.x版本独有的进程是（C）。

A、JobTracker

B、TaskTracker

C、NodeManager

D、NameNode

9、Hadoop2.0集群服务启动进程中，下列选项不包含的是（B）。

A、NameNode

B、JobTracker

C、DataNode

D、ResourceManager
10、下列选项中，存放Hadoop配置文件的目录是（D）。

A、include

B、bin

C、libexec

D、etc

11、Hadoop1.0中，Hadoop内核的主要组成是（A）。

A、HDFS和MapReduce

B、HDFS和Yarn

C、Yarn

D、MapReduce和Yarn

12、在MapTask的Combine阶段，当处理完所有数据时，MapTask会对所有的临时文件进行一次（B）。

A、分片操作

B、合并操作

C、格式化操作

D、溢写操作

13、一个gzip文件大小75MB，客户端设置Block大小为64MB，占用Block的个数是（B）。

A、1

B、2

C、3

D、4

14、下列选项中，哪一项是研究大数据最重要的意义（D）。

A、分析

B、统计

C、测试

D、预测

15、Hive定义一个自定义函数类时，需要继承以下哪个类？(B)

A、FunctionRegistry

B、UDF

C、MapReduce

16、Hive最重视的性能是可测量性、延展性、（B）和对于输入格式的宽松匹配性。

A、较低恢复性

B、容错性

C、快速查询

D、可处理大量数据

17、在Hadoop的解压目录下，通过执行哪一项指令可以查看Hadoop的目录结构。（B）

A、jps

B、ll

C、tar

D、find

18、下列选项中，关于HDFS说法错误的是（D）。

A、HDFS是Hadoop的核心之一

B、HDFS源于Google的GFS论文

C、HDFS用于存储海量大数据

D、HDFS是用于计算海量大数据

19、按粒度大小的顺序，Hive数据被分为：数据库、数据表、（C）、桶。

A、元祖

B、栏

C、分区

D、行

20、在HDFS中，用于保存数据的节点是（B）。

A、namenode

B、datanode

C、secondaryNode

D、yarn

21、下列哪项通常是集群的最主要的性能瓶颈？( C )

A、CPU

B、网络

C、磁盘

D、内存

22、下列选项中，哪项不是Hive系统架构的组成部分？( C )

A、用户接口

B、跨语言服务

C、HDFS

D、底层驱动引擎

23、Hive查询语言和SQL的一个不同之处在于（C）操作。

A、Group by

B、Join

C、Partition

D、Union

24、Hive加载数据文件到数据表中的关键语法是？( A)

A、LOAD DATA [LOCAL] INPATH filepath [OVERWRITE] INTO TABLE tablename

B、INSERTDATA [LOCAL] INPATH filepath [OVERWRITE] INTO TABLE tablename

C、LOAD DATA INFILE d:\car.csv APPEND INTO TABLE t_car_temp FIELDS TERMINATED BY “,”

D、INSERTDATA [LOCAL] INFILE d:\car.csv APPEND INTO TABLE t_car_temp FIELDS TERMINATED BY “,”

25、下列选项中，哪一个可以对Hadoop集群进行格式化（A）。

A、hadoop namenode -format

B、hadoop namenode -ls

C、hdfs datanode -ls

D、hdfs datanode -format

26、下列选项中，一键启动HDFS集群的指令是（C）。

A、start-namenode.sh

B、start-datanode.sh

C、start-dfs.sh

D、start-slave.sh

27、关于SecondaryNameNode哪项是正确的？( C)

A、它是NameNode的热备

B、它对内存没有要求

C、它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间

D、SecondaryNameNode应与NameNode部署到一个节点

28、下列选项中，哪个配置文件可以配置HDFS地址、端口号以及临时文件目录（A）。

A、core-site.xml

B、hdfs-site.xml

C、mapred-site.xml

D、yarn-site.xml

29、下列说法中，关于客户端从HDFS中读取数据的说法错误的是（C）。

A、客户端会选取排序靠前的DataNode来依次读取Block块

B、客户端会把最终读取出来所有的Block块合并成一个完整的最终文件

C、客户端会选取排序靠后的DataNode来依读取Block块

D、如果客户端本身就是DataNode，那么将从本地直接获取数据

30、Hadoop集群启动成功后，用于监控HDFS集群的端口是（D）。

A、50010

B、50075

C、8485

D、50070

31、下列说法不正确的是？（ D）

A、数据源是数据仓库的基础，通常包含企业的各种内部信息和外部信息。

B、数据存储及管理是整个数据仓库的核心。

C、OLAP服务器对需要分析的数据按照多维数据模型进行重组、分析，发现数据规律和趋势。

D、前端工具主要功能是将数据可视化展示在前端页面中。

32、下列选项中，用于删除HDFS上文件夹的方法是（A）。

A、delete()

B、rename()

C、mkdirs()

D、copyToLocalFile()

33、每个Map任务都有一个内存缓冲区，默认大小是（C）。

A、128M

B、64M

C、100M

D、32M

34、Hive建表时，数值列的字段类型选取decimal（x,y）与Float、double的区别，下列说法正确的是？( B)

A、decimal（x,y）是整数，Float、double是小数

B、Float、double在进行sum等聚合运算时，会出现JAVA精度问题

C、decimal（x,y）是数值截取函数，Float、double是数据类型

35、下列选项中，关于SSH服务说法正确的是（D）。

A、SSH服务是一种传输协议

B、SSH服务是一种通信协议

C、SSH服务是一种数据包协议

D、SSH服务是一种网络安全协议

36、以下选项中，哪种类型间的转换是不被Hive查询语言所支持的？( D)

A、Double—Number

B、BigInt—Double

C、Int—BigInt

D、String—Double

亚马逊云科技技术品牌专区

更多推荐

STM32节点移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）

STM32移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）前言前言在移植协议之前，先给大家科普一下Lora 和 lorawan 的区别。LoRa 是LPWAN通信技术中的一种，是美国Semtech公司采用和推广的一种基于扩频技术的超远距离无线传输方案。这一方案改变了以往关于传输距离与功耗的折衷考虑方式为用户提供一种简单的能实现远距离、长电池寿命、大容量的系统，进而扩...

亚马逊云科技技术品牌专区

云领数智未来：《云原生数据库产业发展与行业应用白皮书》重磅发布

亚马逊云科技技术品牌专区

从华为的MQTT到TdEngineRPC，解读物联网时代的分布式

今天中秋节，笔者首先祝各位读者们中秋快乐，之所以在今天这个团圆节来谈分布式的话题，就是要聊聊物联网是如何通过MQTT连接各类终端，如何通过RPC整合各种数据的。下面就通过代码+动图的方式来解读一下华为LiteOS的MQTT与TD的RPC。MQTT协议MQTT是一个客户机服务器发布/订阅消息传输协议。它重量轻、开放、简单、易于实现。这些特性使其非常适合在物联网的低带宽、...