1.单选题
下列哪项通常是集群的最主要瓶颈
A 内存
B CPU
C 磁盘 IO
D 网络
参考答案: C

2.单选题
Linux操作系统中,禁止记录访问时间戳需要修改什么参数
A notime 和 nodirtime
B time 和 dirtime
C atime 和 diratime
D noatime 和 nodiratime
参考答案: D

3.单选题
下列哪一个是 zookeeper 的进程
A DFSZKFailoverController
B JournalNode
C QuorumPeerMain
D NodeManage
参考答案: C

4.单选题
下列不属于数据存储技术的是
A MySQL
B HDFS
C HBase
D Storm
参考答案: D

5.单选题
在大数据项目规划阶段中,( )阶段确认大数据项目范围和建设目标。
A 业务调研
B 需求调研
C 项目规划
D 数据需求
参考答案: B

6.单选题
非关系型数据库不包括
A Neo
B MongoDB
C HBase
D Mapreduce
参考答案: D

7.单选题
Sqoop 工具接收到命令后通过任务翻译器,将命令转换为
A Translate 任务
B Reduce 任务
C MapReduce 任务
D Map 任务
参考答案: C

8.单选题
Kafka 的设计初衷不包括
A 数据转换
B 网站运营统计
C 处理海量日志
D 用户行为统计
参考答案: A

9.单选题
配置 Hadoop 文件参数时,配置项“dfs.replication”应该配置在哪个文件?
A core-site.xml
B mapred-site.xml
C hdfs-site.xml
D yarn-site.xml
参考答案: C

10.单选题
以下哪个不是 Spark 中 Worker Node 的作用
A 将资源和任务进一步分配给 Executor
B 同步资源信息、Executor 状态信息给 Driver
C 通过注册机制向 Cluster Master 汇报自身的 cpu 和 memory 等资源
D Master 的指示下创建启动 Executor,Executor 是执行真正计算的苦力
参考答案: B

11.单选题
下列关于大数据中计算机存储容量单位的说法中,错误的是
A 一个汉字字符需要 2 个字节的存储空间
B 基本存储容量单位是字节(Byte)
C 汉字字符存储空间要小于英文字符存储空间
D 一个英文字符需要1 个字节的存储空间
参考答案: C

12.单选题
啤酒和尿布的关系是大数据在( )行业的典型应用。
A 零售
B 电商
C 地产
D 医疗
参考答案: A

13.单选题
( )是检查系统对非法侵入的防范能力。
A 功能测试
B 安全测试
C 验收测试
D 性能测试
参考答案: B

14.单选题
Linux 下启动 HDFS 集群的命令是
A start dfs
B Hdfs
C start-dfs.cmd
D start-dfs.sh
参考答案: D

15.单选题
美国治理警察超速行驶不是通过()发现问题的。
A 通过对不同高速路口收费站的原始数据记录的比对挖掘分析
B 治安监控录像资料汇总分析
C 通过人工观察
D 警车上的跟踪设备产生的报告进行挖掘分析
参考答案: C

16.单选题
以下对 Linux 下的大页描述错误的是
A 标准大页管理是预分配的方式
B Linux 下的大页分为标准大页和透明大页两种类型
C Linux 系统默认开启透明大页面功能
D 透明大页管理是静态分配的方式
参考答案: D

17.单选题
在linux系统里面,默认设置swappiness值等于
A 20
B 50
C 60
D 90
参考答案: C

18.单选题
Spark on Yarn 有两种接口模式是
A Consumers 模式和 Producer 模式
B Client 模式和 Cluster 模式
C Local 模式和 Remote 模式
D Resource 模式和 Application 模式
参考答案: B

19.单选题
下面哪些不是引起 Spark 负载不均的原因?
A 在数据过滤阶段需要处理的数据量差异
B Spark 的运行方式差异
C Spark 读入的数据源是倾斜的
D Shuffle 阶段 Key 值过于集中
参考答案: B

20.单选题
RDD 是含义是
A 可重复操作数据集
B 弹性运算数据集
C 弹性分布式数据集
D 远端定义数据集
参考答案: C

21.单选题
关于 SecondaryNameNode 哪项是正确的?
A 的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间
B 是 NameNode 的双机热备
C 对内存没有要求
D SecondaryNameNode 应与 NameNode 部署到一个节点
参考答案: A

22.单选题
MapReduce 中可能引起负载问题的原因有哪些?
A Map 中 Key 值选取和设定问题,导致 Key 值过于集中
B DataNode 节点与 Map 节点不在一起
C MapReduce 需要处理的数据量过大
D 数据本身的格式问题,例如:文档格式混乱
参考答案: A

23.单选题
配置主机名和 IP 地址映射的文件位置是
A /etc/host
B /usr/local/hosts
C /etc/hosts
D /home/hosts
参考答案: C

24.单选题
以下对窄依赖描述正确的是
A 表现为存在一个父 RDD 的一个分区对应一个子 RDD 的多个分区,对输入进行协同划分
B 可以表现为一个父 RDD 的分区对应于一个子 RDD 的分区,对输入进行协同划分
C 可以表现为多个父 RDD 的分区对应于一个子 RDD 的分区,对输入进行非协同划分
D 表现为存在一个父 RDD 的一个分区对应一个子 RDD 的多个分区,对输入进行非协同划分
参考答案: B

25.单选题
禁用 ipv6 需要修改的是哪个配置文件
A /etc/profile
B /etc/networks
C /etc/sysctl.conf
D ~/.bashrc
参考答案: C

26.单选题
下列不属于大数据项目实施工作流程的是
A 项目规划阶段
B 数据治理阶段
C 项目设计阶段
D 系统运维阶段
参考答案: D

27.单选题
注册 ZNode 的命令是
A sbin/hdfs zkfc -formatZK
B bin/hdfs zkfc -formatZK
C sbin/hdfs zkfc -fromatZK
D bin/hdfs zkfc -fromatZK
参考答案: B

28.单选题
Hadoop 集群的核心组件不包括( )
A MapReduce
B HDFS
C Zookeeper
D YARN
参考答案: C

29.单选题
下列大数据特点中错误的是
A 数据种类多
B 价值密度高
C 数据体量大
D 处理速度快
参考答案: B

30.单选题
配置 Hadoop ha 文件参数时,JAVA_HOME 包含在哪一个配置文件中
A configuration.xsl
B hadoop-site.xml
C hadoop-default.xml
D hadoop-env.sh
参考答案: D

31.单选题
以下哪种情况容易引发 HDFS 负载不均问题?
A HDFS 中存储的文件大小不一,小文件太多
B Data 各数据节点磁盘规格和空间大小有差异
C NameNode 与 DataNode 节点在同一物理服务器上
D HDFS 中 Block 的大小设置不合理
参考答案: B

32.单选题
数据来源评估一般在( )阶段进行
A 数据应用
B 项目设计
C 项目规划
D 数据治理
参考答案: D

33.单选题
以下对 Flume 架构描述不正确的是
A Channel 作为一个数据缓冲区会临时存放一些数据
B Flume 的核心就是 Agent
C Source 接收到数据之后,将数据发送给 Sink
D Sink 负责将数据发送到外部指定的目的地
参考答案: C

34.单选题
大数据存储是指用存储器,以( )的形式,存储采集到数据的过程。
A 数据库/数据仓库
B 集群
C 信息系统
D 文件系统
参考答案: A

35.单选题
下列哪一个是 HADOOP HA 启动的第一个进程
A 在 master1 上执行命令,启动 hdfs 和 yarn
B 启动 zookeeper
C 启动 journalnode
D 在 master2 上执行命令,启动 yarn
参考答案: C

36.单选题
关于 H3C DataEngine BI 商业智能大数据平台说法错误的是()
A 支持 DataEngine Hadoop 和 MPP 分布式数据库等主流大数据平台
B 采用 B/S 架构,纯 Java 语言开发,支持所有可部署 JDK 的操作系统
C 只支持部分有 JDBC 接口的数据库
D 具有分布式分析能力,可快速实现数据可视化分析
参考答案: C

37.单选题
当启动一个 Spark Shell 时,Spark Shell 已经预先创建好一个 SparkContext 对 象,其变量名为( )
A nc
B sn
C sc
D cc
参考答案: C

38.单选题
哪些不是引起 Hive 数据倾斜的原因?
A 数据在节点存储上分布不均
B Hive 中表数量的多少
C 运算中 Key 值分布不均
D 业务数据本身存在分布不均
参考答案: B

39.单选题
HDfS 中的 block 默认保存( )份
A 1
B 2
C 3
D 不确定
参考答案: C

40.单选题
下列哪个程序通常与 NameNode 在一个节点启动?
A TaskTracker
B Jobtracker
C SecondaryNameNode
D DataNode
参考答案: B

41.单选题
下列( )不是非关系型数据库。
A Redis
B Hive
C HBase
D MongoDB
参考答案: B

42.单选题
以下对 Flume 描述错误的是
A 高可用的
B 负责处理数据
C 负责海量日志采集
D 高可靠的
参考答案: B

43.单选题
企业使用大数据平台基于( )做分析报表
A MongoDB
B BI
C Hive
D SQL
参考答案: C

44.单选题
Hadoop 集群的关闭命令是?
A stop-all.sh
B stop-dfs.sh
C stop-yarn.sh
D stop-hadoop.sh
参考答案: A

45.单选题
增大可打开文件描述符数目需要修改哪个配置文件
A /etc/conf/limit.con
B /etc/security/limits.conf
C /etc/security/limt.conf
D /etc/conf/limits.conf
参考答案: B

46.单选题
下面哪个程序负责 HDFS 数据存储
A secondaryNameNode
B Datanode
C Storenode
D NameNode
参考答案: B

47.单选题
如今舆情分析大数据平台系统多采用( )架构。
A Kappa
B Unifield
C Lambda
D 流式
参考答案: C

48.单选题
使配置的环境变量生效的命令是
A cat ~/.bashrc
B source ~/.bashrc
C vi ~/.bashrc
D source ~/bashrc
参考答案: B

49.单选题
端口 50070 默认是 HDFS 哪个服务的端口?
A DataNode
B GFS
C NameNode
D SecondaryNameNode
参考答案: C

50.单选题
Linux 操作系统 vm.swappiness 参数值被设置为 10,它的含义是
A 内存使用量达到系统内存的 10%时,操作系统会相当频繁地使用磁盘上的交换文件
B 内存使用量达到系统内存的 90%时,操作系统不会地使用磁盘上的交换文件
C 内存使用量达到系统内存的 90%时,操作系统会相当频繁地使用磁盘上的交换文件
D 内存使用量达到系统内存的 10%时,操作系统不会地使用磁盘上的交换文件
参考答案: C

51.单选题
Hadoop 的安装部署的模式属于伪分布模式,以下哪项描述是准确的
A 完全分布模式的守护进程运行在由多台主机搭建的集群上,是真正的生产环境
B 在一台主机模拟多主机。即,Hadoop 的守护程序在本地计算机上运行,模拟集群环境, 并且是相互独立的Java 进程
C A. 高容错全分布模式的守护进程运行在多台主机搭建的集群上
D 默认的模式,无需运行任何守护进程(daemon),所有程序都在单个 JVM 上执行
参考答案: B

52.单选题
大数据系统运行时出现”java.net.NoRouteToHostException: No route to host “ 故障的解决方案
A zookeeper 的 IP 要配对
B 关掉防火墙 service iptables stop
C SSH 配置错误导致,主机名一定要严格匹配,重新配置 ssh 免密码登录
D master 和 slave 配置成同一个 IP 导致的,要配成不同 IP
参考答案: B

53.单选题
MapReduce 的监控metrics指标中,表示shuffle 成功次数的参数是()
A mapred.ShuffleMetrics.ShuffleConnections
B mapred.ShuffleMetrics.ShuffleOutputBytes
C mapred.ShuffleMetrics.ShuffleOutputsFailed
D mapred.ShuffleMetrics.ShuffleOutputsOK
参考答案: D

54.单选题
HDFS 是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是
A 一次写入,一次读取
B 一次写入,多次读取
C 多次写入,一次读取
D 多次写入,少次读取
参考答案: B

55.单选题
下列关于 MapReduce 说法不正确的是
A MapReduce 来源于 google 的学术论文
B MapReduce 是一种分布式存储框架
C MapReduce 程序不只能用 java 语言编写
D A. MapReduce 隐藏了并行计算的细节,方便使用
参考答案: B

56.单选题
HBase 依赖_( )存储底层数据
A MapReduce
B HDFS
C Hadoop
D Memory
参考答案: B

57.单选题
在 Centos7 系统中,查看和修改 IP 信息需要用到
A /etc/sysconfig /ifcfg-ens0
B /etc/sysconfig/network/ifcfg-ens0
C /etc/systemd /ifcfg-ens0
D /etc/sysconfig/network-script/ifcfg-ens0
参考答案: D

58.单选题
大数据平台架构设计采用( )的设计思想
A 分层模块化设计
B 高集合化设计
C 统一结构化设计
D 全分布设计
参考答案: A

59.单选题
关于 Hadoop 的运行机制过程顺序说法正确的是
A 作业初始化--作业提交--任务分配--任务的执行--任务进度和状态的更新--任务结束
B 作业提交--作业初始化--任务分配--任务的执行--任务进度和状态的更新--任务结束
C 任务分配--作业提交--作业初始化--任务的执行--任务进度和状态的更新--任务结束
D 任务执行-作业提交--作业初始化--任务的分配--任务进度和状态的更新--任务结束
参考答案: B

60.单选题
从 Vi 编辑模式下保存配置返回到 Centos7 系统使用()
A B. 直接输入“exit”
B 按“Esc”键,然后按“shift”+“:”组合
C 按“shift”+“:”组合
D B. 按“Esc”键,然后按“shift”+“:”,输入 wq 回车
参考答案: D

61.单选题
flume 中的哪种 source 类型支持 使用Unix 标准命令来产生数据( )
A Thrift Source
B Avr0 Source
C Exec Source
D JMS Source
参考答案: C

62.单选题
大数据的特点不包括下面哪一项
A 数据量巨大
B 数据增长速度快
C 数据价值密度低
D 多为结构化数据
参考答案: D

63.单选题
Hadoop2.0中 HDFS 默认 Block Size 的大小是
A 32MB
B 64MB
C 128MB
D 256M
参考答案: C
从Hadoop2.7.3版本开始,Hadoop2的官方文档关于Data Blocks 的说明中,block size由64 MB变成了128 MB

64.单选题
查看YARN 当前运行的任务列表使用( ) 命令
A yarn application log
B yarn application -kill
C yarn application -list
D yarn application -status
参考答案: C

65.单选题
关于 HDFS 的文件写入,正确的是
A 支持多用户对同一文件的写操作
B 复制的文件数据块副本默认都存在同一机架上
C 用户可以在文件任意位置进行修改
D 默认将文件的数据块复制成三份副本存放
参考答案: D

66.单选题
整个大数据平台按其职能划分为五个模块层次,其中的运行环境层是()
A 运行环境层为基础设施层提供运行时环境,它由 2 部分构成,即操作系统和运行时环境
B 运行环境层由2 部分组成:Zookeeper 集群和 Hadoop 集群。它为基础平台层提供基础设施服务
C 运行环境层由 3 个部分组成:任务调度控制台、HBase 和 Hive。它为用户网关层提供基础服务调用接口。
D 用户网关层用于为终端客户提供个性化的调用接口以及用户的身份认证,是用户唯一可见的大数据平台操作入口。
参考答案: A
A. 运行环境层为基础设施层提供运行时环境,它由 2 部分构成,即操作系统和运行时环境。B. 基础设施层由 2 部分组成:Zookeeper 集群和 Hadoop 集群。它为基础平台层提供基础设施服务C. 基础平台层由 3 个部分组成:任务调度控制台、HBase 和 Hive。它为用户网关层提供基础服务调用接口。D. 用户网关层用于为终端客户提供个性化的调用接口以及用户的身份认证,是用户唯一可见的大数据平台操作入口。

67.单选题
关于 Hadoop部署的单机模式和伪分布式模式的说法,正确的是
A 两者都起守护进程,且守护进程运行在一台机器上
B 单机模式不使用 HDFS,但加载守护进程
C 两者都不与守护进程交互,避免复杂性
D 后者比前者增加了 HDFS 输入输出以及可检查内存使用情况
参考答案: D

68.单选题
Hadoop 平台下检查 HDFS文件系统的/h3cu 目录的健康状态采用( )命令
A find /h3cu
B hdfs fsck /h3cu
C list /h3cu
D hadoop fs -lsr /h3cu
参考答案: B

69.单选题
HBase 分布式模式最好需要( )个节点
A 1
B 2
C 3
D 4
参考答案: C

70.单选题
关于 SecondaryNameNode 下面哪项是正确的
A 它是 NameNode 的双机热备
B 它的作用是帮助 NameNode 合并EditLog编辑日志,减少 NameNode 启动时间
C 它对内存没有要求
D SecondaryNameNode 应与 NameNode 部署到一个节点
参考答案: B

71.单选题
Namenode 在启动时自动进入安全模式,在安全模式阶段,说法错误的是
A 安全模式目的是在系统启动时检查各个 DataNode 上数据块的有效性
B 根据策略对数据块进行必要的复制或删除
C 数据块最小百分比数满足的最小副本数条件时,会自动退出安全模式
D 允许对HDFS文件系统的文件数据进行修改
参考答案: D

72.单选题
HBase 依赖( )提供消息通信机制
A Zookeeper
B Chubby
C RPC
D RPC
参考答案: A

73.单选题
flume 的哪个内部组件用于采集数据( )
A sink
B source
C web server
D channel
参考答案: B

74.单选题

在master 运行start-dfs.sh脚本启动HDFS时,出现错误提示“The authenticity of host 'slave1 (192.168.56.11)' can't be established,搭建Hadoop集群过程中遇到上述问题的可能原因是
A 关掉主机防火墙
B master 和 slave 1配置的IP地址冲突
C /etc/hosts文件的主机IP映射配置不正确
D SSH 免密配置错误导致,主机名一定要严格匹配,重新配置主机之间的SSH免密码登录
参考答案: D

75.单选题
在 hive 中已知表
test(name)的记录如下, tom
tom_green tomly
lily
请问代码 select * from test where name like 'tom.*'的执行结果有( )条记录
A 1
B 2
C 3
D 0
参考答案: D

76.单选题
tar 命令用于对文件进行打包压缩或解压,-t 参数含义
A 创建压缩文件
B 查看压缩包内有哪些文件
C 向压缩归档末尾追加文件
D A.解开压缩文件
参考答案: B

77.单选题
报告 HDFS使用情况使用( )命令
A hdfs dfsadmin -clrSpaceQuota /user/testname
B hdfs dfsadmin -setSpaceQuota 500g /path/xxx/
C hdfs dfsadmin -report
D hdfs dfs -getfacl /user/testname
参考答案: C

78.单选题
在数据仓库的数据架构中,( )具有按业务场景组织数据的能力。
A 列式数据
B 非结构化数据
C 文档数据
D 结构化数据
参考答案: A

79.单选题
Hive 数据倾斜的表现?
A Hive 运算任务为报错单长期卡在 99%
B Hive 建表后数据无法导入
C Hive sql 语句运行异常直接退出
D Hive 无法启动
参考答案: A

80.单选题
Hadoop 安装部署模式属于本地模式,以下哪项描述是准确的
A 在一台主机模拟多主机。即,Hadoop 的守护程序在本地计算机上运行,模拟集群环境, 并且是相互独立的Java 进程
B 完全分布模式的守护进程运行在由多台主机搭建的集群上,是真正的生产环境
C 默认的模式,无需运行任何守护进程(daemon),所有程序都在单个 JVM 上执行
D 高容错全分布模式的守护进程运行在多台主机搭建的集群上
参考答案: C

81.单选题
Flume 数据传输的基本单元是
A Client
B Event
C Sink
D Channel
参考答案: B

82.单选题
大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的( )
A 新一代技术平台
B 新一代信息技术和服务业态
C 新一代服务业态
D 新一代信息技术
参考答案: B

83.单选题
配置Hadoop时,JAVA_HOME环境变量包含在哪一个配置文件中
A core-site.xml
B hadoop-env.sh
C hdfs-site.xml
D yarn-site.xml
参考答案: B

84.单选题
Hadoop安装部署过程中,哪个命令是执行HDFS的格式化
A hdfs datanode -format
B hdfs namenode -format
C hdfs -format namenode
D hdfs -format datanode
参考答案: B

85.单选题
根据ZooKeeper的以下两个特性:
1)临时性ZNode在会话结束后会自动被删除
2)一个ZNode如果存在子ZNode,则该ZNode不允许被删除
可以推理得出以下哪条有关ZooKeeper的结论?
A 持久性ZNode不允许存在子ZNode
B 临时性ZNode不允许存在子ZNode
C 临时性ZNode允许存在子ZNode
D 持久性ZNode允许存在子ZNode
参考答案: B

86.单选题
Hadoop的配置文件不包括
A core-site.xml
B hdfs-site.xml
C mapred-site.xml
D conf-site.xml
参考答案: D

87.单选题
在Hadoop HA高可用集群安装部署中,下面哪个命令的作用是启动所有节点的JournalNode进程
A hadoop-daemons.sh journalnode start
B hadoop-daemon.sh start journalnode
C hadoop-daemons.sh journalnode start
D hadoop-daemon.sh journalnode start
参考答案: B

88.单选题
Client在HDFS上进行文件写入时,NameNode根据文件大小和配置情况,返回部分DataNode地址信息,由( )负责将要写文件划分为多个Block,根据DataNode的地址信息,按顺序把Block写入到每一个DataNode
A Client
B Namenode
C Datanode
D Secondary Namenode
参考答案: A

89.单选题
在Hadoop2.0中默认情况下,一个大小的257MB的文件共占用几个block,总共有几个replication?
A 1 block, 3 replication
B 2 block, 6 replication
C 3 block, 9 replication
D 3 block, 6 replication
参考答案: C

90.单选题
Hadoop的Logo是什么
A 功夫熊猫
B 黄色大象
C 绿色青蛙
D 白色骏马
参考答案: B

91.单选题
Hadoop的创始开发者是下面哪一位大神
A Albert Einstein
B Doug Cutting
C Bill Gates
D Donald Trump
参考答案: B

92.多选题
以下哪些属于 ETL 工具( )
A Kafka
B Spark
C Flume
D sqoop
参考答案: A C D

93.多选题
在搭建Hadoop HA高可用集群中,下列哪一个不是在 slave1 上使用的命令
A bin/hdfs namenode -bootstrapStandby
B sbin/hadoop-daemon.sh start namenode
C sbin/yarn-daemon.sh start proxyserver
D sbin/start-dfs.sh
参考答案: C D

94.多选题
大数据实施工程师的工作职责有
A 负责 PoC(Proof of Concept,原型验证),在客户业务场景下验证大数据产品的功能与性能
B 负责 Hadoop、Spark、Storm 等大数据平台的规划、部署、监控、系统优化等工作,确保系统持续稳定、高效运行
C 负责大数据平台系统运营规范,及运营工具系统的设计与开发实现
D 与客户沟通了解需求,在客户业务场景下根据客户的需求进行大数据项目实施
E 深入理解系统平台,为其持续优化提供建设性意见
参考答案: A B C D E

95.多选题
ZooKeeper的Follower节点的主要功能有哪些
A 接收 Client 的请求,如果为写请求要发送给 Leader节点 进行投票
B 接收 Leader节点 消息并进行处理
C 向 Leader节点发送请求
D 返回给 Client 结果
参考答案: A B C D

96.多选题
Hive 有哪些表的数据类型?
A 内部表
B 分区表
C 桶表
D 外部表
参考答案: A B C D

97.多选题
Spark 包含哪几种模式
A Standalone模式
B local本地模式
C Spark on Yarn 模式
D Spark on Mesos 模式
参考答案: A B C D

98.多选题
故障排查流程一般包括哪些
A 故障检查
B 应急处置与故障定位
C 故障报告
D 故障诊断
参考答案: A B C D

99.多选题
Flume 的 Agent 包括哪些组件
A Pipe
B Channel
C Sink
D Source
参考答案: B C D

100.多选题
Hadoop 集群的三大核心组件是
A HDFS
B Zookeeper
C YARN
D MapReduce
参考答案: A C D

101.多选题
Yarn 主要涉及到以下哪几个角色
A AM: ApplicationMaster
B RM: ResourceManager
C AM: ApplicationManager
D NM: NodeMananger
参考答案: A B D

102.多选题
元数据的内容包括哪些
A 对数据质量的描述
B 对数据处理信息的说明
C 对数据集的描述
D 对数据转换方法的描述
参考答案: A B C D

103.多选题
可以用几台机器配置高可用()
A 2
B 3
C 4
D 5
参考答案: B D

104.多选题
ZooKeeper的服务节点主要由哪些角色组成?
A Learner
B Leader
C Observer
D Follower
参考答案: B C D

105.多选题
以下对脏页配置参数的描述哪些是正确的(
A vm.dirty_background_ratio 内存可以填充“脏数据”的百分比
B vm.dirty_expire_centisecs 指定脏数据能存活的时间
C vm.dirty_ratio 脏数据百分比的绝对限制值
D vm.dirty_writeback_centisecs 指定 pdflush/flush/kdmflush 进程执行间隔
参考答案: A B C D

106.多选题
Hive 的主要特点
A 高容错
B 可伸缩
C 批处理
D 类 SQL 语言
参考答案: A B C D

107.多选题
下列哪些是 Hadoop HA 集群正确启动完成后可能会出现的进程
A QuorumPeerMain
B JournalNode
C DFSZKFailoverController
D DataNode
E NameNode
F JobHistoryServer
参考答案: A B C D E F

108.多选题
在 Linux 中查看服务器负载和资源占用情况的常用命令有
A iostats
B free
C Vmstats
D top
参考答案: A B C D

109.多选题
下列哪些项可以作为集群管理
A Puppet
B Zookeeper
C Cloudera Manager
D Pdsh
参考答案: A B D

110.多选题
大数据运维工程师日常工作主要是
A 大数据集群的任务调度、监控预警
B 根据客户需求进行大数据应用接入和对接培训
C 大数据系统日常巡检、应急值守和故障处理
D 大数据集群容量规划、扩容、集群性能优化
E 大数据集群的构建
参考答案: A C D E

111.多选题
ZooKeeper集群允许有几个服务节点
A 2
B 3
C 4
D 5
参考答案: B D

112.多选题
下列哪些是 Hadoop 运行的模式
A 完全分布式
B 伪分布式
C 单机模式
D 本地模式
参考答案: A B C

113.多选题
启动 yarn 命令后会出现哪些进程
A NodeManager
B ApplicationMaster
C ResourceManager
D Container
参考答案: A C

114.多选题
目前主流 Linux 发行版本使用 I/O 调度器有哪些
A DeadLine
B Anticipatory
C CFQ
D NOOP
参考答案: A B C D

115.多选题
以下哪些是 Spark 的特点
A 易于使用
B 运行处理速度快
C 交互性
D 运行模式多样性
参考答案: A B D

116.多选题
下列属于数据可视化软件及工具的有哪些
A Python 中 Matplotlib、pyecharts 等库包
B D3.js
C Echarts
D R 语言中 ggplot2、highcharter 等库包
参考答案: A B C D

117.多选题
大数据技术面临的挑战主要有哪些
A 可用性
B 高效性
C 可扩展性
D 可靠性
E 安全性
参考答案: A C D E

118.多选题
大数据处理流程一般分为
A 数据可视化
B 数据采集与预处理
C 数据分析与挖掘
D 数据存储
参考答案: A B C D

119.多选题
以下哪些是 Kafka 的特性
A 支持多分区
B 分布式
C 单副本
D 高吞吐量
参考答案: A B D

120.多选题
Hive 的访问方式有哪些?
A shell命令行
B JDBC
C Web UI
D SSH
参考答案: A B C

121.多选题
MapReduce 不合适对哪些场景的使用
A MapReduce 不适合做低延迟数据访问场景的使用
B MapReduce 不支持大文件存储
C MapReduce 不适合存储大量小文件
D MapReduce 不支持多用户写入及任意修改文件
参考答案: A B C D
应该是描述HDFS的

122.多选题
下面对HDFS的描述正确的是
A HDFS 使用数量众多的廉价机器构成集群,使得硬件错误成为常态
B HDFS 支持多种软硬件平台中的可移植性
C HDFS 上的一个文件大小是G 或T 数量级的,支持的文件数量达到千万数量级
D HDFS 上存放的文件可以任意修改
参考答案: A B

123.多选题
Hive 有哪些方式保存元数据
A single user mode
B multiuser mode
C remote user mode
D telnetuser mode
参考答案: A B C
Hive 有3种方式保存元数据:内存数据库 derby,挺小,不常用 。本地 mysql。。常用远程端 mysql。。不常用专业名称:single user mode..multi user mode...remote user mode

124.多选题
下列属于 hadoop 的发行版本的是
A Centos
B Cloudera
C Hortonworks
D Apache
E RedHat
参考答案: B C D

125.多选题
以下哪些机制体现了HDFS的 可靠性?
A DataNode数据块的副本冗余机制
B DataNode数据节点的心跳包机制
C DataNode数据节点的数据块报告机制
D DataNode数据块完整性检测机制
E NameNode HA高可用机制
F NameNode启动时的安全模式
G HDFS存储容量可横向扩展
H NameNode联邦机制
I NameNode元数据持久化机制
参考答案: A B C D E F I
HDFS存储容量可横向扩展, NameNode联邦机制体现了可扩展性

126.多选题
对 NodeManager 服务描述正确的是
A 整个集群有多个NodeManager,NodeManager 负责单节点资源管理和使用
B NodeManager负责管理当前节点的资源抽象Container的生命周期和节点日志信息
C 通过心跳机制定时地向ResourceManager 汇报本节点上的资源使用情况
D A. NodeManager 服务器跟ResourceManager 毫无关系
参考答案: A B C

127.多选题
YARN 包含的内部组件有哪些
A Container
B NameManager
C ApplicationMaster
D ResourceManager
E NodeManager
参考答案: A C D E

128.多选题
HDFS 可靠性的保障措施有哪些
A 数据冗余机制
B 数据节点心跳包
C 数据节点块报告
D 数据完整性检测
参考答案: A B C D

129.多选题
下面对HBase的描述哪些是正确的?
A 是开源的
B 是面向列的
C 是分布式的
D 是NoSQL数据库
参考答案: A B C D

130.多选题
谷歌发表的对于大数据时代具有里程碑意义的三篇论文是哪些?
A GFS:The Google file system
B MapReduce: Simplified Data Processing on Large Clusters
C Bigtable: A Distributed Storage System for Structured Data
D Relativity: The Special and General Theory
参考答案: A B C
最后一篇是爱因斯坦的相对论

131.多选题
以下哪些情况不是容易引发 HDFS 负载不均问题的原因?
A HDFS 中存储的文件大小不一,小文件太多
B Data 各数据节点磁盘规格和空间大小有差异
C NameNode 与 DataNode 节点在同一物理服务器上
D HDFS 中 Block 的大小设置不合理
参考答案: A C D

132.多选题
以下哪些不属于 ETL 工具( )
A Kafka
B Spark
C Flume
D sqoop
E HDFS
参考答案: B E

133.多选题
在数据仓库的数据架构中,以下哪些不具有按业务场景组织数据的功能?
A 列式数据
B 非结构化数据
C 文档数据
D 结构化数据
参考答案: B C D

134.多选题
关于 H3C DataEngine BI 商业智能大数据平台说法哪些是正确的?
A 支持 DataEngine Hadoop 和 MPP 分布式数据库等主流大数据平台
B 采用 B/S 架构,纯 Java 语言开发,支持所有可部署 JDK 的操作系统
C 只支持部分有 JDBC 接口的数据库
D 具有分布式分析能力,可快速实现数据可视化分析
参考答案: A B D

135.多选题
以下对 Flume 架构描述哪些是正确的?
A Channel 作为一个数据缓冲区会临时存放一些数据
B Flume 的核心就是 Agent
C Source 接收到数据之后,将数据发送给 Sink
D Sink 负责将数据发送到外部指定的目的地
参考答案: A B D

136.多选题
Namenode 在启动时自动进入安全模式,对安全模式的描述哪些是正确的?
A 安全模式目的是在系统启动时检查各个 DataNode 上数据块的有效性
B 会根据策略对数据块进行必要的复制或删除
C 数据块最小百分比数满足的最小副本数条件时,会自动退出安全模式
D 允许对HDFS文件系统的文件数据进行修改
参考答案: A B C

137.多选题
Kafka 的设计初衷是应用于以下哪些场景?
A 网站运营统计
B 处理海量日志
C 用户行为统计
D 数据转换
参考答案: A B C

138.多选题
以下哪些属于非关系型数据库?
A MySQL
B MongoDB
C HBase
D Neo
参考答案: B C D

139.多选题
下对Spark中窄依赖的描述哪些是错误的?
A 表现为存在一个父 RDD 的一个分区对应一个子 RDD 的多个分区,对输入进行协同划分
B 可以表现为一个父 RDD 的分区对应于一个子 RDD 的分区,对输入进行协同划分
C 可以表现为多个父 RDD 的分区对应于一个子 RDD 的分区,对输入进行非协同划分
D 表现为存在一个父 RDD 的一个分区对应一个子 RDD 的多个分区,对输入进行非协同划分
参考答案: A C D

140.多选题
关于对整个大数据平台按其职能划分成的五个模块层次,以下描述哪些正确的?
A 运行环境层为基础设施层提供运行时环境,它由 2 部分构成,即操作系统和运行时环境
B 基础设施层由 2 部分组成:Zookeeper 集群和 Hadoop 集群。它为基础平台层提供基础设施服务
C 基础平台层由 3 个部分组成:任务调度控制台、HBase 和 Hive。它为用户网关层提供基础服务调用接口
D 用户网关层用于为终端客户提供个性化的调用接口以及用户的身份认证,是用户唯一可见的大数据平台操作入口
参考答案: A B C D

141.多选题
下列关于 MapReduce 说法哪些是正确的
A MapReduce 来源于 google 的学术论文
B MapReduce 是一种分布式存储框架
C MapReduce 程序只能用 java 语言编写
D MapReduce 隐藏了并行计算的细节,方便使用
参考答案: A D

142.多选题
Hadoop 的安装部署的模式属于伪分布模式,以下哪些描述是错误的?
A 守护进程运行在由多台主机搭建的集群上
B Hadoop的守护程序在本地计算机上运行,是模拟的集群环境, 并且是相互独立的Java 进程
C 是真正的生产环境
D 无需运行任何守护进程(daemon),所有程序都在单个 JVM 上执行
参考答案: A C D

143.多选题
HDFS 是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,对适合的读写任务的描述不正确的是哪些?
A 一次写入,一次读取
B 一次写入,多次读取
C 多次写入,一次读取
D 多次写入,多次读取
参考答案: A C D

144.多选题
美国治理警察超速行驶是通过以下哪些选项发现问题的。
A 通过对不同高速路口收费站的原始数据记录的比对挖掘分析
B 治安监控录像资料汇总分析
C 通过人工观察
D 警车上的跟踪设备产生的报告进行挖掘分析
参考答案: A B D

145.多选题
以下对 Linux系统下的大页描述哪些是正确的?
A 标准大页管理是预分配的方式
B Linux 下的大页分为标准大页和透明大页两种类型
C Linux 系统默认开启透明大页面功能
D 透明大页管理是动态分配的方式
参考答案: A B C D

146.多选题
以下哪些是引起 Hive 数据倾斜的原因?
A 数据在节点存储上分布不均
B Hive 中表数量的多少
C 运算中 Key 值分布不均
D 业务数据本身存在分布不均
参考答案: A C D

147.多选题
下列哪些不是关系型数据库?
A Redis
B MySQL
C HBase
D MongoDB
参考答案: A C D

148.多选题
下列属于大数据项目实施工作流程的是哪些?
A 项目规划阶段
B 数据治理阶段
C 项目设计阶段
D 系统运维阶段
参考答案: A B C

149.多选题
下列有关大数据特点的描述。哪些是正确的?
A 数据种类多
B 价值密度低
C 数据体量大
D 处理速度快
参考答案: A B C D

150.多选题
Hadoop 集群的核心组件包括哪些?
A MapReduce
B HDFS
C Zookeeper
D YARN
参考答案: A B D

151.多选题
下列关于大数据中计算机存储容量单位的说法中,正确的是哪些
A 一个汉字字符需要 2 个字节的存储空间
B 基本存储容量单位是字节(Byte)
C 汉字字符存储空间要大于英文字符存储空间
D 一个英文字符需要1 个字节的存储空间
参考答案: A B C D

152.多选题
关于 Hadoop部署的单机模式和伪分布式模式的说法,哪些是错误的?
A 两者都启动守护进程,且守护进程运行在一台机器上
B 单机模式不使用 HDFS,但加载守护进程
C 两者都不与守护进程交互,避免复杂性
D 伪分布式比单机模式增加了 HDFS 输入输出以及可检查内存使用情况
参考答案: A B C

153.多选题
下列属于数据存储技术的是
A MySQL
B Storm
C HDFS
D HBase
参考答案: A C D

154.多选题
关于Linux 系统 vm.swappiness 参数含义哪些是错误的?
A 内存使用量达到系统内存的 10%时,操作系统会相当频繁地使用磁盘上的交换文件
B 内存使用量达到系统内存的 90%时,操作系统不会使用磁盘上的交换文件
C 内存使用量达到系统内存的 90%时,操作系统会相当频繁地使用磁盘上的交换文件
D 内存使用量达到系统内存的 10%时,操作系统不会使用磁盘上的交换文件
参考答案: A B D

155.多选题
以下关于 SecondaryNameNode 的描述,哪些选项是错误的?
A 目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间
B 是 NameNode 的双机热备
C 对内存没有要求
D SecondaryNameNode应与NameNode部署在不同的节点
参考答案: B C

156.多选题
关于 HDFS 的文件写入,哪些是错误的?
A 支持多用户对同一文件的写操作
B 复制的文件数据块副本默认都存在同一机架上
C 用户可以在文件任意位置进行修改
D 默认将文件的数据块复制成三份副本存放
参考答案: A B C

157.多选题
以下对 Flume 描述哪些是正确的?
A 高可用的
B 负责处理数据
C 负责海量日志采集
D 高可靠的
参考答案: A C D

158.多选题
下列哪些是 Hadoop 的运行模式?
A 单机模式
B 伪分布式
C 完全分布式
D 高可用
参考答案: A B C D

159.多选题
下面哪些是引起 Spark 负载不均的原因?
A 在数据过滤阶段需要处理的数据量差异
B Spark 的运行方式差异
C Spark 读入的数据源是倾斜的
D Shuffle 阶段 Key 值过于集中
参考答案: A C D

160.多选题
在HDFS的文件写操作流程中,关于Client 上传文件描述下列哪项是正确的?
A 所有数据都经过NameNode 传递给DataNode
B Client 将文件切分为多个 block并依次上传
C Client 只上传数据到一台DataNode,然后由NameNode 负责block的多个副本的复制工作
D client 根据DataNode 的地址信息,把block按顺序写入到每一个DataNode
参考答案: B D

161.多选题
以下关于Hadoop副本存放和机架感知策略的描述哪些是正确的?
A 只有一个存放数据块副本的机架出问题,不会影响数据读写
B 写入数据块副本的时候会写到不同机架的DataNode
C MapReduce 会根据机架感知策略获取距离比较近的网络数据
D 为了方便存放,数据块的所有副本都会存放在同一个机架上
参考答案: A B C

162.多选题
以下哪些是 Spark 中 Worker Node 的作用?
A 将资源和任务进一步分配给 Executor
B 同步资源信息、Executor 状态信息给 Driver
C 通过注册机制向 Cluster Master 汇报自身的 cpu 和 memory 等资源
D 在Master 的指示下创建启动 Executor,Executor 是执行真正计算的苦力
参考答案: A C D

163.多选题
以下哪些不是Hive 数据倾斜的表现?
A Hive 运算任务为报错单长期卡在 99%
B Hive 建表后数据无法导入
C Hive sql 语句运行异常直接退出
D Hive 无法启动
参考答案: B C D

164.多选题
Client端上传文件的时候下列哪项正确?
A 数据经过NameNode传递给DataNode
B Client端将文件以Block为单位,管道方式依次传到DataNode
C Client只上传数据到一台DataNode,然后由DataNode负责Block复制工作
D 当某个DataNode失败,Client会继续传给其它DataNode
参考答案: B C D

165.多选题
MapReduce 中可能引起负载问题的原因不包括哪些?
A Map中Key值选取和设定问题,导致 Key 值过于集中
B DataNode 节点与 Map 节点不在一起
C MapReduce 需要处理的数据量过大
D 数据本身的格式问题,例如:文档格式混乱
参考答案: B C D

166.多选题
以下有关大数据特点的描述,有哪些是正确的?
A 数据量巨大
B 数据增长速度快
C 数据价值密度低
D 多为结构化数据
参考答案: A B C

167.判断题
Sqoop 导出指的是将数据从 HDFS 迁移到关系型数据库。
A) 正确
B) 错误
参考答案: A

168.判断题
Hadoop HA 高可用支持多个 NameNode,每个 NameNode 分管一部分目录;所有 NameNode 共享所有 DataNode 存储资源。
A) 正确
B) 错误
参考答案: B

169.判断题
大数据处理速度快,但时效性要求却很低
A) 正确
B) 错误
参考答案: B

170.判断题
故障报告应该写清故障时间、故障表现、理论表现、故障有关的操作以及如何重现。
A) 正确
B) 错误
参考答案: A

171.判断题
Flume的File Channel 类型会将所有的事件写入磁盘,因此在程序关闭或服务器宕机的情况 下不会丢失数据,但速度相对较慢。
A) 正确
B) 错误
参考答案: A

172.判断题
防火墙策略也称为防火墙的安全规则,它是防火墙实施网络保护的重要依据。
A) 正确
B) 错误
参考答案: A

173.判断题
执行 Spark 任务有两种方式,一种是 Spark-submit,一种是 Spark-shell。当我们 在生产部署与发布的时候通常使用 spark-submit 脚本进行提交的。
A) 正确
B) 错误
参考答案: A

174.判断题
Sqoop 导入指的是将数据从 HDFS 迁移到关系型数据库。
A) 正确
B) 错误
参考答案: B

175.判断题
HADOOP HA 通过主备 NameNode 解决单点故障问题,如果主 NameNode 发 生故障,则切换到备 NameNode 上。
A) 正确
B) 错误
参考答案: A

176.判断题
Elasticsearch 是一个分布式的开源搜索和分析引擎,适用于所有类型的数据,包括 文本、数字、地理空间、结构化和非结构化数据。
A) 正确
B) 错误
参考答案: A

177.判断题
Hadoop 是 Java 开发的,所以 MapReduce 只支持 Java 语言编写。
A) 正确
B) 错误
参考答案: B

178.判断题
Spark 是基于缓存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分 析应用程序。
A) 正确
B) 错误
参考答案: B

179.判断题
分布式数据库是指物理上分散在不同地点,但是逻辑上是统一的数据库。
A) 正确
B) 错误
参考答案: A

180.判断题
因为 HDFS 有多个副本,所以 NameNode 是不存在单点故障问题的。
A) 正确
B) 错误
参考答案: B

181.判断题
日志一般为结构化或非结构化的二进制文件,可以利用日志分析工具进行事后分析。
A) 正确
B) 错误
参考答案: A

182.判断题
脏页是 linux 内核中的概念,因为硬盘的读写速度远赶不上内存的速度,系统就把 读写比较频繁的数据事先放到内存中,以提高读写速度,称之为高速缓存。
A) 正确
B) 错误
参考答案: A

183.判断题
NameNode 负责管理 metadata,client 端每次读写请求,它都会从磁盘中读取 或则会写入 metadata 信息并反馈 client 端。
A) 正确
B) 错误
参考答案: B

184.判断题
大数据来源包括:传统商业数据、互联网数据和物联网数据。
A) 正确
B) 错误
参考答案: B

185.判断题
大数据的数据类型丰富,包括结构化数据、半结构化数据和非结构化数据。
A) 正确
B) 错误
参考答案: A

186.判断题
Hadoop Federation 支持多个Active NameNode,每个 NameNode 分管一部分用户空间目录;所有 NameNode 共享所有 DataNode 存储资源;
A) 正确
B) 错误
参考答案: A

187.判断题
Hadoop 支持数据的随机读写。
A) 正确
B) 错误
参考答案: B

188.判断题
HDFS的NameNode的Web UI默认端口号是50070,YARN的ResourceManager的Web UI默认端口号是8088
A) 正确
B) 错误
参考答案: A

189.判断题
对于HDFS, 因为DataNode(Slave节点)要存储数据,所以它的磁盘越大越好。
A) 正确
B) 错误
参考答案: B

190.判断题
如果 NameNode 意外终止,Secondary NameNode 会接替它使集群继续工作
A) 正确
B) 错误
参考答案: B

191.判断题
hadoop dfsadmin –report 命令的作用是检测 HDFS是否有数据块损坏
A) 正确
B) 错误
参考答案: B

192.判断题
因为HDFS有多个副本,所以NameNode是不存在单点问题的
A) 正确
B) 错误
参考答案: B

193.判断题
Hadoop 自身具有严格的权限管理和安全措施保障集群正常运行。
A) 正确
B) 错误
参考答案: B

194.判断题
Nagios 不可以监控 Hadoop 集群,因为它不提供 Hadoop 支持。
A) 正确
B) 错误
参考答案: B

195.判断题
Hadoop配置文件hdfs-default.xml存放了所有HDFS配置参数的默认值,hdfs-default.xml中的配置参数的有效性要优先于配置文件hdfs-site.xml中同名参数的有效性
A) 正确
B) 错误
参考答案: B

196.判断题
HDFS默认数据块的大小是不可以修改的
A) 正确
B) 错误
参考答案: B

197.判断题
YARN的HA高可用中,可以允许同时有两个ResourceManager处于Active状态
A) 正确
B) 错误
参考答案: B

198.判断题
HDFS中的一个块设计的大小为128M,是因为程序为了减小寻址开销,减低namenode的元数据存储
A) 正确
B) 错误
参考答案: A

199.判断题
Hadoop集群添加节点(集群扩容)有两种方式:一种是静态添加,关闭hadoop集群,配置相应配置,重启集群;
另一种是动态添加,不关闭hadoop集群,配置相关配置,刷新节点即可。
A) 正确
B) 错误
参考答案: A

200.判断题
YARN服务功能中的Container对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息
A) 正确
B) 错误
参考答案: A
Logo

权威|前沿|技术|干货|国内首个API全生命周期开发者社区

更多推荐