logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据面试题:介绍下Flume

Flume主要是用来做什么的?

#flume#大数据
大数据面试题——Spark面试题(一)

1、spark的有几种部署模式,每种模式特点?(☆☆☆☆☆)1)本地模式Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地模式分三类local:只启动一个executorlocal[k]:启动k个executorlocal[*]:启动跟cpu数目相同的 executor2)standalone模式分

#大数据
大数据面试题全面总结(范围广超详细)

Hadoop面试题总结Hadoop面试题(一)Hadoop面试题总结(二)——HDFSHadoop面试题总结(三)——MapReduceHadoop面试题(四)——YARNHadoop面试题总结(五)——优化问题Zookeeper面试题总结大数据面试题——Zookeeper面试题总结Hive面试题总结大数据面试题——Hive面试题总结(一)大数据面试题——Hive面试题总结(二)- 优化措施Flu

#大数据
大数据面试题V2.0,641页,39w字

面试题来源:牛客网大数据面经,从约500篇面经选取。

文章图片
#大数据
大数据面试题——Spark面试题(三)

1、为什么要进行序列化序列化?可以减少数据的体积,减少存储空间,高效存储和传输数据,不好的是使用的时候要反序列化,非常消耗CPU。2、Yarn中的container是由谁负责销毁的,在Hadoop Mapreduce中container可以复用么?ApplicationMaster负责销毁,在Hadoop Mapreduce不可以复用,在spark on yarn程序container可以复用。3

#大数据
大数据面试题——Spark资源调优(六)

1、资源运行情况2、资源运行中的集中情况(1)实践中跑的Spark job,有的特别慢,查看CPU利用率很低,可以尝试减少每个executor占用CPU core的数量,增加并行的executor数量,同时配合增加分片,整体上增加了CPU的利用率,加快数据处理速度。(2)发现某job很容易发生内存溢出,我们就增大分片数量,从而减少了每片数据的规模,同时还减少并行的executor数量,这样相同的内

#大数据
字节电商大数据开发一面,已过,面试题已配答案

字节电商大数据开发一面,已过,面试题已配答案

#数据仓库#大数据#面试
大数据面试题——Spark面试题(四)

1、Spark中的HashShufle的有哪些不足?1)shuffle产生海量的小文件在磁盘上,此时会产生大量耗时的、低效的IO操作;2)容易导致内存不够用,由于内存需要保存海量的文件操作句柄和临时缓存信息,如果数据处理规模比较大的话,容易出现OOM;3)容易出现数据倾斜,导致OOM。2、conslidate是如何优化Hash shuffle时在map端产生的小文件?1)conslidate为了解

#大数据
    共 44 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择