
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
介绍下YARN
1、spark的有几种部署模式,每种模式特点?(☆☆☆☆☆)1)本地模式Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地模式分三类local:只启动一个executorlocal[k]:启动k个executorlocal[*]:启动跟cpu数目相同的 executor2)standalone模式分
1、为什么要进行序列化序列化?可以减少数据的体积,减少存储空间,高效存储和传输数据,不好的是使用的时候要反序列化,非常消耗CPU。2、Yarn中的container是由谁负责销毁的,在Hadoop Mapreduce中container可以复用么?ApplicationMaster负责销毁,在Hadoop Mapreduce不可以复用,在spark on yarn程序container可以复用。3
介绍下MapReduce,MapReduce优缺点
1、Hive表关联查询,如何解决数据倾斜的问题?(☆☆☆☆☆)1)倾斜原因: map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。(1)key分布不均匀;(2)业务数据本身的特性;(3)建表时考虑不周;(4)某些SQL语句本身就有数据倾斜;如何避免:对于key为空产生的数据倾斜,可以对其赋予.
1、Shuffle优化配置 - spark.shuffle.file.buffer默认值:32k参数说明:该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前,会先写入buffer缓冲中,待缓冲写满之后,才会溢写到磁盘。调优建议:如果作业可用的内存资源较为充足的话,可以适当增加这个参数的大小(比如64k),从而减
阿里云大数据开发三面面经,已过,面试题已配答案
阿里云大数据开发二面面经,已过,面试题已配答案
分布式计算框架MapReduce一、MapReduce概述 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。1、为什么要MapReduce 1)海量数据在单机上处理因为硬件资源限制,无法胜任 2...
Kafka怎么保证数据不丢失,不重复?








