logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据面试题——Spark程序开发调优(七)

1、程序开发调优 :避免创建重复的RDD需要对名为“hello.txt”的HDFS文件进行一次map操作,再进行一次reduce操作。也就是说,需要对一份数据执行两次算子操作。错误的做法:对于同一份数据执行多次算子操作时,创建多个RDD。//这里执行了两次textFile方法,针对同一个HDFS文件,创建了两个RDD出来,然后分别对每个RDD都执行了一个算子操作。这种情况下,Spark需要从HDF

#大数据
\OBJ\FreeRTOS.axf: Error: L6218E: Undefined symbol xTaskGetSchedulerState (referred from delay.o).

当我们移植FreeRTOS时,会出现了freertos.axf: Error: L6218E: Undefined symbol xTaskGetSchedulerState (referred from delay.o).(这里我是直接用的STM32自带的一个工程模板,所以是Template.axf)这是因为在官方提供的源码中有一个地方需要我们对它进行修改,程序才能正确运行将 FreeRTOS.

大数据面试题——Hive面试题总结(一)

1、Hive表关联查询,如何解决数据倾斜的问题?(☆☆☆☆☆)1)倾斜原因: map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。(1)key分布不均匀;(2)业务数据本身的特性;(3)建表时考虑不周;(4)某些SQL语句本身就有数据倾斜;如何避免:对于key为空产生的数据倾斜,可以对其赋予.

#大数据#hive
在Intellij IDEA搭建Scala开发环境,以及使用Intellij IDEA开发Scala程序

1、Scala在Windows系统上的安装及环境配置1)安装JDK1.8版本(注意:一定要是1.8版本,否则会有错误)>> 官网下载JDK1.8Oracle官网下载JDK的地址:https://www.oracle.com/technetwork/java/javase/downloads/index.html自行选择32或64位下载,下载之前请先勾选“ Accep...

#大数据
Hadoop——分布式计算框架MapReduce实践案例

三、MapReduce案例实操1、MapReduce核心编程思想  1)分布式的运算程序往往需要分成至少2个阶段  2)第一个阶段的maptask并发实例,完全并行运行,互不相干  3)第二个阶段的reduce task并发实例互不相干,但是他们的数据依赖于上一个阶段的所有maptask并发实例的输出  4)MapReduce编程模型只能包含一个map阶段和一个reduce阶段,如果用户...

大数据面试题——Spark的Shuffle配置调优(八)

1、Shuffle优化配置 - spark.shuffle.file.buffer默认值:32k参数说明:该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前,会先写入buffer缓冲中,待缓冲写满之后,才会溢写到磁盘。调优建议:如果作业可用的内存资源较为充足的话,可以适当增加这个参数的大小(比如64k),从而减

阿里云大数据开发一面面经,已过,面试题已配答案

阿里云大数据开发一面面经,已过,面试题已配答案

阿里云大数据开发三面面经,已过,面试题已配答案

阿里云大数据开发三面面经,已过,面试题已配答案

#大数据
阿里云大数据开发二面面经,已过,面试题已配答案

阿里云大数据开发二面面经,已过,面试题已配答案

#大数据#面试
大数据面试题——Spark面试题(四)

1、Spark中的HashShufle的有哪些不足?1)shuffle产生海量的小文件在磁盘上,此时会产生大量耗时的、低效的IO操作;2)容易导致内存不够用,由于内存需要保存海量的文件操作句柄和临时缓存信息,如果数据处理规模比较大的话,容易出现OOM;3)容易出现数据倾斜,导致OOM。2、conslidate是如何优化Hash shuffle时在map端产生的小文件?1)conslidate为了解

#大数据
    共 25 条
  • 1
  • 2
  • 3
  • 请选择