logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【大数据学习 | 面经】Spark的四种join方式

在Spark中,join操作用于合并两个数据集(如dataFrame和Dataset),其原理依赖于分布式计算的特性。Spark的join主要通过不同的连接策略来实现,选择哪种策略取决于多种因素,包括参数连接的数据集大小,是否进行了广播,是否有共同的分区分区键等。

文章图片
#大数据#学习#spark
【大数据学习 | Spark-Core】Spark中的join原理

join是两个结果集之间的链接,需要进行数据的匹配。演示一下join是否存在shuffle。,会发生shuffle。但分区数量不变。

文章图片
#大数据#spark#oracle +4
【数据结构与算法 | 图篇】Bellman-Ford算法(单源最短路径算法)

前文的迪杰斯特拉算法不能求解有负边的图的最短路径的问题。而此文的Bellman-Ford可以处理含负权边的图算法,并且能检测出图中是否存在负环(权重和为负数的环).

文章图片
#算法#数据结构
【大数据学习 | Spark调优篇】数据序列化(kryo序列化)

使用自定义类型时需要预先注册好要序列化的自定义的类。

【大数据学习 | 面经】Spark 3.x 中的AQE(自适应查询执行)

通过这些机制,AQE 在运行时动态优化执行计划,根据实时数据特征调整,从而提升查询性能,减少资源消耗,并减少手动调优的需求。这些改进使得 Spark 3.x 在处理大型或倾斜数据集时,相较于 Spark 2.x,性能有了显著提升。

文章图片
#大数据#spark#oracle +1
【大数据学习 | Spark】Spark on hive与 hive on Spark的区别

这种方式下,spark可以读取和写入hive表,利用hive的元数据信息来进行表结构的定义和管理。hive on Spark指的是将hive的默认的执行引擎MR换成Spark。sparkSQL使用hive的Metastore来获取表的元数据信息,这样可以在SparkSQL直接访问hive表。sparkSQL支持HiveQL的语法,使得用户可以使用熟悉的Hive查询语句在Spark上执行SQL查询。

文章图片
#大数据#spark#hbase +3
【大数据入门 | Hive】DDL数据定义语言(数据库DataBase)

注:若不指定路径,其默认路径为${hive.metastore.warehouse.dir}/database_name.db。需要注意的是:修改数据库location,不会改变当前已有表的路径信息,而只是改变后续创建的新表的默认的父目录。注:RESTRICT:严格模式,若数据库不为空,则会删除失败,默认为该模式。CASCADE:级联模式,若数据库不为空,则会将库中的表一并删除。注:like通配表

文章图片
#hive#hadoop#数据仓库
【大数据学习 | 面经】Spark的shuffle hash join的具体细节

shuffle hash join是Spark中一种常见的连接策略,尤其适用于两个数据集都比较大且无法通过广播来优化的情况。其核心思想是通过对连接键进行哈希分区,使得相同键值的数据被分配到相同的分区中,从而可以在每个分区独立的执行连接操作。

文章图片
#大数据#spark#hbase +3
【大数据入门 | Hive】文件格式和压缩

压缩格式算法文件扩展名是否可切分DEFLATEDEFLATE.deflate否GzipDEFLATE.gz否bzip2bzip2.bz2是LZOLZO.lzo是SnappySnappy.snappy否为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器,如下表所示:Hadoop查看支持压缩的方式hadoop checknative。Hadoop在driver端设置压缩。压缩格式对应的编码/

文章图片
#大数据#hive#hadoop
    共 11 条
  • 1
  • 2
  • 请选择