logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Spark Shuffle

Spark Shuffle​Shuffle描述着数据从map task输出到reduce task输入的这段过程。Spark的数据模型是RDD,弹性分布式数据集,这些RDD是一个逻辑概念,一个RDD一般包含多个分区,数据在不同分区的节点上,算子作用在RDD的分区上。父RDD和子RDD构成了一个数据依赖关系,为了更好的建立映射关系,把这些依赖关系分为窄依赖和宽依赖。窄依赖父RDD和子RDD的分区之间

#spark#big data#hadoop
基于 Flink SQL 构建流批一体的 ETL 数据集成

​数据仓库是一个集成的(Integrated),面向主题的(Subject Oriented),随时间变化的(Time-Variant),不可修改的(Nonvolatile)数据集合,用于支持管理决策。这是数据仓库之父 Bill Inmon 在 1990 年提出的数据仓库概念。该概念里最重要的一点就是“集成的”,其余特性都是一些方法论的东西。因为数据仓库首先要解决的问题,就是数据集成,就是将多个分

文章图片
#flink#sql#etl
各大虚拟机介绍

文章目录虚拟机的雏形SUN Classic VMExact VM现在的三大虚拟机HosSpot VMJRockit VMIBM J9国内的虚拟机TaoBao JVM未来有可能替代HotSpot的虚拟机Graal VM虚拟机的雏形SUN Classic VMJava1.0时Sun公式发布,世界上第一款商用虚拟机,JDK1.4时完全被淘汰内部只提供了解释器,运行比较慢如果使用JIT编译器需要进行外挂,

#java#jvm#编程语言 +1
mongo实时导入到clickhouse案例(包含复杂嵌套json的解析)

本案例是把Mongo数据库的数据通过FlinkCDC实时导入到Kafka,消费Kafka数据把维表数据写入到MySQL。读取MySQL维表数据和消费Kafka的数据通过Flink SQL Join后导入到ClickHouse。(三) 数据准备test01表 json数据user表 json数据使用db.test01.insertOne(json数据) 插入到mongo数据库即可github地址ht

文章图片
#大数据#flink
Hive自定义UDF,UDTF函数

(1) 自定义UDF:继承UDF,重写 evaluate 方法(2) 自定义 UDTF:继承自 GenericUDTF,重写 3 个方法:initialize(自定义输出的列名和类型),process(将结果返回 forward(result)),close打包=》上传集群路径=》在hive客户端注册为什么要自定义UDF/UDTF?因为自定义函数,可以自己埋点 Log 打印日志,出错或者数据异常,

#hive#hadoop#大数据
到底了