ambitfly 个人主页

@qq_42575907

ambitfly

2022-09-16 17:54:43 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Spark Shuffle

Spark ShuffleShuffle描述着数据从map task输出到reduce task输入的这段过程。Spark的数据模型是RDD,弹性分布式数据集，这些RDD是一个逻辑概念，一个RDD一般包含多个分区，数据在不同分区的节点上，算子作用在RDD的分区上。父RDD和子RDD构成了一个数据依赖关系，为了更好的建立映射关系，把这些依赖关系分为窄依赖和宽依赖。窄依赖父RDD和子RDD的分区之间

#spark #big data #hadoop

基于 Flink SQL 构建流批一体的 ETL 数据集成

数据仓库是一个集成的（Integrated），面向主题的（Subject Oriented），随时间变化的（Time-Variant），不可修改的（Nonvolatile）数据集合，用于支持管理决策。这是数据仓库之父 Bill Inmon 在 1990 年提出的数据仓库概念。该概念里最重要的一点就是“集成的”，其余特性都是一些方法论的东西。因为数据仓库首先要解决的问题，就是数据集成，就是将多个分

#flink #sql #etl

各大虚拟机介绍

文章目录虚拟机的雏形SUN Classic VMExact VM现在的三大虚拟机HosSpot VMJRockit VMIBM J9国内的虚拟机TaoBao JVM未来有可能替代HotSpot的虚拟机Graal VM虚拟机的雏形SUN Classic VMJava1.0时Sun公式发布，世界上第一款商用虚拟机，JDK1.4时完全被淘汰内部只提供了解释器，运行比较慢如果使用JIT编译器需要进行外挂，

#java #jvm #编程语言 +1

mongo实时导入到clickhouse案例（包含复杂嵌套json的解析）

本案例是把Mongo数据库的数据通过FlinkCDC实时导入到Kafka，消费Kafka数据把维表数据写入到MySQL。读取MySQL维表数据和消费Kafka的数据通过Flink SQL Join后导入到ClickHouse。(三) 数据准备test01表 json数据user表 json数据使用db.test01.insertOne(json数据) 插入到mongo数据库即可github地址ht

#大数据 #flink

Hive自定义UDF,UDTF函数

（1）自定义UDF：继承UDF，重写 evaluate 方法（2）自定义 UDTF：继承自 GenericUDTF，重写 3 个方法：initialize(自定义输出的列名和类型)，process（将结果返回 forward(result)），close打包=》上传集群路径=》在hive客户端注册为什么要自定义UDF/UDTF？因为自定义函数，可以自己埋点 Log 打印日志，出错或者数据异常，

#hive #hadoop #大数据

到底了