
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Spark ShuffleShuffle描述着数据从map task输出到reduce task输入的这段过程。Spark的数据模型是RDD,弹性分布式数据集,这些RDD是一个逻辑概念,一个RDD一般包含多个分区,数据在不同分区的节点上,算子作用在RDD的分区上。父RDD和子RDD构成了一个数据依赖关系,为了更好的建立映射关系,把这些依赖关系分为窄依赖和宽依赖。窄依赖父RDD和子RDD的分区之间
数据仓库是一个集成的(Integrated),面向主题的(Subject Oriented),随时间变化的(Time-Variant),不可修改的(Nonvolatile)数据集合,用于支持管理决策。这是数据仓库之父 Bill Inmon 在 1990 年提出的数据仓库概念。该概念里最重要的一点就是“集成的”,其余特性都是一些方法论的东西。因为数据仓库首先要解决的问题,就是数据集成,就是将多个分

文章目录虚拟机的雏形SUN Classic VMExact VM现在的三大虚拟机HosSpot VMJRockit VMIBM J9国内的虚拟机TaoBao JVM未来有可能替代HotSpot的虚拟机Graal VM虚拟机的雏形SUN Classic VMJava1.0时Sun公式发布,世界上第一款商用虚拟机,JDK1.4时完全被淘汰内部只提供了解释器,运行比较慢如果使用JIT编译器需要进行外挂,
本案例是把Mongo数据库的数据通过FlinkCDC实时导入到Kafka,消费Kafka数据把维表数据写入到MySQL。读取MySQL维表数据和消费Kafka的数据通过Flink SQL Join后导入到ClickHouse。(三) 数据准备test01表 json数据user表 json数据使用db.test01.insertOne(json数据) 插入到mongo数据库即可github地址ht

(1) 自定义UDF:继承UDF,重写 evaluate 方法(2) 自定义 UDTF:继承自 GenericUDTF,重写 3 个方法:initialize(自定义输出的列名和类型),process(将结果返回 forward(result)),close打包=》上传集群路径=》在hive客户端注册为什么要自定义UDF/UDTF?因为自定义函数,可以自己埋点 Log 打印日志,出错或者数据异常,