
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
Flink--Hybrid Source提出的动机及实现原理介绍
Hybrid Source的提出动机在实践中,许多Flink作业需要按顺序从多个数据源读取数据,具体有如下2个场景:Change Data Capture (CDC): 用户可以将数据的快照存储在HDFS/S3中,数据的更新日志存储在数据库binlog或Kafka中机器学习特征回填: 当向模型添加新特性时,需要从几个月前到现在的原始数据计算该特性。在大多数情况下,历史数据和实时数据分别存储在两种不
hadoop权威指南读书总结
最近在看hadoop权威指南,巩固一下hadoop的基础知识。首先,hadoop是什么呢?Hadoop起源于Nutch, 源起于实现对海量数据的处理方式,中文也称之为‘云计算’。Hadoop就是云计算中的一个开源项目,它克隆了Google运行系统的主要框架,包括文件系统HDFS,计算架构MapReduce及对于结构化数据处理的HBAse等。而基于Hadoop,又出现了许多的开源项目,比如P
到底了