logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Flink--Hybrid Source提出的动机及实现原理介绍

Hybrid Source的提出动机在实践中,许多Flink作业需要按顺序从多个数据源读取数据,具体有如下2个场景:Change Data Capture (CDC): 用户可以将数据的快照存储在HDFS/S3中,数据的更新日志存储在数据库binlog或Kafka中机器学习特征回填: 当向模型添加新特性时,需要从几个月前到现在的原始数据计算该特性。在大多数情况下,历史数据和实时数据分别存储在两种不

#flink
hadoop权威指南读书总结

最近在看hadoop权威指南,巩固一下hadoop的基础知识。首先,hadoop是什么呢?Hadoop起源于Nutch, 源起于实现对海量数据的处理方式,中文也称之为‘云计算’。Hadoop就是云计算中的一个开源项目,它克隆了Google运行系统的主要框架,包括文件系统HDFS,计算架构MapReduce及对于结构化数据处理的HBAse等。而基于Hadoop,又出现了许多的开源项目,比如P

#hadoop#zookeeper#架构 +1
到底了