logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Zookeeper & Kafka & Debezium & Spark 实时数据同步方案在实际项目中的使用

这个标题取的,专业但不利于传播,哈哈。好了,进入正题 。我们在搞一个大数据平台的时候,数据从哪些来?一般也无非以下几个来源:1)自己的业务系统,可能是MySQL或其他各种DB;2)埋点;3)爬虫;4)其他数据源,如比你买了鲸准数据,海鹰数据等等;这么多的数据怎么进入我们的数仓(Hive/Hbase/ClickHouse......)这个时候我们就需要CDC了。可以理解为数据抽取?数据实时同步(增量

#hive#big data#数据库
SparkStreaming & Kafka & ClickHouse

网上关于Spark 读写 clickhouse的文章不少,但我认为适用你的可能还真不多。看看本文是否能给你开启一个新思路?一、Spark消费Kafka后写入Clickhouse注意,clickhouse集群部署?kafka集群部署?Spark消费Kafka的CDC过程 怎么实现?怎么实现一次性语义?等不在本文的讨论范围。本文主要想给出一种写clickhouse的一种方式。二、参考代码......这

#kafka#spark#big data
基于Doris的日志存储分析平台(同步Kafka日志数据)

【代码】基于Doris的日志存储分析平台(同步Kafka日志数据)

文章图片
#kafka#分布式#big data
到底了