nick_huangzheng 个人主页

@nick_huangzheng

nick_huangzheng

2022-10-24 15:08:13 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Zookeeper & Kafka & Debezium & Spark 实时数据同步方案在实际项目中的使用

这个标题取的，专业但不利于传播，哈哈。好了，进入正题。我们在搞一个大数据平台的时候，数据从哪些来？一般也无非以下几个来源：1）自己的业务系统，可能是MySQL或其他各种DB；2）埋点；3）爬虫；4）其他数据源，如比你买了鲸准数据，海鹰数据等等；这么多的数据怎么进入我们的数仓（Hive/Hbase/ClickHouse......）这个时候我们就需要CDC了。可以理解为数据抽取？数据实时同步（增量

#hive #big data #数据库

SparkStreaming & Kafka & ClickHouse

网上关于Spark 读写 clickhouse的文章不少，但我认为适用你的可能还真不多。看看本文是否能给你开启一个新思路？一、Spark消费Kafka后写入Clickhouse注意，clickhouse集群部署？kafka集群部署？Spark消费Kafka的CDC过程怎么实现？怎么实现一次性语义？等不在本文的讨论范围。本文主要想给出一种写clickhouse的一种方式。二、参考代码......这

#kafka #spark #big data

基于Doris的日志存储分析平台（同步Kafka日志数据）

【代码】基于Doris的日志存储分析平台（同步Kafka日志数据）

#kafka #分布式 #big data

到底了