
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
COW表写入的时候会有写放大的问题,所以hudi的话生产我个人觉得还是选用MOR表,针对flink写入hudi和iceberg我做了一些选型的对比。更多信息,欢迎关注我的公众号,加WX
传统的流式数据入库的过程中对小文件进行合并会产生很多问题,比如流式数据不断的往hive表进行写入,如果同时有一个合并程序进行小文件的合并,那么这时候对同一份数据进行读写。会不会产生问题。如何保证事务,出错了怎么回滚呢,这些都是很棘手的问题。我们的流任务以flink为主,查询引擎是presto,所以调研以后,我决定引入iceberg来解决小文件合并的问题。
今天我们主要来讲一个很简单但是很常见的需求,实时计算出网站当天的pv值,然后将结果实时更新到mysql数据库,以供前端查询显示。接下来我们看看如何用flinksql来实现这个简单的功能。首先我们还是使用datagen生成测试数据,随机生成一些用户idString sourceSql = "CREATE TABLE datagen (\n" +" userid int,\n" +" proctime
作为一个程序员,给世界上顶级的apache社区贡献一下自己的代码,成为一个apache contributer,把这个写到简历里,是不是觉得很爽,下面我结合apache flink来简单讲讲如何给apache 贡献你的第一行代码。
文章目录MiniClusterStandaloneyarnyarn sessionyarn per jobapplication模式k8s其他MiniCluster这种模式我们一般是在用IDE调试程序的时候用到,当我们在本地用IDE开发程序的时候,执行main方法,flink会在本地启动一个包含jobmanager和taskmanager的进程的minicluster,程序运行完成之后,这个clu
文章目录自定义构造镜像部署配置flink sql的编写k8s 模板的配置查看日志后续自定义构造镜像由于容器化易管理、易扩容等优点,越来越多的组件都开始迁移到容器上,k8s作为容器化的事实标准,受到了越来越多的人的青睐,由于我们目前很多web开发的组件也是部署到k8s上的,为了后续运维更加方便,我把我们用到的一些大数据组件都迁移到了k8s,包括hive、trino、flink、clickhouse等
DC,Change Data Capture,变更数据获取的简称,使用CDC我们可以从数据库中获取已提交的更改并将这些更改发送到下游,供下游使用。这些变更可以包括INSERT,DELETE,UPDATE等.用户可以在如下的场景使用cdc:实时数据同步:比如我们将mysql库中的数据同步到我们的数仓中。数据库的实时物化视图。flink提供了两种方式来处理cdc的数据,一种是直接消费kafka中cdc
在大数据处理领域,数据倾斜是一个非常常见的问题,今天我们就简单讲讲在flink中如何处理流式数据倾斜问题。我们先来看一个可能产生数据倾斜的sql.select TUMBLE_END(proc_time, INTERVAL '1' MINUTE) as winEnd,plat,count(*) as pvfrom source_kafka_tablegroup by TUMBLE(proc_time
文章目录背景iceberg简介flink实时写入准备sql client环境创建catalog创建db创建table插入数据查询代码版本总结背景随着大数据处理结果的实时性要求越来越高,越来越多的大数据处理从离线转到了实时,其中以flink为主的实时计算在大数据处理中占有重要地位。Flink消费kafka等实时数据流。然后实时写入hive,在大数据处理方面有着广泛的应用。此外由于列式存储格式如par
转自http://www.jianshu.com/p/5d889a67dcd3Kafka 0.11.0.0 是如何实现 Exactly-once 语义的