简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
文章目录MiniClusterStandaloneyarnyarn sessionyarn per jobapplication模式k8s其他MiniCluster这种模式我们一般是在用IDE调试程序的时候用到,当我们在本地用IDE开发程序的时候,执行main方法,flink会在本地启动一个包含jobmanager和taskmanager的进程的minicluster,程序运行完成之后,这个clu
文章目录自定义构造镜像部署配置flink sql的编写k8s 模板的配置查看日志后续自定义构造镜像由于容器化易管理、易扩容等优点,越来越多的组件都开始迁移到容器上,k8s作为容器化的事实标准,受到了越来越多的人的青睐,由于我们目前很多web开发的组件也是部署到k8s上的,为了后续运维更加方便,我把我们用到的一些大数据组件都迁移到了k8s,包括hive、trino、flink、clickhouse等
DC,Change Data Capture,变更数据获取的简称,使用CDC我们可以从数据库中获取已提交的更改并将这些更改发送到下游,供下游使用。这些变更可以包括INSERT,DELETE,UPDATE等.用户可以在如下的场景使用cdc:实时数据同步:比如我们将mysql库中的数据同步到我们的数仓中。数据库的实时物化视图。flink提供了两种方式来处理cdc的数据,一种是直接消费kafka中cdc
在大数据处理领域,数据倾斜是一个非常常见的问题,今天我们就简单讲讲在flink中如何处理流式数据倾斜问题。我们先来看一个可能产生数据倾斜的sql.select TUMBLE_END(proc_time, INTERVAL '1' MINUTE) as winEnd,plat,count(*) as pvfrom source_kafka_tablegroup by TUMBLE(proc_time
文章目录背景iceberg简介flink实时写入准备sql client环境创建catalog创建db创建table插入数据查询代码版本总结背景随着大数据处理结果的实时性要求越来越高,越来越多的大数据处理从离线转到了实时,其中以flink为主的实时计算在大数据处理中占有重要地位。Flink消费kafka等实时数据流。然后实时写入hive,在大数据处理方面有着广泛的应用。此外由于列式存储格式如par
转自http://www.jianshu.com/p/5d889a67dcd3Kafka 0.11.0.0 是如何实现 Exactly-once 语义的
转载自:https://blog.csdn.net/u010039929/article/details/70157376文件系统数据存储内存技术数据搜集消息系统数据处理查询引擎分析和报告工具调度与管理服务机器学习开发平台文件系统HDFS Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS是一个高...
记录下需要学习的相关知识点1.watermark原理,设置水印的方法,分布式情况下水印的处理2.分布式快照算法3.window4.自定义udf5.sql、table6.异步io7.机器学习8.流处理和批处理的api9.checkpoint,savepoint10.flink执行job流程11.flink的资源管理12.状态管理13.join14.Event Time1...
文章目录CDC简介CanalCanalJson反序列化源码解析CDC简介CDC,Change Data Capture,变更数据获取的简称,使用CDC我们可以从数据库中获取已提交的更改并将这些更改发送到下游,供下游使用。这些变更可以包括INSERT,DELETE,UPDATE等,用户可以在以下的场景下使用CDC:使用flink sql进行数据同步,可以将数据从一个数据同步到其他的地方,比如mysq