logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据实时计算-反压机制剖析

大数据实时计算中的反压机制是流处理系统应对流量过载的关键保护机制。本文对比分析了三大主流引擎的反压实现:Storm基于ZooKeeper的全局反压,Spark Streaming采用PID控制器进行批次级限流,Flink则通过Credit信用机制实现算子级精准流控。

文章图片
#大数据#flink
Flink生产问题排障-Hudi DuplicateFileIdException

摘要:基于Flink+Hudi的实时入湖链路作业因OOM频繁重启后报DuplicateFileId异常,最终失败。排查发现Hudi的Bucket索引在作业异常重启时,索引状态与写入不一致导致同一bucket生成多个fileId。原因是tagging与写入非原子操作,索引回滚后误判insert导致数据重复。该问题为Hudi已知Bug(HUDI-8123),临时方案重建表并扩容资源,根治方案需合入官方

文章图片
#flink#大数据
Flink技术实践-Flink SQL 开发中的隐蔽陷阱

Flink SQL以其极低的代码门槛,让复杂的流计算变得像写MySQL一样简单,然而“声明式”的表象往往掩盖了“流式”的底层复杂性。本文将深度聚焦Flink SQL开发层面的隐蔽陷阱,剖析痛点并给出避坑思路。

文章图片
#flink#sql#大数据
Flink生产问题排障-Kryo serializer scala extensions are not available

Flink任务使用RocksDB状态后端和StateTTL时,因Kryo序列化器在后台Compaction线程中无法获取类加载器导致崩溃。文章从问题现象、原因分析、解决方案等方面讲述Flink生产实战。

文章图片
#flink#大数据
Flink生产问题排障-DAG膨胀导致JobManagerOOM

使用FlinkSQL开发处理宽表CDC数据时采用嵌套CASE WHEN表达式导致SQL解析阶段产生大量语法树节点,引发JobManager堆内存溢出。文章基于问题现象层层排查根因,并给出解决方案与总结。

文章图片
#flink#大数据
Flink-Hudi生产问题排障-xxx.parquet is not a Parquet file

本文分析了Flink+Hudi实时数据湖架构中出现的0字节Parquet文件问题,从问题现象入手,结合FLink+Hudi运行原理,完成问题排查与根因分析,并给出修复方案与总结。

文章图片
#flink#大数据
Flink技术实践-超时异常踩坑与优化

本文针对Flink实时计算中的超时异常问题,分析了Kafka消费者心跳超时、RPC超时和Checkpoint超时等典型场景的成因。最后根据不同的业务场景提出了针对性的参数调优建议,并总结了参数联动配置的原则。

文章图片
#flink#大数据
Flink生产问题排障-OOM

本文针对Flink作业中常见的直接内存溢出问题展开分析。案例中一个Kafka+HBase的Flink作业出现数据延迟,经排查发现是由于Task Off-Heap内存不足导致direct buffer memory溢出。通过分析Flink内存模型,确认问题源于HBase connector使用的直接内存超出配置限制(默认128M)。解决方案包括:1)调大taskmanager.memory.task

文章图片
#flink#大数据
Flink技术实践-Flink指标监控全景指南

Flink作业的实时运行状态,本质上是黑盒的——如果你只盯着业务延迟这一个指标,就像开车只看后视镜。本文将从 Flink 监控底层逻辑出发,系统梳理生产必盯核心指标,构建一套完整的 Flink 作业监控体系。

文章图片
#flink#大数据
Flink技术实践-90%都会踩的状态坑

Flink状态管理是有状态计算的核心,但80%的线上故障与其相关。本文从状态管理的本质出发,系统拆解Flink状态管理的核心机制,汇总生产环境中最常见的五大坑点,提供可落地的调优方案,并对实时场景下状态管理的演进方向进行展望。

文章图片
#flink#大数据
    共 18 条
  • 1
  • 2
  • 请选择