fengquan8866 个人主页

@fengquan8866

fengquan8866

2023-08-04 15:01:06 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

AI 服务 502 雪崩排查：从 Nginx 超时到连接池耗尽，查了两次才找到真凶

AI 中台频繁 502，但服务正常——请求压根没到后端。第一次查到 Nginx 默认超时 60s，AI 模型响应慢导致超时，改 180s 后恢复。三天后又炸，深挖发现真凶是 HikariCP 连接池：事务内调 LLM 长期占用DB 连接，池子耗尽后 Nginx 等不到响应返回 502。修复：拆事务 + 连接池扩容。两次排查、两个根因——502 不一定是网关的锅。

#人工智能 #nginx #运维

ClickHouse 内存只涨不降之谜：MemoryTracking 20G 但 MemoryResident 才 2.5G，内存到底跑哪去了？

摘要： ClickHouse内存持续增长5天，常规排查发现MemoryTracking占18.4GiB但具体内存去向不明。system.trace_log等系统日志表体积异常（24.67GiB压缩数据），且业务表parts碎片严重（部分超500个）。通过TRUNCATE系统日志表、配置TTL和OPTIMIZE高碎片表缓解问题，但根因仍未明确。最矛盾的是ClickHouse报告占用20G+内存，而操

#clickhouse #大数据 #运维

Flink 1.20 + CDC 3.5 实战：MongoDB 实时同步到 ClickHouse，从踩坑到上线

摘要：本文介绍基于 Flink CDC 3.5 和 Flink 1.20 实现 MongoDB 到 ClickHouse 的实时数据同步方案。传统定时脚本和消息队列中转方式存在延迟高、业务侵入性强等问题，而 Flink CDC 通过监听 MongoDB 的 Change Stream 实现增量捕获、断点续传和 Exactly-Once 语义。文章详细演示了环境搭建（包括 MongoDB 副本集配

#flink #mongodb #clickhouse +1

Flink 1.20 实战：MySQL 实时同步到 ClickHouse

本文介绍了使用 Flink CDC 实现 MySQL 到 ClickHouse 实时数据同步的方案。通过 Flink CDC 捕获 MySQL 的 Binlog 变更，利用 ReplacingMergeTree 引擎处理数据更新，实现增量同步与断点续传。文章详细说明了环境配置步骤，包括 MySQL Binlog 开启、权限设置以及 ClickHouse 表设计，并提供了完整的 Maven 依赖配置

#flink #mysql #clickhouse

DolphinScheduler 任务阻塞死锁排查与解决方案

摘要： ClickHouse因DolphinScheduler任务异常导致宕机，200+补数任务因"串行等待"策略形成死锁，任务卡在"准备停止"或"串行等待"状态，UI操作无效。通过直接操作MySQL数据库，清理t_ds_process_instance和t_ds_task_instance表中的异常状态（如state=4/14），解除阻

#大数据 #clickhouse

Flink 1.20 基于 Docker 单机部署实战指南

本文介绍如何使用Docker快速部署Flink 1.20.1集群，5分钟即可完成从零部署到任务运行。主要内容包括：创建目录结构、下载监控依赖（可选）、编写docker-compose配置文件（含JobManager和TaskManager）、启动服务验证以及提交任务的两种方式。配置支持Prometheus监控指标采集，提供生产级告警规则，并详细说明了各配置项作用。通过挂载本地目录实现数据持久化，适

#flink #docker #大数据

ClickHouse 内存爆了？一次增量 SQL 从 8.6 GiB 干到 115 MiB 的实战复盘

摘要：一个ClickHouse查询任务因内存不足报错，仅需更新2500个用户数据，却扫描了5600万行数据。排查发现，LEFT JOIN操作导致右侧表全量加载到内存，包括千万级的用户扩展信息、设备信息等表。虽然重启ClickHouse后查询能暂时成功，但本质是查询设计问题——为少量更新而全表扫描。优化方案包括在子查询中添加用户ID过滤条件，减少数据扫描量。问题根源在于"用大炮打蚊子&q

#clickhouse #sql #大数据

APP 全埋点方案设计：从技术选型到事件协议，一套方案搞定用户行为采集

本文提出了一套客户端全埋点方案的设计思路，旨在解决传统埋点方式存在的漏埋、错埋和维护成本高等问题。方案采用全埋点与代码埋点混合模式，基于自研技术栈实现。核心设计包括：1）通过SkyWalking LAL实现零侵入日志采集；2）精简的事件协议设计（字段缩写+超时丢弃机制）；3）支持多种事件类型（启动、页面浏览、点击等）。该方案充分利用现有基础设施（Kafka+Flink+ClickHouse），在保

#大数据 #flink

ClickHouse + Flink + DolphinScheduler：中小厂三件套搞定离线+实时数仓，告别 Hadoop 全家桶

本文介绍了一种轻量级离线+实时数仓解决方案，仅需ClickHouse、DolphinScheduler和Flink CDC三个组件。针对中小团队需求，该方案避免复杂Hadoop生态，实现高效低成本数仓搭建。架构上采用ClickHouse表引擎处理离线全量数据（35万条/秒），Flink CDC负责实时增量同步（秒级延迟），通过ReplacingMergeTree引擎解决数据去重问题。文章详细解析了

#clickhouse #flink #大数据

Flink 1.20 实战：一套配置搞定 MongoDB 多集合实时同步到 ClickHouse

本文介绍了一套高效通用的MongoDB到ClickHouse实时同步方案，通过配置驱动方式实现多集合自动同步。针对MongoDB特有的驼峰命名、嵌套对象、脏数据等问题，设计了15种智能映射策略，包括字段重命名、类型转换、数据清洗等功能。方案采用单一Flink作业处理多个集合，通过配置文件定义映射规则，避免代码重复修改。核心优势在于配置灵活性（新增集合仅需修改配置文件）、数据处理能力（自动转换Ext

#flink #mongodb #clickhouse +1

共 18 条

请选择