
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
AI 中台频繁 502,但服务正常——请求压根没到后端。第一次查到 Nginx 默认超时 60s,AI 模型响应慢导致超时,改 180s 后恢复。三天后又炸,深挖发现真凶是 HikariCP 连接池:事务内调 LLM 长期占用DB 连接,池子耗尽后 Nginx 等不到响应返回 502。修复:拆事务 + 连接池扩容。两次排查、两个根因——502 不一定是网关的锅。
摘要: ClickHouse内存持续增长5天,常规排查发现MemoryTracking占18.4GiB但具体内存去向不明。system.trace_log等系统日志表体积异常(24.67GiB压缩数据),且业务表parts碎片严重(部分超500个)。通过TRUNCATE系统日志表、配置TTL和OPTIMIZE高碎片表缓解问题,但根因仍未明确。最矛盾的是ClickHouse报告占用20G+内存,而操
摘要: 本文介绍基于 Flink CDC 3.5 和 Flink 1.20 实现 MongoDB 到 ClickHouse 的实时数据同步方案。传统定时脚本和消息队列中转方式存在延迟高、业务侵入性强等问题,而 Flink CDC 通过监听 MongoDB 的 Change Stream 实现增量捕获、断点续传和 Exactly-Once 语义。文章详细演示了环境搭建(包括 MongoDB 副本集配
本文介绍了使用 Flink CDC 实现 MySQL 到 ClickHouse 实时数据同步的方案。通过 Flink CDC 捕获 MySQL 的 Binlog 变更,利用 ReplacingMergeTree 引擎处理数据更新,实现增量同步与断点续传。文章详细说明了环境配置步骤,包括 MySQL Binlog 开启、权限设置以及 ClickHouse 表设计,并提供了完整的 Maven 依赖配置
摘要: ClickHouse因DolphinScheduler任务异常导致宕机,200+补数任务因"串行等待"策略形成死锁,任务卡在"准备停止"或"串行等待"状态,UI操作无效。通过直接操作MySQL数据库,清理t_ds_process_instance和t_ds_task_instance表中的异常状态(如state=4/14),解除阻
本文介绍如何使用Docker快速部署Flink 1.20.1集群,5分钟即可完成从零部署到任务运行。主要内容包括:创建目录结构、下载监控依赖(可选)、编写docker-compose配置文件(含JobManager和TaskManager)、启动服务验证以及提交任务的两种方式。配置支持Prometheus监控指标采集,提供生产级告警规则,并详细说明了各配置项作用。通过挂载本地目录实现数据持久化,适
摘要: 一个ClickHouse查询任务因内存不足报错,仅需更新2500个用户数据,却扫描了5600万行数据。排查发现,LEFT JOIN操作导致右侧表全量加载到内存,包括千万级的用户扩展信息、设备信息等表。虽然重启ClickHouse后查询能暂时成功,但本质是查询设计问题——为少量更新而全表扫描。优化方案包括在子查询中添加用户ID过滤条件,减少数据扫描量。问题根源在于"用大炮打蚊子&q
本文提出了一套客户端全埋点方案的设计思路,旨在解决传统埋点方式存在的漏埋、错埋和维护成本高等问题。方案采用全埋点与代码埋点混合模式,基于自研技术栈实现。核心设计包括:1)通过SkyWalking LAL实现零侵入日志采集;2)精简的事件协议设计(字段缩写+超时丢弃机制);3)支持多种事件类型(启动、页面浏览、点击等)。该方案充分利用现有基础设施(Kafka+Flink+ClickHouse),在保
本文介绍了一种轻量级离线+实时数仓解决方案,仅需ClickHouse、DolphinScheduler和Flink CDC三个组件。针对中小团队需求,该方案避免复杂Hadoop生态,实现高效低成本数仓搭建。架构上采用ClickHouse表引擎处理离线全量数据(35万条/秒),Flink CDC负责实时增量同步(秒级延迟),通过ReplacingMergeTree引擎解决数据去重问题。文章详细解析了
本文介绍了一套高效通用的MongoDB到ClickHouse实时同步方案,通过配置驱动方式实现多集合自动同步。针对MongoDB特有的驼峰命名、嵌套对象、脏数据等问题,设计了15种智能映射策略,包括字段重命名、类型转换、数据清洗等功能。方案采用单一Flink作业处理多个集合,通过配置文件定义映射规则,避免代码重复修改。核心优势在于配置灵活性(新增集合仅需修改配置文件)、数据处理能力(自动转换Ext







