
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文记录了一次由监控指标引发的线上故障排查过程。某台 consumer 服务器 load5 飙升至 8.5,经排查发现罪魁祸首竟是监控组件 micrometer 自身。通过 top、jstack 等工具分析,定位到 5 个 Gauge 指标导致 VM Thread 持续占用 CPU 25%,造成 safepoint 风暴问题。文章详细展示了从告警到根因的完整排查链路,包括使用 hot-stack.
摘要: 视频探讨了电商秒杀场景下库存超卖问题的解决方案。超卖主要由并发访问、数据竞争和网络延迟导致。传统数据库悲观锁和乐观锁方案存在性能差、失败率高等问题。推荐采用分布式锁(Redis/Redission)或Redis原子操作(Lua脚本)确保扣减库存的原子性。进阶方案包括两阶段预扣库存(冻结库存+确认支付)和消息队列异步处理,通过解耦提高系统吞吐量。这些方法能有效避免超卖,保障秒杀业务的稳定性。
本文介绍了如何在Android手机上调试H5页面的完整方案。通过USB连接电脑后,使用adb工具进行端口映射,让手机直接访问本地开发服务器(如Vite),配合Chrome远程调试功能(chrome://inspect)实现实时代码修改、日志查看和性能分析。重点解决了Google Pay等必须在真机测试的场景,以及触摸事件、WebView适配等移动端特有问题的调试需求。文章还推荐使用scrcpy投屏
一种 Spring + RocketMQ "自动事件总线"设计:业务 Bean 加 @RemoteEvent 注解,启动时自动创建独立 Consumer + Topic + Group。本文剖析发送侧用 ApplicationEventMulticaster 接管 Spring事件分发、消费侧扫描注解自动注册 Container 的双端实现,量化每个 Bean 至少新增 21 个线程的代价(60
凌晨被 OOM 告警叫醒?本文从 Linux 内存识别误区(看 available 而不是 free)讲起,用 top + /proc/PID/status 定位吃内存的进程;再深入 JVM 层,jstat 看 GC 趋势、jmap + MAT解剖堆转储、Arthas 在线诊断;最后归纳堆内泄漏、大对象、堆外内存、Metaspace 溢出、GC 参数不合理五大经典原因与解法。文末附完整排查 SOP
AI 中台频繁 502,但服务正常——请求压根没到后端。第一次查到 Nginx 默认超时 60s,AI 模型响应慢导致超时,改 180s 后恢复。三天后又炸,深挖发现真凶是 HikariCP 连接池:事务内调 LLM 长期占用DB 连接,池子耗尽后 Nginx 等不到响应返回 502。修复:拆事务 + 连接池扩容。两次排查、两个根因——502 不一定是网关的锅。
摘要: ClickHouse内存持续增长5天,常规排查发现MemoryTracking占18.4GiB但具体内存去向不明。system.trace_log等系统日志表体积异常(24.67GiB压缩数据),且业务表parts碎片严重(部分超500个)。通过TRUNCATE系统日志表、配置TTL和OPTIMIZE高碎片表缓解问题,但根因仍未明确。最矛盾的是ClickHouse报告占用20G+内存,而操
摘要: 本文介绍基于 Flink CDC 3.5 和 Flink 1.20 实现 MongoDB 到 ClickHouse 的实时数据同步方案。传统定时脚本和消息队列中转方式存在延迟高、业务侵入性强等问题,而 Flink CDC 通过监听 MongoDB 的 Change Stream 实现增量捕获、断点续传和 Exactly-Once 语义。文章详细演示了环境搭建(包括 MongoDB 副本集配
本文介绍了使用 Flink CDC 实现 MySQL 到 ClickHouse 实时数据同步的方案。通过 Flink CDC 捕获 MySQL 的 Binlog 变更,利用 ReplacingMergeTree 引擎处理数据更新,实现增量同步与断点续传。文章详细说明了环境配置步骤,包括 MySQL Binlog 开启、权限设置以及 ClickHouse 表设计,并提供了完整的 Maven 依赖配置
摘要: ClickHouse因DolphinScheduler任务异常导致宕机,200+补数任务因"串行等待"策略形成死锁,任务卡在"准备停止"或"串行等待"状态,UI操作无效。通过直接操作MySQL数据库,清理t_ds_process_instance和t_ds_task_instance表中的异常状态(如state=4/14),解除阻







