logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

PostgreSQL 索引失效?我用 pg_stat_statements + EXPLAIN 15 分钟定位了隐式类型转换

这次排查从告警到解决,大概 20 分钟出头。主要时间花在定位类型转换上——一旦知道原因,修复其实很快。类型不一致是索引失效的重灾区。varchar+ 整型参数、integer+ 字符串参数,这类组合在应用层传入时很常见,但很容易被忽略。EXPLAIN是标配。生产环境出问题,先用前者捞高频查询,再逐个EXPLAIN,哪个不走索引一目了然。如果你的查询也有类似问题,建议先把EXPLAIN跑一遍,看看有

#postgresql#数据库
凌晨两点数据库主从延迟告警,我用 binlog + pt-query-digest 在十分钟内还原了事故链

这次事故从头到尾 10 分钟解决,但复盘后我意识到:真正救命的,是平时养成的两个习惯。第一,工具链常备。不是临时装的,是每台服务器的标准配置。如果你现在还没装 Percona Toolkit,今天就去装。**第二,对"定时任务"保持警惕。**很多深夜故障不是流量洪峰,是某条" harmless "的清理脚本。任何操作生产数据的脚本,都要问自己:这条 SQL 在从库回放时,会不会卡住?如果你也遇到过

#istio#云原生
Docker 容器化实战踩坑:我被这些问题坑了3次后总结的保命指南

Docker 确实是现代开发和运维的神器,但它也不是万能的。该踩的坑一个都跑不了。权限问题优先排查,容器内外用户要对齐数据持久化是底线,没挂载数据卷就等着哭网络配置要提前规划,别等部署时抓瞎镜像优化要从第一天做起,别等体积爆炸才后悔希望这份踩坑指南能帮你少走弯路。Docker 官方文档:https://docs.docker.com/Docker Compose 最佳实践Kubernetes 入门

#docker#容器#运维
Kafka 消费者组频繁 Rebalance?我用一套可观测脚本把根因揪出来了

说实话,这次排查让我对「可观测性」有了更深的体会。之前总觉得可观测就是装个 Prometheus、搭个 Grafana。但真正遇到问题才发现,光有指标是不够的——你需要的是把分散的数据串起来看的能力。Rebalance 这类问题特别适合用关联分析来定位,因为它的根因往往不在 Kafka 本身,而在外部(网络、GC、资源竞争)。如果你也在被类似问题困扰,不妨先跑一下这套脚本,看看能不能找到线索。有踩

#kafka#分布式
一次慢 SQL 不是数据库的锅:我怎么用 EXPLAIN 和采样日志定位真正瓶颈

慢SQL不一定都是数据库的锅。这次故障排查花了2小时,但真正解决问题只用了10分钟。大部分时间都在"以为是数据库问题"的错误方向上。关键教训:遇到慢SQL,先别急着改索引,用EXPLAIN和采样日志确认瓶颈在哪一层。工具分享:我写了一个自动化采样脚本,放在GitHub了,大家可以拿去用。相关阅读凌晨2点生产库CPU飙到90%:一次PostgreSQL慢查询引发的雪崩复盘Docker 容器频繁 OO

#nginx#运维
Elasticsearch 索引写入突然卡死?我用 _cat API 和线程池监控定位了元凶

ES 的线程池监控太重要了。很多 ES 问题表面上是索引慢、查询慢,但根因往往是线程池被打满。而 _cat API 是定位这类问题的利器,比翻日志快得多。批量写入一定要限流:别让定时任务无脑并发,ES 扛不住refresh_interval 别设太小:除非实时性要求极高,否则 30s 够用分片规划要提前做:根据写入量估算分片数,别等打满再改线程池队列要监控:队列堆积是写入瓶颈的早期信号如果你也遇到

#elasticsearch#jenkins#大数据
Kafka 消费者组频繁 Rebalance?我用一套可观测脚本把根因揪出来了

这次故障前后折腾了将近 2 小时,其中大部分时间在"猜"问题在哪。事后我整理了这套脚本,下次遇到类似情况,5 分钟内就能定位根因。说白了,Rebalance 多数时候不是 Kafka 的问题,而是消费者端的代码问题。要么是处理太慢,要么是心跳没跟上。如果你也在被 Rebalance 困扰,先跑一下上面的脚本,看看是哪种情况。多数时候,答案就在日志里。

#kafka#分布式
Git 撤销操作的5个致命坑:我被 commit 后悔药坑了3次后总结的保命指南

Git 的撤销操作真的不是闹着玩的,每次手抖都可能出问题。push 前多检查git status和git log看清楚再 push多用 revert 少用 reset:revert 安全,不影响团队重要操作前先备份:新建分支再操作–hard 慎用:除非确定不要这些修改如果你也有类似的踩坑经历,欢迎评论区分享,大家一起避坑。

#git#elasticsearch#大数据
上线当天注册接口被刷爆:我用滑块验证码 + 请求指纹把羊毛党拦在了网关层

很多人一提到防刷,第一反应是买商业 WAF 或者接第三方风控 SDK。不是说这些不好,而是它们往往需要改业务代码、加依赖、还要担心供应商的延迟和稳定性。我们的方案全部放在网关层,业务服务连一行代码都不用改。滑块验证码自建,成本几乎为零;请求指纹用 Redis 维护,2ms 延迟;规则用 Lua 脚本原子执行,没有竞态条件。如果你也在被羊毛党骚扰,我建议先别急着买服务。拉一下你的 access.lo

#运维#前端#数据库
Docker 容器化实战踩坑:我被网络和存储卷坑了3次后终于搞懂了

Docker 看起来简单,但是里面的坑是真不少。网络、存储卷、权限、服务间通信、构建缓存——每一个都能让新手折腾半天。先跑通再优化:先用最简单的命令把服务跑起来,再慢慢加配置多用 Docker Compose:配置文件能记录所有参数,方便排查问题看日志:大部分问题都能在日志里找到答案了解原理:知道 Docker 网络、存储卷的原理,出了问题才能快速定位希望这篇文章能帮你少踩几个坑。如果还有其他 D

#docker#网络#容器
    共 40 条
  • 1
  • 2
  • 3
  • 4
  • 请选择