记一次生产环境内存占用过高的排查

生产环境出现内存使用较大的情况，没有OOM，但K8s服务重启了，查一下原因

BLF2

895人浏览 · 2022-08-26 14:00:10

BLF2 · 2022-08-26 14:00:10 发布

缘起

生产环境服务A部署在K8s上，某天运维告诉我这个服务经常会重启，客户没有报告是因为我们是滚动发布更新，先启动这个服务的一个新实例，然后将旧实例Kill掉，这样前端是无感知的，但重启是实实在在存在的，生产问题不可马虎，于是开启了定位问题之旅。

过程

定位问题前前后后一共花了快一个月，过程如下：

服务是Java写成的，监控有Prometheus和ARMS（阿里商业监控），Prometheus只能看到CPU和内存用量，我也看了Prometheus监控，内存大致如下：

CPU大致如下：

还有GC等指标，其实不用看了，大概就是老年代满了，没内存了，但是日志里没有OOM错误，这是为什么？原因是部署在K8s，在OOM之前 health check的响应时长过长，K8s认为服务挂了，就启动了个新实例，将旧实例Kill掉。
看此段时间内的请求，某个接口请求比较频繁，于是猜测这个接口频繁调用会导致服务重启，但猜测毕竟是猜测，要去验证的。于是在UAT环境进行验证，但是由于UAT数据量级和PRD量级差距过大，只是发现UAT内存增加了，并未出现和生产环境一样的现象——healthcheck导致服务重启。又去请求DBA同学导一下生产数据往UAT库，但被Security团队拒绝了。这下没法在UAT测试和验证了，于是主意又打到PRD环境，和领导聊过之后，终于在某个周五晚上（因为是内部系统，周五客户下班后，这个系统基本没人使用），疯狂调用上面发现的接口，将服务搞挂了，监控和上面一致，复现了这个问题，确定是这个接口导致的。
确定了是这个接口导致的，只能知道把内存打满了，但不知道因为内部逻辑的哪一块导致的，从代码角度看的话不容易看出来，而且看出来也没有直接的证据证明确实是这段代码，没法给领导汇报，于是考虑将出现这个问题时的内存dump一下。首先考虑到的是使用aliyun的ARMS进行dump，我让同事请求这个接口，然后我就看着监控，内存上去后就手动点Dump按钮，采集了几次打开感觉都不对，内存没有任何异常，而且吐槽一下，ARMS的Dump这个功能，一分钟之内只能点一次，实际把握不好，真的采集不到合适的数据。试了几次后就放弃了，于是考虑新的方案。
新的方案就是我们在K8s容器将要被Kill的时候执行jmap,jstack等命令，实施前才想到，我们用的基础镜像是包含jre的，不包含jdk，根本不支持jmap，jstack等命令，然后找运维去帮忙换成JDK的基础镜像，被拒绝了，只能自立更生了，在网上看到了Jattch这个东西，于是在SIT环境测试了下，居然真可以用，详情可参见我的另一篇文章Docker容器只有JRE没有JDK使用Jattach导出内存快照最终使用到的脚本是

#!/bin/sh
# 导出当前内存信息
jattach 1 dumpheap /opt/dump/dumpheap_"$HOSTNAME"_`date +%Y%m%d-%H%M%S`.hprof
# 导出当前线程信息
for i in `seq 3`
do 
    jattach 1 threaddump > /opt/dump/threaddump_"$HOSTNAME"_`date +%Y%m%d-%H%M%S`.log && sleep 1
done
# 导出当前使用CPU最高的线程
top -H -p 1 -n 3 -c -b > /opt/dump/cpudump_"$HOSTNAME"_`date +%Y%m%d-%H%M%S`.log

导出文件的目录让运维挂载到了一个网络硬盘上，然后拿下来就可以分析了，期间一共导下来4个dump文件，其中3个事损坏的，个人猜测应该是没有导出完成，容器就被Kill了，我们优雅退出的等待时间是30秒

结果

那么我们来分析下唯一可以打开的这个文件，使用MAT(MemoryAnalyzer Tool)
载入后如下：
在这里插入图片描述

可以明显看出有个线程池的某个线程居然内存占用达到2.5G，结合上面Prometheus的老年代一共2.6G可以得知是这个线程把内存吃满了，到底是哪个呢？点击Reports下的Leak Suspects，可以看到：
在这里插入图片描述

看到这里就比较清楚了，下面有方法的调用栈，如果看详细的，可以点See stacktrace查看详细调用栈。
在这里插入图片描述
至此，问题定位到，剩下的就是去看逻辑，优化代码了。

K8S/Kubernetes

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐

【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美

作者 | 韩堂、柘远、沉醉来源 | 阿里巴巴云原生公众号前言台湾作家林清玄在接受记者采访的时候，如此评价自己 30 多年写作生涯：“第一个十年我才华横溢，‘贼光闪现’，令周边黯然失色；第二个十年，我终于‘宝光现形’，不再去抢风头，反而与身边的美丽相得益彰；进入第三个十年，繁华落尽见真醇，我进入了‘醇光初现’的阶段，真正体味到了境界之美”。长夜有穷，真水无香。领略过了 K8s“身在江

K8S/Kubernetes

如何基于 K8s 构建下一代 DevOps 平台？

作者 | 孙健波（天元）导读：当前云原生 DevOps 体系现状如何？面临哪些挑战？如何通过 OAM 解决云原生 DevOps 场景下的诸多问题？云原生开发应用模型 OAM(Open Application Model) 社区核心成员孙健波将为大家一一解答，并分享如何基于 OAM 和 Kubernetes 打造无限能力的下一代 DevOps 平台。什么是 DevOps？为什么基于 Kub