记录一次k8s的oom问题定位

vincentwc

1716人浏览 · 2022-11-10 15:49:50

vincentwc · 2022-11-10 15:49:50 发布

背景介绍

在一次项目上线之后，发现环境偶现调用接口报错的情况，排查发现是k8s服务偶尔重启导致过程中服务不可用，这样开始了本次问题的定位

步骤一

查看pod的日志信息

# -n 命名空间
# po -l 根据label参数过滤
kubectl describe -n cdp po -l app=cdp-version

pod日志信息如下：
在这里插入图片描述

第二个框是重启的原因，oom导致被kill掉

第三个框是参数的设置，先记录一下

步骤二

去对应的node节点查看日志信息，从上图中可以看到oom的时间点，大概是在11月10号的9:28:04之前，并且可以看到对应的node名称是devops-2节点

切换节点

kubectl describe nodes devops-2

查看devops-2节点的日志信息

那么我们就去查看devops-2节点在11月10号的9:27:30之后的日志

journalctl --since="2022-11-10 09:27:30"

日志信息如下，可以看到是程序占用完了所有可用的内存信息，还记得上个图片展示的内存限制吗（limit-memory-2g），去搜索了一下containers.spec的这个参数的意义，解释如下：如果程序内存超过pod的设置阈值，会触发oom去kill pod里面的容器

在这里插入图片描述

这就是服务重启的原因，那么到这原因就基本找到了，调大limit,memory值或者调小项目的xmx，查看了一下xmx的设置是2048m，果然超过了,把值调小解决了这个问题

K8S/Kubernetes

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐

【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美

作者 | 韩堂、柘远、沉醉来源 | 阿里巴巴云原生公众号前言台湾作家林清玄在接受记者采访的时候，如此评价自己 30 多年写作生涯：“第一个十年我才华横溢，‘贼光闪现’，令周边黯然失色；第二个十年，我终于‘宝光现形’，不再去抢风头，反而与身边的美丽相得益彰；进入第三个十年，繁华落尽见真醇，我进入了‘醇光初现’的阶段，真正体味到了境界之美”。长夜有穷，真水无香。领略过了 K8s“身在江

K8S/Kubernetes

如何基于 K8s 构建下一代 DevOps 平台？

作者 | 孙健波（天元）导读：当前云原生 DevOps 体系现状如何？面临哪些挑战？如何通过 OAM 解决云原生 DevOps 场景下的诸多问题？云原生开发应用模型 OAM(Open Application Model) 社区核心成员孙健波将为大家一一解答，并分享如何基于 OAM 和 Kubernetes 打造无限能力的下一代 DevOps 平台。什么是 DevOps？为什么基于 Kub