k8s一直存在terminating任务的那点线索

问题来源：博主所在工作集群中经常遇到k8s的deploy和job中存在terminating任务的现场，顺藤摸瓜发现造成terminating的原因是pod所在节点（ubuntu16.04.6）的容器中有进程未杀掉导致；该进程为D进程，难以处理。pod所在节点日志有以下特征：1、大量OOM记录2、syslog（dmesg亦如此）频繁SLUB（后经网络游历该日志虽为系统bug，非此篇文章描述问题的起

大健的日常

1828人浏览 · 2020-12-14 09:36:53

大健的日常 · 2020-12-14 09:36:53 发布

问题来源：

博主所在工作集群中经常遇到k8s的deploy和job中存在terminating任务的现场，顺藤摸瓜发现造成terminating的原因是pod所在节点（ubuntu16.04.6）的容器中有进程未杀掉导致；该进程为D进程，难以处理。

pod所在节点日志有以下特征：

1、大量OOM记录

2、syslog（dmesg亦如此）频繁SLUB（后经网络游历该日志虽为系统bug，非此篇文章描述问题的起源。）

SLUB: Unable to allocate memory on node -1 (gfp=0x2080020)

3、docker的日志则是：

Aug 26 21:12:22 n002 dockerd[1632]: time="2020-08-26T21:12:22.358239959+08:00" level=info msg="Container b39ef98d452cd825cd6ab4e07767b5e8091d055e75e9a7b96ba83ba9c4ac2089 failed to exit within 30 seconds of signal 15 - using the force"
evel=info msg="Container b39ef98d452c failed to exit within 10 seconds of kill - trying direct SIGKILL"

4、dmesg中大量nfs retry日志：

kernel: [1032289.079654] nfs: server 10.32.0.10 not responding, still trying
kernel: [1032289.079664] nfs: server 10.32.0.10 not responding, still trying
kernel: [1032289.151627] nfs: server 10.32.0.10 not responding, still trying

2020年12月13日 01:00:50增加信息，先睡了，日后补充，有问题交流。：

https://k8s.imroc.io/avoid/handle-cgroup-oom-in-userspace-with-oom-guard/

https://k8s.imroc.io/troubleshooting/pod/slow-terminating/

https://www.cnblogs.com/jmliao/p/11322804.html

K8S/Kubernetes

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐

【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美

作者 | 韩堂、柘远、沉醉来源 | 阿里巴巴云原生公众号前言台湾作家林清玄在接受记者采访的时候，如此评价自己 30 多年写作生涯：“第一个十年我才华横溢，‘贼光闪现’，令周边黯然失色；第二个十年，我终于‘宝光现形’，不再去抢风头，反而与身边的美丽相得益彰；进入第三个十年，繁华落尽见真醇，我进入了‘醇光初现’的阶段，真正体味到了境界之美”。长夜有穷，真水无香。领略过了 K8s“身在江

K8S/Kubernetes

如何基于 K8s 构建下一代 DevOps 平台？

作者 | 孙健波（天元）导读：当前云原生 DevOps 体系现状如何？面临哪些挑战？如何通过 OAM 解决云原生 DevOps 场景下的诸多问题？云原生开发应用模型 OAM(Open Application Model) 社区核心成员孙健波将为大家一一解答，并分享如何基于 OAM 和 Kubernetes 打造无限能力的下一代 DevOps 平台。什么是 DevOps？为什么基于 Kub