记机器重启后k8s集群瘫痪，Pod卡在Pending或ContainerCreating

集群系统：ubuntu1804docker版本：19.03.8k8s版本：1.18.3情景：k8s集群机器关机进行快照更新，重新生成快照后重启，对k8s集群进行例行检查1.查看k8s节点状态（各节点状态正常）kubectl get node2.查看集群各命名空间下的pod是否正常启动kubectl get pod --all-namespaces3.发现只有部分Pod是Running状态，其他的卡

远行丶随心

1277人浏览 · 2021-08-30 11:53:08

远行丶随心 · 2021-08-30 11:53:08 发布

集群系统：ubuntu1804

docker版本：19.03.8

k8s版本：1.18.3

情景：k8s集群机器关机进行快照更新，重新生成快照后重启，对k8s集群进行例行检查

1.查看k8s节点状态（各节点状态正常）

kubectl get node

2.查看集群各命名空间下的pod是否正常启动

kubectl get pod --all-namespaces

3.发现只有部分Pod是Running状态，其他的卡在Pending或者ContainerCreating不动，等待几分钟后仍是如此

4.单独随机抽查一个pod的状态以及日志，发现并无异常

kubectl describe pod -n xxx [pod-name]

kubectl logs -n xxx [pod-name]

5.尝试过再次重启服务器，出现一部分pod正常Running，但是还有部分pod状态卡住

6.由于k8s底层还是调用的docker，所以尝试查看docker 容器状态，没有收获。最终在联想到状态卡住不动可能是资源不足的原因，查看服务器的磁盘空间，是足够的。最终在每台服务器执行

docker system prune -a清除docker 无效资源，等待几分钟以后发现k8s集群恢复正常

（也不确定是不是由此导致的，本文章只是为了做一下记录）

K8S/Kubernetes

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐

【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美

作者 | 韩堂、柘远、沉醉来源 | 阿里巴巴云原生公众号前言台湾作家林清玄在接受记者采访的时候，如此评价自己 30 多年写作生涯：“第一个十年我才华横溢，‘贼光闪现’，令周边黯然失色；第二个十年，我终于‘宝光现形’，不再去抢风头，反而与身边的美丽相得益彰；进入第三个十年，繁华落尽见真醇，我进入了‘醇光初现’的阶段，真正体味到了境界之美”。长夜有穷，真水无香。领略过了 K8s“身在江

K8S/Kubernetes

如何基于 K8s 构建下一代 DevOps 平台？

作者 | 孙健波（天元）导读：当前云原生 DevOps 体系现状如何？面临哪些挑战？如何通过 OAM 解决云原生 DevOps 场景下的诸多问题？云原生开发应用模型 OAM(Open Application Model) 社区核心成员孙健波将为大家一一解答，并分享如何基于 OAM 和 Kubernetes 打造无限能力的下一代 DevOps 平台。什么是 DevOps？为什么基于 Kub