记一次kubernetes Evicted的处理

背景：事情这样的：kubernetes1.21.3集群。容器运行时containerd。除了K8s-node-06节点。保留这个docker节点有很多原因。比如当时没有想好用什么打包镜像。默认让jenkins打包镜像。还有就是我的gitlab 10.8.7版本contarinerd运行时下无法启动。就保留了这个节点运行gitlab pod。当然了也把这个节点设置为了不可调度。不相其他应用调度到这个

saynaihe

1263人浏览 · 2022-03-02 17:35:11

saynaihe · 2022-03-02 17:35:11 发布

背景：

事情这样的：kubernetes1.21.3集群。容器运行时containerd。除了K8s-node-06节点。
保留这个docker节点有很多原因。比如当时没有想好用什么打包镜像。默认让jenkins打包镜像。还有就是我的gitlab 10.8.7版本contarinerd运行时下无法启动。就保留了这个节点运行gitlab pod。当然了也把这个节点设置为了不可调度。不相其他应用调度到这个节点上来！最近一段时间gitlab应用频繁出现Evicted的问题：

这样就陷入了一个死循环：我的k8s-node-06设置为了不可调度，然后gitlab pod异常了重新调度也调度不到节点上来…收到报错然后上线查找问题

处理问题过程：

1. 首先将k8s-node-06节点设置为可调度使gitlab pod正常运行

[root@k8s-master-01 ~]# kubectl uncordon k8s-node-06
node/k8s-node-06 uncordoned

等待gitlab pod running 后将k8s-node-06节点恢复不可调度

[root@k8s-master-01 ~]# kubectl get pods -n kube-ops
[root@k8s-master-01 ~]# kubectl cordon k8s-node-06
node/k8s-node-06 cordoned
[root@k8s-master-01 ~]# kubectl get nodes

2. describe Evicted pod 定位解决

[root@k8s-master-01 ~]# kubectl describe pods gitlab-84d4998c96-b6z2j -n kube-ops

注： pod名词不一致忽略。只是举个例子

目测存储资源不够了？百度搜索关键词：The node was low on resource: ephemeral-storage。参照：https://blog.csdn.net/u013355826/article/details/101020231。可以确定是存储资源不足了。登陆k8s-node-06节点经过查找文件发现Anchore Enine安装后，扫描后后数据文件太大造成的。就删除了anchore Engine
中的扫描记录文件！观察一段事件后目测是正常了…

3. 如何批量删除Evicted pod?

然后pod 列表中还有好多Evicted pod 看着恨不顺眼，怎么批量删除呢？如下：

kubectl get pods --all-namespaces -o json | jq '.items[] | select(.status.reason!=null) | select(.status.reason | contains("Evicted")) | "kubectl delete pods \(.metadata.name) -n \(.metadata.namespace)"' | xargs -n 1 bash -c

总结：

做好资源的监控
kubectl命令的熟练掌握，高效运用
当然了最重要的还是处理问题的思路。先查看日志去定位问题！

K8S/Kubernetes

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐

【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美

作者 | 韩堂、柘远、沉醉来源 | 阿里巴巴云原生公众号前言台湾作家林清玄在接受记者采访的时候，如此评价自己 30 多年写作生涯：“第一个十年我才华横溢，‘贼光闪现’，令周边黯然失色；第二个十年，我终于‘宝光现形’，不再去抢风头，反而与身边的美丽相得益彰；进入第三个十年，繁华落尽见真醇，我进入了‘醇光初现’的阶段，真正体味到了境界之美”。长夜有穷，真水无香。领略过了 K8s“身在江

K8S/Kubernetes

如何基于 K8s 构建下一代 DevOps 平台？

作者 | 孙健波（天元）导读：当前云原生 DevOps 体系现状如何？面临哪些挑战？如何通过 OAM 解决云原生 DevOps 场景下的诸多问题？云原生开发应用模型 OAM(Open Application Model) 社区核心成员孙健波将为大家一一解答，并分享如何基于 OAM 和 Kubernetes 打造无限能力的下一代 DevOps 平台。什么是 DevOps？为什么基于 Kub