【k8s】k8s 虚拟机挂起，“coredns“Pod总是CreshLoopBackOff，循环重启，无法运行解决办法

解决虚拟机挂起恢复后，Pod因网络插件无法正常启动的问题。

Harry_Yajie

1225人浏览 · 2023-08-05 19:41:40

Harry_Yajie · 2023-08-05 19:41:40 发布

问题描述

虚拟机挂起恢复后，corednsPod始终处于CreshLoopBackOff，如下图所示：
在这里插入图片描述

问题定位

首先对pod进行describe，并查看日志，查看节点状态。

kubectl describe po coredns-ff77c979f-f6qfb -n kube-system

【输出结果】可以看出Pod一直没有起来，存存活探针检验失败。在这里插入图片描述
接下来查看一下该Pod的日志

kubectl logs coredns-ff77c979f-f6qfb -n kube-system

【输出结果】可以看处443端口没有连接上，推测是apiserver没连接上。
在这里插入图片描述

kubectl get svc -A | grep 443

【输出结果】Pod的服务服务端口是443
在这里插入图片描述
查看kubernetes的svc的yaml文件

kubectl get svc kubernetes -o yaml

【输出结果】在这里插入图片描述
打印节点信息，发现各节点连接状况良好，均处于Ready状态。并且从windows命令行telnet 6443端口没有问题可以访问。
综合上述信息可以推断出网络插件flannel出问题。flannel的作用是Pod之间进行通信的插件，并进行node地址段分配。

【输出结果】flannel容器的日志信息
在这里插入图片描述
进一步证明，flannel网络出现问题。
注意：此处一定要打印node上的那个flannel Pod，因为之前的coredns报错是在node上的pod无法连接。
重启flannel，尝试重启虚拟网卡。结果flannel日志报错

解决方法

通过网上查阅资料，通过如下方法解决最稳妥。不需要重新安装flannel，也不需要重新启动集群。

删除node1上的flannel虚拟网卡设备

ip link delete flannel.1

删除node1上对应的flannel容器

kubectl get po -o wide #查看node1对应的flannel pod
kubectl delete po kube-flannelxxx-xxxx -n kube-system #删除flannel Pod

等flannel Pod恢复后，删除节点对应的 coredns Pod，容器启动可能有些慢，原因是flannel容器网络服务可能尚未就绪，可重复delete操作，直至容器恢复。

kubectl delete po corednsxxx-xxxx -n kube-system

4.重复该步骤在master节点上，Crash容器即可恢复
在这里插入图片描述

问题解决!!!

PS：特别感谢管理员群友@戏子的支持！

K8S/Kubernetes

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐

【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美

作者 | 韩堂、柘远、沉醉来源 | 阿里巴巴云原生公众号前言台湾作家林清玄在接受记者采访的时候，如此评价自己 30 多年写作生涯：“第一个十年我才华横溢，‘贼光闪现’，令周边黯然失色；第二个十年，我终于‘宝光现形’，不再去抢风头，反而与身边的美丽相得益彰；进入第三个十年，繁华落尽见真醇，我进入了‘醇光初现’的阶段，真正体味到了境界之美”。长夜有穷，真水无香。领略过了 K8s“身在江

K8S/Kubernetes

如何基于 K8s 构建下一代 DevOps 平台？

作者 | 孙健波（天元）导读：当前云原生 DevOps 体系现状如何？面临哪些挑战？如何通过 OAM 解决云原生 DevOps 场景下的诸多问题？云原生开发应用模型 OAM(Open Application Model) 社区核心成员孙健波将为大家一一解答，并分享如何基于 OAM 和 Kubernetes 打造无限能力的下一代 DevOps 平台。什么是 DevOps？为什么基于 Kub