记一次二进制部署kubernetes集群工作节点NotReady处理过程

发现calico-kube-controllers这个pod是因为调度到新的节点上了，这个节点上没有calico-kube-controllers镜像，需要重新拉取镜像，但由于镜像加速器和国外镜像被封的原因镜像拉取失败，所以pod创建失败，我从其他的节点导出镜像，重新导入到这个节点，pod成功启动。发现calico-kube-controllers和calico-node的状态异常(图中为后截图，

大G哥

562人浏览 · 2025-08-21 12:26:41

大G哥 · 2025-08-21 12:26:41 发布

当收到prometheus发送的告警邮件时，发现是k8s的两个节点down掉了，我的第一反应是服务器挂了？所以我第一时间就远程到这两个节点上，发现可以正常ssh连接到两台服务器，所以服务器本身是正常的。所以我继续查看k8s集群节点状态。

记一次二进制部署kubernetes集群工作节点NotReady处理过程_NotReady

可以看到有两个工作节点状态为NotReady。我的第一想法是calico的问题。所以我进一步查看kube-system名称空间中Pod的状态。

记一次二进制部署kubernetes集群工作节点NotReady处理过程_证书签名请求_02

发现calico-kube-controllers和calico-node的状态异常(图中为后截图，图中的pod状态不是当时的错误状态)，所以我继续看pod的状态。

接下来继续查看calico-node的详情查找问题。

记一次二进制部署kubernetes集群工作节点NotReady处理过程_kubernetes_03

发现pod调度到节点上后就没有下文了。所以我继续去查看节点的详情

记一次二进制部署kubernetes集群工作节点NotReady处理过程_证书签名请求_04

发现“Conditions”中有kubelet stopped等字样，所以怀疑是节点上kubelet出问题了。使用systemctl status kubelet.service命令查看kubelet服务状态，发现是运行的，且没有什么特殊的异常错误。但是我还是重启了一下。发现pod和节点还是没有恢复。所以我继续查看目前两个异常pod的日志。通过命令kubectl logs calico-node-q8h9g -n kube-system查看pod的日志。

记一次二进制部署kubernetes集群工作节点NotReady处理过程_csr_05

发现连接节点的10250端口失败，这个端口是kubele服务的监听端口，所以我就去问题节点上使用ss -tanlp |grep 10250查看发现kubelet服务的监听端口确实没有运行。但是在问题节点上查看 journalctl -fu kubelet日志。确实没有发现什么什么异常日志。

所以我就想看看kubelet到底为什么没有启动成功，所以我就直接执行kubelet的startup命令，直接在前端运行kubelet的启动命令，实时查看日志。

命令如下：

/usr/local/bin/kubelet --bootstrap-kubeconfig=/etc/kubernetes/kubelet-bootstrap.kubeconfig --cert-dir=/etc/kubernetes/ssl --client-ca-file=/etc/kubernetes/ssl/ca.pem --kubeconfig=/etc/kubernetes/kubelet.kubeconfig --config=/etc/kubernetes/kubelet.json --container-runtime-endpoint=unix:///run/containerd/containerd.sock --v=2

记一次二进制部署kubernetes集群工作节点NotReady处理过程_NotReady_06

发现是这个/etc/kubernetes/kubelet.kubeconfig这个文件过期了，所以查了下这个文件(部署一年了。忘了这个步骤。)，发现这个文件是自动生成的，接着我就把这个文件给删除了，重启kubelet服务，发现kubelet的10250端口还是没有正常运行，/etc/kubernetes/kubelet.kubeconfig这个文件也没有自动生成。这是什么情况，没办法，我只能去查看当时的部署文档了。发现有一个步骤是kubectl get csr,这个是查看 Kubernetes 集群中的证书签名请求，这些请求通常由节点(如 Kubelet)或用户发起，目的是向集群的证书颁发机构(CA)申请新的客户端证书或更新过期证书。我就执行了这条命令。发现确实有两条问题节点的证书签名请求，所以我就通过命令kubectl certificate approve <csr-name>批准了两条证书签名请求。再到问题节点上查看kubelet的10250端口，ss -tanlp |grep 10250发现端口已经正常监听。

记一次二进制部署kubernetes集群工作节点NotReady处理过程_NotReady_07

再次查看节点和pods状态，发现node已经是Ready状态了。Pod也是Running状态了。

记一次二进制部署kubernetes集群工作节点NotReady处理过程_kubernetes_08

记一次二进制部署kubernetes集群工作节点NotReady处理过程_NotReady_09

这次的问题处理花了不少时间，主要是对组件的部署过程熟悉程度不够。

长沙城市开发者社区

惟楚有才，于斯为盛。欢迎来到长沙！！！茶颜悦色、臭豆腐、CSDN和你一个都不能少~

更多推荐

Maple Mono多语言支持：简繁中日字符集兼容

在当今全球化开发环境中，开发者经常需要处理包含简体中文、繁体中文、日文和英文的混合代码。传统等宽字体往往无法完美支持这种多语言场景，导致：- 中英文字符宽度比例失调，表格对齐困难- 标点符号显示不一致，影响代码可读性- 特殊符号和连字功能在多语言环境下失效- 终端图标与中文字符兼容性问题Maple Mono字体通过创新的技术方案，彻底解决了这些痛点，为多语言开发者提供了完美的字体...

长沙城市开发者社区

【保姆级选型指南】2025年国产开源AI算力平台怎么选？覆盖企业级_制造业_国际化场景

长沙城市开发者社区

lucide自定义图标开发：扩展企业专属图标库

还在为找不到符合企业品牌特色的图标而烦恼？想要统一的设计语言却苦于现有图标库无法满足定制需求？本文将为你全面解析如何在lucide图标库基础上开发自定义图标，构建企业专属的图标体系。读完本文你将掌握：- lucide图标设计规范与最佳实践- 自定义图标开发完整工作流- 企业级图标库的构建与管理策略- 多框架适配与自动化发布方案## lucide图标设计核心规范### 基础设计原...