一台k8smaster节点故障处理记录

etcd的命令可能需要单独下载，我这里下载的是etcd-v3.3.4-linux-adm64.tar.gz。现象：只有2个节点的etcd集群会频繁重启，导致k8s集群一会能连，一会不能连。3.2 将其它master节点的上证书拷贝到当前节点。集群原有6个节点，3个master，3 个node。问题：一台master节点物理机出现故障，无法开机。2、将一台nodes节点转换为master节点。3、把

qq_37374514

770人浏览 · 2023-02-18 13:26:11

qq_37374514 · 2023-02-18 13:26:11 发布

集群原有6个节点，3个master，3 个node

问题：一台master节点物理机出现故障，无法开机

现象：只有2个节点的etcd集群会频繁重启，导致k8s集群一会能连，一会不能连

处理

1、将故障master节点从集群中删除

kubectl delete node xxx

把故障master信息从etcd中删除

etcd的命令可能需要单独下载，我这里下载的是etcd-v3.3.4-linux-adm64.tar.gz

tar zxf etcd-v3.3.4-linux-adm64.tar.gz

cd etcd-v3.3.4-linux-adm64

cp etcdctl /usr/local/sbin

查看etcd成员列表证书根据自己的环境进行更换

ETCDCTL_API=3 etcdctl --endpoints 127.0.0.1:2379 --cacert /etc/kubernetes/pki/etcd/ca.crt --cert /etc/kubernetes/pki/etcd/server.crt --key /etc/kubernetes/pki/etcd/server.key member list

删除etcd信息

ETCDCTL_API=3 etcdctl --endpoints 127.0.0.1:2379 --cacert /etc/kubernetes/pki/etcd/ca.crt --cert /etc/kubernetes/pki/etcd/server.crt --key /etc/kubernetes/pki/etcd/server.key member remove xxx

2、将一台nodes节点转换为master节点

2.1 将nodes节点改为不可调度状态

kubectl cordon xxx

2.2 驱逐nodes上的pod

kubectl drain xxx

2.3 重置此节点

kubectl reset

3、把节点加入集群，当做master节点

3.1 查看token

kubectl token create --print-join-command

3.2 将其它master节点的上证书拷贝到当前节点

3.3 执行3.1查出的命令加入集群

后面添加参数 --control-plane

K8S/Kubernetes

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐

【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美

作者 | 韩堂、柘远、沉醉来源 | 阿里巴巴云原生公众号前言台湾作家林清玄在接受记者采访的时候，如此评价自己 30 多年写作生涯：“第一个十年我才华横溢，‘贼光闪现’，令周边黯然失色；第二个十年，我终于‘宝光现形’，不再去抢风头，反而与身边的美丽相得益彰；进入第三个十年，繁华落尽见真醇，我进入了‘醇光初现’的阶段，真正体味到了境界之美”。长夜有穷，真水无香。领略过了 K8s“身在江

K8S/Kubernetes

如何基于 K8s 构建下一代 DevOps 平台？

作者 | 孙健波（天元）导读：当前云原生 DevOps 体系现状如何？面临哪些挑战？如何通过 OAM 解决云原生 DevOps 场景下的诸多问题？云原生开发应用模型 OAM(Open Application Model) 社区核心成员孙健波将为大家一一解答，并分享如何基于 OAM 和 Kubernetes 打造无限能力的下一代 DevOps 平台。什么是 DevOps？为什么基于 Kub