停电后的k8s集群恢复

妈呀机房停电了，怎么办，老老实实恢复k8s服务吧，但愿你的etcd服务是单独部署的，但愿你的etcd数据没有损坏，但愿虽然损坏了但好在有备份，否则，你懂得，哈哈哈，等着重装吧

wangnan229

598人浏览 · 2023-10-13 16:37:39

wangnan229 · 2023-10-13 16:37:39 发布

1. k8s集群无法启动：

可以按照以下思路排查：

1.1 首先检查etcd服务：

systemctl status etcd

检查服务状态是否正常；
如果不正常，检查运行日志

journalctl -exf|grep etcd

按照运行日志的报错决定下一步的操作；
或者尝试直接重启etcd服务：

systemctl restart etcd

检查是否能恢复正常；
如果还不行，就再尝试以etcd数据备份恢复etcd服务：

/usr/local/etcd/etcdctl snapshot restore /etcdbackup/snapshot-20220713-010001.db --endpoints=127.0.0.1:2379

其中 .db 文件就是备份文件，可以由近及远尝试不同日期的备份。然后尝试启动etcd服务

systemctl restart etcd

1.2 然后重启kubelet 服务:

systemctl restart kubelet

1.3 清空etcd数据，重装k8s

如果以上操作无效，最后的终极方法，也是最耗时的方法，就是删除etcd数据目录、删除卸载kubelet后，重新安装k8s：

①删除etcd数据目录：

rm -rf /usr/local/etcd/default.etcd && systemctl restart etcd

②卸载k8s:

    kubeadm reset
    iptables -F && iptables -t nat -F && iptables -t mangle -F && iptables -X
    systemctl stop kubelet
    systemctl stop docker
    rm -rf /var/lib/cni/*
    rm -rf /var/lib/kubelet/*
    rm -rf /etc/kubernetes/
    rm -rf $HOME/.kube
    rm -rf /etc/cni/*
    ifconfig cni0 down
    ifconfig flannel.1 down
    ifconfig docker0 down
    ip link delete cni0
    ip link delete flannel.1
    systemctl start docker

③重新安装k8s（含Calico网络、NFS存储、Dashboard）
写的累了，放到另外一篇文章了，哈哈~

K8S/Kubernetes

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐

【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美

作者 | 韩堂、柘远、沉醉来源 | 阿里巴巴云原生公众号前言台湾作家林清玄在接受记者采访的时候，如此评价自己 30 多年写作生涯：“第一个十年我才华横溢，‘贼光闪现’，令周边黯然失色；第二个十年，我终于‘宝光现形’，不再去抢风头，反而与身边的美丽相得益彰；进入第三个十年，繁华落尽见真醇，我进入了‘醇光初现’的阶段，真正体味到了境界之美”。长夜有穷，真水无香。领略过了 K8s“身在江

K8S/Kubernetes

如何基于 K8s 构建下一代 DevOps 平台？

作者 | 孙健波（天元）导读：当前云原生 DevOps 体系现状如何？面临哪些挑战？如何通过 OAM 解决云原生 DevOps 场景下的诸多问题？云原生开发应用模型 OAM(Open Application Model) 社区核心成员孙健波将为大家一一解答，并分享如何基于 OAM 和 Kubernetes 打造无限能力的下一代 DevOps 平台。什么是 DevOps？为什么基于 Kub