k8s集群的备份和恢复

在 Master 节点上，我们运行着 Etcd 集群以及 Kubernetes 控制面的几大组件，比如 kube-apiserver、kube-controller-manager、kube-scheduler 和 cloud-controller-manager（可选）等。只要保证 Etcd 的数据正常，其他几个组件不管出现什么问题，我们都可以通过重启或者新建实例来解决，并不会受到任何影响。因此

xiao小师

498人浏览 · 2024-03-28 11:50:45

xiao小师 · 2024-03-28 11:50:45 发布

文章目录

背景说明
备份
- 前提条件：安装etcdctl工具。
- etcd备份
恢复
- 上述操作需要手动完成，我们也可以利用k8s的CronJob来周期性备份：

背景说明

整个 Kubernetes 集群可分为Master 节点和 Node 节点。

在 Master 节点上，我们运行着 Etcd 集群以及 Kubernetes 控制面的几大组件，比如 kube-apiserver、kube-controller-manager、kube-scheduler 和 cloud-controller-manager（可选）等。

在这些组件中，除了 Etcd，其他都是无状态的服务。只要保证 Etcd 的数据正常，其他几个组件不管出现什么问题，我们都可以通过重启或者新建实例来解决，并不会受到任何影响。因此我们只需要备份 Etcd 中的数据。

看完了 Master 节点，我们再来看看 Node 节点。

Node 节点上运行着 kubelet、kube-proxy 等服务。Kubelet 负责维护各个容器实例，以及容器使用到的存储。为了保证数据的持久化存储，对于关键业务的关键数据，一般都是映射主机目录或使用 PV（Persistent Volume）来保存。鉴于这一点，我们还需要对 PV或主机映射目录进行备份。

如果是节点出现了问题，我们可以向集群中增加新的节点，替换掉有问题的节点。

备份

前提条件：安装etcdctl工具。

1、下载离线包：etcd-v3.4.14-linux-amd64.tar.gz

wget https://github.com/etcd-io/etcd/releases/download/v3.4.14/etcd-v3.4.14-linux-amd64.tar.gz

2、解压，并加入环境变量

tar -zxf etcd-v3.4.14-linux-amd64.tar.gz
mv etcd-v3.4.14-linux-amd64/etcdctl /usr/local/bin
chmod +x /usr/local/bin/

3、验证etcdctl是否能用

etcdctl version

etcd备份

1、停止所有节点上的etcd

docker ps | grep k8s_etcd
docker stop <CONTAINER_ID>

2、数据备份

ETCDCTL_API=3 etcdctl --endpoints=https://127.0.0.1:2379 \
--cacert=/etc/kubernetes/pki/etcd/ca.crt \
--key=/etc/kubernetes/pki/etcd/peer.key \
--cert=/etc/kubernetes/pki/etcd/peer.crt \
snapshot save ./new.snapshot.db

在这里插入图片描述

3、查看etcd集群的节点

ETCDCTL_API=3 etcdctl --endpoints=https://127.0.0.1:2379 \
--cacert=/etc/kubernetes/pki/etcd/ca.crt \
--cert=/etc/kubernetes/pki/etcd/peer.crt \
--key=/etc/kubernetes/pki/etcd/peer.key \
member list

在这里插入图片描述

恢复

1、停止etcd和kube-apiserver服务

2、启动/var/lib/etcd目录，恢复备份文件

TCDCTL_API=3 etcdctl snapshot restore ./new.snapshot.db --data-dir=/var/lib/etcd --name=controlplane --initial-advertise-peer-urls=https://10.10.10.112:2380 --initial-cluster=controlplane=https://10.10.10.112:2380

cat /etc/kubernetes/manifests/etcd.yaml 能够查看initial-advertise-peer-urls、initial-cluster=controlplane相关参数的取值。
清空/var/lib/etcd目录前清注意是否有备份，没有的话需要先备份该目录，防止还原失败。若不清除该目录，则还原操作会失败。

还原过程如果出现报错：

在这里插入图片描述

解决：删除/var/lib/etcd/目录

上述操作需要手动完成，我们也可以利用k8s的CronJob来周期性备份：

apiVersion: batch/v1beta1
kind: CronJob
metadata:
  name: backup
  namespace: kube-system
spec:
  # activeDeadlineSeconds: 100
  schedule: "*/1 * * * *"
  jobTemplate:
    spec:
      template:
        spec:
          containers:
          - name: backup
            # Same image as in /etc/kubernetes/manifests/etcd.yaml
            image: k8s.gcr.io/etcd:3.2.24
            env:
            - name: ETCDCTL_API
              value: "3"
            command: ["/bin/sh"]
            args: ["-c", "etcdctl --endpoints=https://127.0.0.1:2379 --cacert=/etc/kubernetes/pki/etcd/ca.crt --cert=/etc/kubernetes/pki/etcd/healthcheck-client.crt --key=/etc/kubernetes/pki/etcd/healthcheck-client.key snapshot save /backup/etcd-snapshot-$(date +%Y-%m-%d_%H:%M:%S_%Z).db"]
            volumeMounts:
            - mountPath: /etc/kubernetes/pki/etcd
              name: etcd-certs
              readOnly: true
            - mountPath: /backup
              name: backup
          restartPolicy: OnFailure
          hostNetwork: true
          volumes:
          - name: etcd-certs
            hostPath:
              path: /etc/kubernetes/pki/etcd
              type: DirectoryOrCreate
          - name: backup
            hostPath:
              path: /data/backup
              type: DirectoryOrCreate

K8S/Kubernetes

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐

【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美

作者 | 韩堂、柘远、沉醉来源 | 阿里巴巴云原生公众号前言台湾作家林清玄在接受记者采访的时候，如此评价自己 30 多年写作生涯：“第一个十年我才华横溢，‘贼光闪现’，令周边黯然失色；第二个十年，我终于‘宝光现形’，不再去抢风头，反而与身边的美丽相得益彰；进入第三个十年，繁华落尽见真醇，我进入了‘醇光初现’的阶段，真正体味到了境界之美”。长夜有穷，真水无香。领略过了 K8s“身在江

K8S/Kubernetes

如何基于 K8s 构建下一代 DevOps 平台？

作者 | 孙健波（天元）导读：当前云原生 DevOps 体系现状如何？面临哪些挑战？如何通过 OAM 解决云原生 DevOps 场景下的诸多问题？云原生开发应用模型 OAM(Open Application Model) 社区核心成员孙健波将为大家一一解答，并分享如何基于 OAM 和 Kubernetes 打造无限能力的下一代 DevOps 平台。什么是 DevOps？为什么基于 Kub