【K8S】Kubernetes-StatefulSet

StatefulSet简介实际场景中，尤其是分布式应用，多个实例之间，往往有依赖关系，比如：主从关系、主备关系。对于数据存储类应用，它的多个实例，往往都会在本地磁盘保存一份数据。导致这些实例一旦被杀掉，即便重建出来，实例与数据之间的对应关系也已经丢失，从而导致应用创建失败。这种实例之间有不对等关系，以及实例对外部数据有依赖关系的应用，称为“有状态应用”StatefulSet将应用状态抽象成了两种情

冰河

883人浏览 · 2020-06-15 23:54:56

冰河 · 2020-06-15 23:54:56 发布

StatefulSet

简介

实际场景中，尤其是分布式应用，多个实例之间，往往有依赖关系，比如：主从关系、主备关系。对于数据存储类应用，它的多个实例，往往都会在本地磁盘保存一份数据。导致这些实例一旦被杀掉，即便重建出来，实例与数据之间的对应关系也已经丢失，从而导致应用创建失败。

这种实例之间有不对等关系，以及实例对外部数据有依赖关系的应用，称为“有状态应用”

StatefulSet将应用状态抽象成了两种情况：

拓扑状态。应用实例必须按照某种顺序启动。新创建的Pod必须和原来Pod的网络标识一样
存储状态。应用的多个实例分别绑定了不同存储数据。

Headless Service

Service是Kubernetes项目用来将一组Pod暴露给外界访问的一种机制。

Service被访问的方式：

Service的VIP（Virtual IP）
Service的DNS方式，只要访问“my-svc.my-namespace.svc.cluster.local”这条DNS记录，就可以访问到名为my-svc的Service所代理的某一个Pod

在第二种Service DNS的方式下，具体还可以分为两种处理方法：

第一种处理方法，是Normal Service。这种情况下，访问“my-svc.my-namespace.svc.cluster.local”解析到的，正是my-svc这个Service 的VIP，后面的流程和VIP一致

第二种处理方法，是Headless Service。这种情况下，访问“my-svc.my-namespace.svc.cluster.local”解析到的，直接就是my-svc代理的某一个Pod的IP地址。这里的区别在于，Headless Service不需要分配一个VIP，而是直接以DNS记录的方式解析出被代理Pod的IP地址。

Headless Service的作用

所谓的Headless Service仍是一个标准的Service的YAML文件，只不过spec.clusterIP的值为None，即这个Service没有一个VIP做为头。这个Service被创建后并不会分配一个VIP，而是以DNS记录的方式暴露它所代理的Pod

当按照这样的方式创建了一个Headless Service后，它所代理的所有Pod的IP地址，都会被绑定一个如下格式的DNS记录，如下：

<pod-name>.<svc-name>.<namespace>.svc.cluster.local

这条DNS记录，是Kubernetes为Pod分配的唯一“可解析身份”

StatefulSet如何通过Headless Service维持Pod的拓扑状态

apiVersion: v1
kind: Service
metadata:
 name: nginx
 labels:
  app: nginx
spec:
 ports:
 - port: 80
   name: web
 clusterIP: None
 selector:
  app: nginx
---
apiVersion: apps/v1
kind: StatefulSet
metadata:
 name: web
spec:
 serviceName: "nginx"
 replicas: 2
 selector:
  matchLabels:
   app: nginx
 template:
  metadata:
   labels:
    app: nginx
  spec:
   containers:
   - name: nginx
     image: nginx:1.9.1
     ports:
     - containerPort: 80
       name: web

然后我们创建这个service和statefulset

[root@host1 statefulset]# kubectl create -f nginx-statefulset.yaml 
service/nginx created
statefulset.apps/web created
[root@host1 statefulset]# kubectl get svc
NAME         TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)   AGE
kubernetes   ClusterIP   10.96.0.1    <none>        443/TCP   23h
nginx        ClusterIP   None         <none>        80/TCP    9s
[root@host1 statefulset]# kubectl get statefulset
NAME   READY   AGE
web    2/2     22s
[root@host1 statefulset]# kubectl get pods
NAME                    READY   STATUS    RESTARTS   AGE
web-0                   1/1     Running   0          104s
web-1                   1/1     Running   0          103s

StatefulSet给它所管理的所有的Pod的名字进行了编号，编号规则是：-；并且这些编号都是从0开始累加，与StatefulSet的每个Pod实例一一对应；这些Pod的创建也是严格按照编号顺序进行的。比如在web-0进入到running状态，并且Conditions为Ready之前，web-1一直会处于pending状态

使用kubectl exec命令进入到容器内部查看它们的hostname：

[root@host1 statefulset]# kubectl exec web-0 -- sh -c 'hostname'
web-0
[root@host1 statefulset]# kubectl exec web-1 -- sh -c 'hostname'
web-1

并且，就算Pod被删除后重建，重建Pod的网络标识也不会改变，通过这种方式，Kubernetes就可以成功地将Pod的拓扑状态按照Pod的“名字+编号”的方式固定下来，并且Kubernetes为每个Pod提供了一个固定且唯一的访问入口（这个Pod对应的DNS记录）。

StatefulSet控制器的主要作用之一，就是使用Pod模板创建Pod的时候，对它们进行编号，并且按照编号顺序逐一完成创建工作。当StatefulSet的控制循环发现Pod的实际状态和期望状态不一致的时候，需要新建或删除Pod进行调谐的时候，它会严格按照这些Pod编号的顺序，逐一完成这些操作。任何Pod的变化都会触发statefulset的滚动更新

存储管理

Kubernetes中PV和PVC的设计，类似于“接口”和“实现”的思想。PV和PVC的设计，使得StatefulSet对存储状态的管理成为了可能。

kind: StatefulSet
metadata:
 name: web
spec:
 serviceName: "nginx"
 replicas: 2
 selector:
  matchLabels:
   app: nginx
 template:
  metadata:
   labels:
    app: nginx
  spec:
   containers:
   - name: nginx
     image: nginx:1.9.1
     ports:
     - containerPort: 80
       name: web
     volumeMounts:
     - name: www
       mountPath: /usr/share/nginx/html
 volumeClaimTemplates:
  - metadata:
     name: www
    spec:
     storageClassName: rook-ceph-block
     accessModes:
     - ReadWriteOnce
     resources:
      requests:
       storage: 1Gi
---
apiVersion: v1
kind: Service
metadata:
 name: nginx
 labels:
  app: nginx
spec:
 ports:
 - port: 80
   name: web
 clusterIP: None
 selector:
  app: nginx

这里我们使用了Rook的ceph Flex Driver，关于rook的配置可以参考官方文档 https://rook.io/docs/rook/v1.1/ceph-block.html

然后我们创建这个Statefulset

[root@host1 statefulset]# kubectl create -f nginx-statefulset.yaml 
statefulset.apps/web created
service/nginx created
[root@host1 statefulset]# kubectl get statefulset
NAME   READY   AGE
web    2/2     8s
[root@host1 statefulset]# kubectl get statefulset
NAME   READY   AGE
web    2/2     10s
[root@host1 statefulset]# kubectl get pods
NAME                    READY   STATUS    RESTARTS   AGE
test-projected-volume   1/1     Running   1          25h
web-0                   1/1     Running   0          13s
web-1                   1/1     Running   0          11s
[root@host1 statefulset]# kubectl get pvc
NAME        STATUS   VOLUME                                     CAPACITY   ACCESS MODES   STORAGECLASS      AGE
www-web-0   Bound    pvc-167033a6-f56a-11e9-9319-000c296c79f3   1Gi        RWO            rook-ceph-block   2m19s
www-web-1   Bound    pvc-17bc7e66-f56a-11e9-9319-000c296c79f3   1Gi        RWO            rook-ceph-block   2m17s

当我们进入上述创建的Pod，在/usr/share/nginx/html中写入内容，即使Pod被删除重建，Volume中的内容仍不会丢失。这是怎么做到的？

StatefulSet控制器恢复Pod的过程分析:

首先，当你把一个Pod，比如web-0删除之后，这个Pod对应的PV和PVC并不会被删除，而这个Volume中写入的数据，也依然存储在远程存储服务中。

此时，StatefulSet控制器发现，一个名叫web-0的Pod消失了。所以控制器会重新创建一个新的、名字还是叫做web-0的Pod，来进行调谐。

并且这个新Pod对象的定义中，它声明使用的PVC的名字，仍是www-web-0。所以这个新的web-0 Pod被创建出来之后，Kubernetes为它查找名叫www-web-0的PVC时，就会将旧Pod遗留的PVC，进而找到和这个PVC绑定在一起的PV

StatefulSet工作原理

首先，StatefulSet的控制器直接管理的是Pod。

其次，Kubernetes通过Headless Serrvice，为那些有编号的Pod，在DNS服务器中生成带有同样编号的DNS记录。只要StatefulSet能够保证这些Pod名字中的编号不变，那么Service中类似于web-0.nginx.default.svc.cluster.clocal这样的DNS记录也不会变，这条记录解析出来的Pod的IP地址，随着后端Pod的删除和创建而自动更新。

最后，StatefulSet还会为每一个Pod分配并创建一个同样编号的PVC。这样，kubernetes就可以通过Persistent Volume机制为这个PVC绑定对应的PV，从而保证每一个Pod都拥有一个独立的Volume。

K8S/Kubernetes

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐

【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美

作者 | 韩堂、柘远、沉醉来源 | 阿里巴巴云原生公众号前言台湾作家林清玄在接受记者采访的时候，如此评价自己 30 多年写作生涯：“第一个十年我才华横溢，‘贼光闪现’，令周边黯然失色；第二个十年，我终于‘宝光现形’，不再去抢风头，反而与身边的美丽相得益彰；进入第三个十年，繁华落尽见真醇，我进入了‘醇光初现’的阶段，真正体味到了境界之美”。长夜有穷，真水无香。领略过了 K8s“身在江

K8S/Kubernetes

如何基于 K8s 构建下一代 DevOps 平台？

作者 | 孙健波（天元）导读：当前云原生 DevOps 体系现状如何？面临哪些挑战？如何通过 OAM 解决云原生 DevOps 场景下的诸多问题？云原生开发应用模型 OAM(Open Application Model) 社区核心成员孙健波将为大家一一解答，并分享如何基于 OAM 和 Kubernetes 打造无限能力的下一代 DevOps 平台。什么是 DevOps？为什么基于 Kub