深入理解K8S（六）

为什么要做运维

581人浏览 · 2022-07-29 14:49:05

为什么要做运维 · 2022-07-29 14:49:05 发布

Pod健康检查和服务可用性检查

LivenessProbe探针：

用于判断容器是否存活（Running状态），如果该探针探测到容器不正常，那么kubelet会将其kill，并根据容器的重启策略进行处理

apiVersion: v1
kind: Pod
metadata:
  labels:
    test: liveness
  name: liveness-exec
spec:
  containers:
  - name: liveness
    image: k8s.gcr.io/busybox
    args: # 容器启动时执行该命令
# 容器启动后前30秒，文件是存在的，所以执行cat /tmp/health会返回成功代码；30秒后会删除该文件，再执行cat /tmp/health会返回失败代码
    - /bin/sh
    - -c
    - touch /tmp/healthy; sleep 30; rm -f /tmp/healthy; sleep 600 
    livenessProbe:
      exec:
        command:
        - cat
        - /tmp/healthy # kubelet在容器内执行cat /tmp/health命令去探测，返回值为0，则认为容器健康
      initialDelaySeconds: 5 # kubelet在执行第一次探测前要等待5秒
      periodSeconds: 5 # kubelet应该每5秒执行一次存活探测

探测时间的设置

initialDelaySeconds：容器启动后多少秒再去进行探测，默认时0s，最小值时0s
periodSeconds：容器启动后进行探测的间隔为多少秒，默认时10s，最小为1s
timeoutSeconds：容器启动后进行探测超时等待的时间为多少秒，默认为1s，最小为1s
successThreshold：容器探测失败后，再连续探测几次成功才算成功，存活和启动探测的这个值必须是 1，默认值是1
failureThreshold：容器探测成功后，再连续探测几次失败才算失败，默认值是3，最小值是1

探针的三种方式

ExecAction：在容器内部运行一个命令，该命令返回码为0，表明容器健康
TCPSocketAction：通过容器的IP地址和端口号执行TCP检查，如果能建立TCP连接，则表明容器健康
HTTPGetAction：通过容器的IP地址、端口号及路径调用HTTP get方法，如果状态码大于等于200且小于400，则认为容器健康

ReadyinessProbe探针：

用于判断容器是否就绪（Ready状态），Ready状态的Pod才能接收请求。如果在运行过程中，Pod的Ready状态变为False，那么它将会从Service后端Endpoint列表中去除（该Pod被Service管理）

StartupProbe探针：

如果容器启动较慢，可以使用该探针来延长对容器存活性的探测，可以通过将 failureThreshold * periodSeconds 参数设置为足够长的时间来应对糟糕情况下的启动时间

亲和性和反亲和性

NodeSelector定向调度

当一个Pod被Scheduler服务调度的时候，它会执行一些列复杂的算法，最终将Pod调度到一个最佳的节点上
如果想将Pod调度到指定的节点上，可以通过Node标签和nodeSelector属性相匹配，达到上述目的
- 首先用kubectl label为一个节点打标签，然后在Pod的定义中加入nodeSelector
```
kubectl label node k8s-node app=nginx
```
pod的yaml文件
```
apiVersion: v1
kind: Pod
metadata:
  name: nginx
spec:         
  containers:
  - name: nginx
    image: nginx
    imagePullPolicy: IfNotPresent
  nodeSelector：
    app=nginx
```
- 在运行kubectl create -f pod-yaml创建Pod，scheduler就会将Pod调度到拥有app=nginx标签的Node上
- 如果我们指定了Pod的nodeSelector，但是，集群中的node中没有包含对应的标签，则Pod将无法被调度

亲和性调度功能

节点亲和性（nodeAffinaity）
两种亲和性表达：

requiredDuringSchedulingIgnoredDuringExecution：硬限制，必须满足指定的规则才可以调度Pod到Node上
preferredDuringSchedulingIgnoredDuringExecution：软限制，强调优先满足指定规则，调度器会尝试将Pod调度到Node上，但并不强求
IgnoredDuringExecution：Pod所在节点在Pod运行期间标签发生了改变，并不会影响该Pod继续在此节点上运行

apiVersion: v1
kind: Pod
metadata:
  name: with-node-affinity
spec:
  affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
        nodeSelectorTerms:
        - matchExpressions:
          - key: kubernetes.io/os
            operator: In
            values:
            - linux
      preferredDuringSchedulingIgnoredDuringExecution:
      - weight: 1
        preference:
          matchExpressions:
          - key: another-node-label-key
            operator: In
            values:
            - another-node-label-value
  containers:
 - name: with-node-affinity
    image: k8s.gcr.io/xx:2.0

硬性要求：只能运行在有标签kubernetes.io/os:linux的节点上
软性要求：尽量运行在有标签another-node-label-key:another-node-label-value的节点上

NodeAffinity语法支持的操作符： In,NotIn（互斥）、Exists、DoesNotExist（互斥）、Gt、Lt
NodeAffinity设置的规则：

如果同时设定了nodeSelector和NodeAffinity，则必须两者同时满足，Pod才能被调度到指定Node上
如果NodeAffinity中指定了多个nodeSelectorTerms，则只要一个匹配成功就能将Pod调度到指定的Node上
如果在一个nodeSelectorTerms指定了多个matchExpressions，则该节点需要满足所有的matchExpressions才能运行次Pod

Pod亲和性（PodAffinity）和反亲和性（PodAntiAffinity）
Pod亲和性：在生产环境中有些Pod相互依赖、频繁调用，他们就应该尽可能的部署在一个Node、机架、机房、网段或者区域中

在将一个Node加入Master中时，Node可能就会被加上默认的标签：
kubernetes.io/hostname;topology.kubernetes.io/region;topology.kubernetes.io/zone

Pod亲和和互斥的调度具体做法，就是通过Pod的定义上增加的topologyKey属性，来声明一些相关联的Pod是否要放在一个区域或节点上

Pod的亲和和互斥与节点亲和条件设置相同：requiredDuringSchedulingIgnoredDuringExecution
preferredDuringSchedulingIgnoredDuringExecution

举例说明Pod的亲和和反亲和性

apiVersion: v1
kind: Pod
metadata:
  name: pod-flag
  labels:
    security: "S1"
    app: "nginx"
spec:
  containers:
  - name: nginx
    image: nginx
---
apiVersion: v1
kind: Pod
metadata:
  name: with-pod-affinity
spec:
  affinity:
    podAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
      - labelSelector:
          matchExpressions:
          - key: security
            operator: In
            values:
            - S1
        topologyKey: topology.kubernetes.io/zone
    podAntiAffinity:
      preferredDuringSchedulingIgnoredDuringExecution:
      - weight: 100
        podAffinityTerm:
          labelSelector:
            matchExpressions:
            - key: security
              operator: In
              values:
              - S2
          topologyKey: topology.kubernetes.io/zone
  containers:
  - name: with-pod-affinity
    image: k8s.gcr.io/pause:2.0

Pod将会被调度到有topology.kubernetes.io/zone标签，且Pod标签为security=S1，但是不与security=S2的Pod为同一个Node

Pod的亲和性操作符包括： In,NotIn（互斥）、Exists、DoesNotExist（互斥）、Gt、Lt
在原则上topologyKey可以使用任意合法的标签，但是出于安全考虑，topologyKey有如下限制：

Pod亲和性和带有硬性、软性限制，topologyKey不能为空
Pod反亲和性和带有硬性限制，topologyKey只能是 kubernetes.io/hostname
Pod亲和性除了设置Label Selector和topologyKey外，还可以指定Namespace列表进行限制
Pod被调度到某个Node上必须满足硬性限制和matchExpressions

污点（Taints）和容忍（Tolerations）

**Taint:**让Node拒绝Pod运行，标记了Taint的节点就是不希望Pod被调度过来，但此节点仍然是有效的节点；如果希望某些特定的Pod调度过来，则需要设置Tolerations
在节点上设置Taint：

kubectl taint node k8s-node key=value:NoSchedule

在该节点上设置了key=value的污点，而且Pod中如果没有设置容忍该污点，则无法将Pod调度到该节点上

在Pod上声明容忍该污点:

tolerations:
 - key: "key1"
  operator: "Equal"
  value: "value1"
  effect: "NoSchedule"
---
tolerations:
 - key: "key1"
  operator: "Exists"
  effect: "NoSchedule"

在设置容忍的时候，key和effect要和污点的设置保持一致，并且满足以下条件之一：

operator值是Exists，则无需指定value
operator值是Equal并且value相等
如果不指定operator则默认是Equal

特例：
空的key匹配Exists操作能够匹配所有键和值
空的effect匹配所有的effect

effect类型：
NoSchedule：没有设置容忍该污点的Pod无法被调度到该节点
PreferNoSchedule：没有设置容忍该污点的Pod尽量避免调度到该节点
NoExecute：没有设置容忍该污点的Pod无法被调度到该节点，而且如果Pod已经在该节点上运行则会被驱逐

系统允许一个节点上有多个Taint和Tolerations，K8S处理的逻辑顺序为：

列出节点中所有的Taint，忽略能够匹配Taint的Toleration；剩下没被忽略的Taint就起以下作用：
- 剩余的Taint中存在effect=NoSchedule，调度器不会把该Pod调度到这一节点上
- 剩余的Taint中没有NoSchedule，但是有PreferNoSchedule，调度器尝试不把这个Pod调度到该节点上
- 剩余的Taint中有NoExecute，Pod无法被调度到该节点，如果Pod已经在该节点上运行，则会被驱逐

从K8S 1.6开始引入两个与Taint相关的新特性，新特性是用来改善异常情况下的Pod调度与驱逐问题（当节点有磁盘、内存、节点失联等问题时）

TaintNodesByCondition：
- 不断地检查所有Node状态，设置对应的Condition
- 根据Node Condition设置对应的Taint（添加的是NoSchedule的污点），主要有以下几种：
  - node.kubernetes.io/not-ready：节点未就绪
  - node.kubernetes.io/unreachable：节点不可触达（相当于失联的状态）
  - node.kubernetes.io/out-of-disk：节点磁盘空间已满
  - node.kubernetes.io/network-unavailable：节点网络不可用
  - node.kubernetes.io/unschedulable：节点不可调度
- 根据Taint驱逐Node上的Pod
TaintBasedEvictions：添加的是NoExecute效果的污点