胆战心惊的一天

今天突然收到告警,k8s的节点NotReady,我靠!吓了一身冷汗,遂远程登录上去查看,果然都是notready!这一吓真是不轻啊,要知道所有node节点挂掉,等于整个集群挂掉了,线上的服务都不能访问。当时要是采访我当时在想什么,我只能高冷的回答你:“啥都没想”,当时真是脑袋一片空白。
不过呢,辛好留了一手,使用k8s之前,也用虚拟机把k8s上的服务也部署了一遍,就是防止这种现象出现,当时也考虑到k8s集群会有坑,没想到这么深,直接导致整个集群不可用。部署的时候在想最好不要用到,果不其然,天不遂人愿,竟然真的用到了。所以说多做些应急准备工作,就显得非常有必要了。
既然对客户访问和使用不会造成影响,心里如释重负,压力不是很大了。开始着手排查问题。

一、问题现象

Kubernetes 集群日志中出现

Apr 08 17:22:36 beta-k8s-master-1 kube-apiserver[1020]: E0408 17:22:36.857055    1020 authentication.go:64] Unable to authenticate the request due to an error: [x509: certificate has expired or is not yet valid, x509: certificate has expired or is not yet valid] 

还有以下日志信息

Apr 08 15:34:25 node02 kubelet[3969]: E0408 15:34:25.194226    3969 kubelet_node_status.go:383] Error updating node status, will retry: error getting node "node02": Unauthorized
Apr 08 15:34:25 node02 kubelet[3969]: E0408 15:34:25.195088    3969 kubelet_node_status.go:383] Error updating node status, will retry: error getting node "node02": Unauthorized
Apr 08 15:34:25 node02 kubelet[3969]: E0408 15:34:25.195961    3969 kubelet_node_status.go:383] Error updating node status, will retry: error getting node "node02": Unauthorized
Apr 08 15:34:25 node02 kubelet[3969]: E0408 15:34:25.196918    3969 kubelet_node_status.go:383] Error updating node status, will retry: error getting node "node02": Unauthorized
Apr 08 15:34:25 node02 kubelet[3969]: E0408 15:34:25.197846    3969 kubelet_node_status.go:383] Error updating node status, will retry: error getting node "node02": Unauthorized
Apr 08 15:34:25 node02 kubelet[3969]: E0408 15:34:25.197870    3969 kubelet_node_status.go:375] Unable to update node status: update node status exceeds retry count
Apr 08 15:34:25 node02 kubelet[3969]: E0408 15:34:25.220090    3969 reflector.go:205] k8s.io/kubernetes/pkg/kubelet/config/apiserver.go:47: Failed to list *v1.Pod: Unauthorized

以上信息显示证书过期了

二、排查思路

1.服务器时间不对,导致证书过期:登上k8s节点查看日志,发现时间都是北京时间,分秒不差。。。
2.确实证书过期了:
我的集群是自己手动搭建的,并没有通过kubeadm安装,证书也是手动一个个作的。

$ openssl x509 -in /root/cfssl/kubernetes/kubernetes-root-ca.pem  -noout -text |grep ' Not '
            Not Before: Apr  3 09:17:00 2018 GMT
            Not After : Apr  2 09:17:00 2023 GMT
$ openssl x509 -in /root/cfssl/kubernetes/kubernetes-client-proxy.pem  -noout -text |grep ' Not '                      
            Not Before: Apr  4 07:52:00 2018 GMT
            Not After : Apr  3 07:52:00 2023 GMT
$ openssl x509 -in /root/cfssl/kubernetes/kubernetes-client-kubectl.pem  -noout -text |grep ' Not '                           
            Not Before: Apr  3 09:29:00 2018 GMT
            Not After : Apr  2 09:29:00 2023 GMT

发现证书有效期是5年,还差好几年呢,日志怎么会报证书过期呢?
集群分为两种证书:
1.用于集群 Master、Etcd等通信的证书。
2.用于集群 Kubelet 组件证书。

这时坑位出现了:
我们在搭建 Kubernetes 集群时,一般只声明用于集群 Master、Etcd等通信的证书 为 10年 或者 更久,但未声明集群 Kubelet 组件证书 ,Kubelet 组件证书 默认有效期为1年。集群运行1年以后就会导致报 certificate has expired or is not yet valid 错误,导致集群 Node不能于集群 Master正常通信,node显示是NotReady状态。

三、解决问题

分两种解决方案:
1.临时解决证书问题:
重启node节点上kube-proxy 和 kubelet 服务,

systemctl  restart kubelet && systemctl  restart kube-proxy

删除NotReady节点重新加入k8s集群

$ kubectl  delete  node  beta-k8s-node-1 beta-k8s-node-2 beta-k8s-node-3
$ kubectl get csr
$ kubectl certificate approve node-csr-T4t2IpJvE73djBPsqq-xx3FnMWOLTFyPNK-sQ
$ kubectl certificate approve node-csr-_FaAvAIsXGZ4_vYfbT43xxwX9kMJCKDElfsRwA 
$ kubectl certificate approve node-csr-nHBw2mUbjxK9ZZLvxpOx_gxxx9VYBDlUCKybW6Y8D4

最后查看弄的状态都已经是ready了。服务也恢复正常

2.永久性解决证书问题(配置证书自动重载、轮转)

添加参数:
修改 kubelet 组件配置,具体添加下面参数

--feature-gates=RotateKubeletServerCertificate=true
--feature-gates=RotateKubeletClientCertificate=true
# 1.8版本以上包含1.8都支持证书更换自动重载,以下版本只能手动重启服务
--rotate-certificates

修改 controller-manager 组件配置,具体添加下面参数

# 证书有效期为10年
--experimental-cluster-signing-duration=87600h0m0s
--feature-gates=RotateKubeletServerCertificate=true

创建自动批准相关 CSR 请求的 ClusterRole

vim tls-instructs-csr.yaml && kubectl apply -f tls-instructs-csr.yaml

kind: ClusterRole
apiVersion: rbac.authorization.k8s.io/v1
metadata:
  name: system:certificates.k8s.io:certificatesigningrequests:selfnodeserver
rules:
- apiGroups: ["certificates.k8s.io"]
  resources: ["certificatesigningrequests/selfnodeserver"]
  verbs: ["create"]

自动批准 kubelet-bootstrap 用户 TLS bootstrapping 首次申请证书的 CSR 请求

kubectl create clusterrolebinding node-client-auto-approve-csr --clusterrole=system:certificates.k8s.io:certificatesigningrequests:nodeclient --user=kubelet-bootstrap

自动批准 system:nodes 组用户更新 kubelet 自身与 apiserver 通讯证书的 CSR 请求

kubectl create clusterrolebinding node-client-auto-renew-crt --clusterrole=system:certificates.k8s.io:certificatesigningrequests:selfnodeclient --group=system:nodes

自动批准 system:nodes 组用户更新 kubelet 10250 api 端口证书的 CSR 请求

kubectl create clusterrolebinding node-server-auto-renew-crt --clusterrole=system:certificates.k8s.io:certificatesigningrequests:selfnodeserver --group=system:nodes

重启kube-controller-manager 和 kubelet 服务

$ systemctl restart kube-controller-manager

# 进入到ssl配置目录,删除 kubelet 证书
$ rm -f kubelet-client-current.pem kubelet-client-2019-05-10-09-57-21.pem kubelet.key kubelet.crt

# 重启启动,启动正常后会颁发有效期10年的ssl证书
$ systemctl restart kubelet


# 进入到ssl配置目录,查看证书有效期
$ openssl x509 -in kubelet-client-current.pem -noout -text | grep "Not"

Not Before: May 13 02:36:00 2019 GMT
Not After : May 10 02:36:00 2029 GMT
Logo

开源、云原生的融合云平台

更多推荐