记一次k8s集群经常崩溃(azure)

描述：前一天晚上，开发在jenkins构建的时候说服务崩掉了，然后晚上重启了机器，发现又自动好了，没有在意，第二天，服务又蹦了，在azure上查看发现集群的node3莫名的连不上，然后又重启了node3机器，发现自动好了，然后不久又崩了，以为是node3机器出了问题，准备新建机器，并进行了一系列操作，最后发现，后端服务所占资源过大，服务器资源不够用;最后解决，扩大了集群的配置；有关操作：新的机器基

Yan茶

797人浏览 · 2020-07-17 09:42:36

Yan茶 · 2020-07-17 09:42:36 发布

描述：前一天晚上，开发在jenkins构建的时候说服务崩掉了，然后晚上重启了机器，发现又自动好了，没有在意，第二天，服务又蹦了，在azure上查看发现集群的node3莫名的连不上，然后又重启了node3机器，发现自动好了，然后不久又崩了，以为是node3机器出了问题，准备新建机器，并进行了一系列操作，最后发现，后端服务所占资源过大，服务器资源不够用;最后解决，扩大了集群的配置；
有关操作：
新的机器基础环境操作与安装（hosts配置、防火墙、内核、统一时间、docker）,

由于集群是使用RKE安装的，新的机器加入集群（修改cluster.yml），现在的rancher界面已经不支持添加机器了：
在这里插入图片描述
执行： ./rke up --update-only

集群删除旧机器，（修改cluster.yml），删除掉对应的配置，并执行 ./rke up --update-only，或者kubectl delete node nodename；

查看集群所用资源：
在这里插入图片描述
修改服务资源限制：

之前的限制配置为 cpu 250m,memory 1024Mi;

修改存活探针检测：

修改deploy.yaml文件
在这里插入图片描述

之前的配置为240；

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐

cover

kubernetes(k8s)安装教程_安装kubernetes

cover

k8s集群部署（sealos）

cover

Day97：云上攻防-云原生篇&Kubernetes&K8s安全&API&Kubelet未授权访问&容器执行

所有评论(0)

查看更多评论

Yan茶

已为社区贡献3条内容