记一次k8s集群经常崩溃(azure)
描述:前一天晚上,开发在jenkins构建的时候说服务崩掉了,然后晚上重启了机器,发现又自动好了,没有在意,第二天,服务又蹦了,在azure上查看发现集群的node3莫名的连不上,然后又重启了node3机器,发现自动好了,然后不久又崩了,以为是node3机器出了问题,准备新建机器,并进行了一系列操作,最后发现,后端服务所占资源过大,服务器资源不够用;最后解决,扩大了集群的配置;有关操作:新的机器基
·
描述:前一天晚上,开发在jenkins构建的时候说服务崩掉了,然后晚上重启了机器,发现又自动好了,没有在意,第二天,服务又蹦了,在azure上查看发现集群的node3莫名的连不上,然后又重启了node3机器,发现自动好了,然后不久又崩了,以为是node3机器出了问题,准备新建机器,并进行了一系列操作,最后发现,后端服务所占资源过大,服务器资源不够用;最后解决,扩大了集群的配置;
有关操作:
新的机器基础环境操作与安装(hosts配置、防火墙、内核、统一时间、docker),
由于集群是使用RKE安装的,新的机器加入集群(修改cluster.yml),现在的rancher界面已经不支持添加机器了:
执行: ./rke up --update-only
集群删除旧机器,(修改cluster.yml),删除掉对应的配置,并执行 ./rke up --update-only,或者kubectl delete node nodename;
查看集群所用资源:
修改服务资源限制:
之前的限制配置为 cpu 250m,memory 1024Mi;
修改存活探针检测:
修改deploy.yaml文件
之前的配置为240;
更多推荐
已为社区贡献3条内容
所有评论(0)