protheus hang住的问题，卡在TSDB过程中无法启动

问题：k8s发生pods迁移，prometheus重启，重启过程中CPU和内存同时疯狂增加，最后报pods网络问题。错误分析：prometheus TSDB写错误，所以重启会疯狂攫取CPU内存资源，最后也无法读取TSDB数据，最终把节点系统资源耗尽，影响别的服务。以至于在此错误理解下，在prometheus部署服务中加了limits选项，限制CPU为3.memory为20Gi.本意是为了保护...

凌云靖宇

543人浏览 · 2020-04-30 19:46:51

凌云靖宇 · 2020-04-30 19:46:51 发布

问题：k8s发生pods迁移，prometheus重启，重启过程中CPU和内存同时疯狂增加，最后报pods网络问题。
错误分析：
prometheus TSDB写错误，所以重启会疯狂攫取CPU内存资源，最后也无法读取TSDB数据，最终把节点系统资源耗尽，影响别的服务。
以至于在此错误理解下，在prometheus部署服务中加了limits选项，限制CPU为3.memory为20Gi.本意是为了保护系统资源，其实是进入了一个误区，prometheus重新组合需要的系统资源不够，反而造成prometheus无法启动。
正确理解：
protheus重启需要组合大量的TSDB资源，CPU会瞬间增加到13核左右，并需要大概50G 内存资源。此刻组合DB资源的过程中，kubelet会反馈pods网络连接问题，实际上是假象，prometheus已经提供服务了。
解决：

prometheus部署到CPU和内存比较大的节点上。
prometheus limits资源要给大点limits限制cpu:20 ,memory:100Gi
遇到pods报网络错误可忽略，稍等几分钟会恢复正常。

K8S/Kubernetes

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐

【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美

作者 | 韩堂、柘远、沉醉来源 | 阿里巴巴云原生公众号前言台湾作家林清玄在接受记者采访的时候，如此评价自己 30 多年写作生涯：“第一个十年我才华横溢，‘贼光闪现’，令周边黯然失色；第二个十年，我终于‘宝光现形’，不再去抢风头，反而与身边的美丽相得益彰；进入第三个十年，繁华落尽见真醇，我进入了‘醇光初现’的阶段，真正体味到了境界之美”。长夜有穷，真水无香。领略过了 K8s“身在江

K8S/Kubernetes

如何基于 K8s 构建下一代 DevOps 平台？

作者 | 孙健波（天元）导读：当前云原生 DevOps 体系现状如何？面临哪些挑战？如何通过 OAM 解决云原生 DevOps 场景下的诸多问题？云原生开发应用模型 OAM(Open Application Model) 社区核心成员孙健波将为大家一一解答，并分享如何基于 OAM 和 Kubernetes 打造无限能力的下一代 DevOps 平台。什么是 DevOps？为什么基于 Kub