k8s liveness与突发流量导致的雪崩

前阵子新上线的一个服务，是一个 NodeJS HTTP API 应用，是一个 CPU 密集型应用，一旦请求量过高，就无法接受新的连接。与此同时，pod 配置了 liveness probe，每隔15s 会调用一次 localhost 的心跳 API, 心跳 API 与业务都在一个端口。应用有配置 HPA。线上跑了一阵，没有发现什么问题，会正常扩容。此时，问题就来了，由于有一阵较大的突发流量，直

皿小草

651人浏览 · 2021-12-29 00:29:46

皿小草 · 2021-12-29 00:29:46 发布

前阵子新上线的一个服务，是一个 NodeJS HTTP API 应用，是一个 CPU 密集型应用，一旦请求量过高，就无法接受新的连接。

与此同时，pod 配置了 liveness probe，每隔15s 会调用一次 localhost 的心跳 API, 心跳 API 与业务都在一个端口。应用有配置 HPA。线上跑了一阵，没有发现什么问题，会正常扩容。

此时，问题就来了，由于有一阵较大的突发流量，直接把所有 pod CPU 打满，打满的时候，由于 liveness probe 失败，导致部分 pod 被频繁重启。频繁重启又导致处理能力不够，其它 pod 的负载更高，于是其它 pod 又被重启。于是，一次教科书般的雪崩发生了。如果不是突发流量，也许 HPA 扩容后可以解决这个问题

回顾

NodeJS http server 的特性，CPU 过高会影响连接的接入能力，这个问题暂时无解
liveness 的设置，如果面临上一种情况，则要考虑关闭 liveness probe 或者延长到一个较大的值，等到 HPA 把 pod 拉起来后，基本可以解决问题。（当然 HPA 的最大实例需要满足流量高峰）

K8S/Kubernetes

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐

【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美

作者 | 韩堂、柘远、沉醉来源 | 阿里巴巴云原生公众号前言台湾作家林清玄在接受记者采访的时候，如此评价自己 30 多年写作生涯：“第一个十年我才华横溢，‘贼光闪现’，令周边黯然失色；第二个十年，我终于‘宝光现形’，不再去抢风头，反而与身边的美丽相得益彰；进入第三个十年，繁华落尽见真醇，我进入了‘醇光初现’的阶段，真正体味到了境界之美”。长夜有穷，真水无香。领略过了 K8s“身在江

K8S/Kubernetes

如何基于 K8s 构建下一代 DevOps 平台？

作者 | 孙健波（天元）导读：当前云原生 DevOps 体系现状如何？面临哪些挑战？如何通过 OAM 解决云原生 DevOps 场景下的诸多问题？云原生开发应用模型 OAM(Open Application Model) 社区核心成员孙健波将为大家一一解答，并分享如何基于 OAM 和 Kubernetes 打造无限能力的下一代 DevOps 平台。什么是 DevOps？为什么基于 Kub