利用k8s Infra 容器，解决pod网络故障注入的问题

我们知道，在kubernetes中，pod中容器的资源隔离主要通过namespace和cgroup来实现。2.通过前面infra容器的前置知识，可以知道infra container是和pod所有容器共享networknamespace的，因此可以直接把故障做在infra容器上，并且infra容器的生命周期是和pod相同的。在给pod注入网络故障，模拟pod网络延迟，丢包的场景下，会出现注入故障的

bebc

851人浏览 · 2024-02-04 10:48:32

bebc · 2024-02-04 10:48:32 发布

一、infra容器作用

二、pod网络故障注入问题

三、充分利用pod infra容器

一、infra容器的作用

我们知道，在kubernetes中，pod中容器的资源隔离主要通过namespace和cgroup来实现。那如果我们需要为pod中的容器共享某种资源应该怎么做。kubernetes 中的 pause 容器就提供了以下功能：

在 pod 中担任 Linux 命名空间共享的基础；
启用 pid 命名空间，开启 init 进程。

二、pod网络故障注入问题

背景：

在给pod注入网络故障，模拟pod网络延迟，丢包的场景下，会出现注入故障的目标container重启，进而导致故障恢复失败，最后只能重启相应pod来恢复故障。

如上图所示，注入故障后显示0/1的pod。

问题分析：

是什么原因导致目标pod会重启呢？故障注入本身是由tc实现的，并不会引起该问题。然后想到容器具有探针机制，当用户容器配置了livenessProbe探针时，由于容器被注入了各种网络延迟或者丢包，会导致探针失败，从而使kubelet重启container，导致后续一系列依赖之前容器的操作失败。

三、充分利用pod infra容器

思考：

那有没有一种办法可以既可以注入故障，又可以不受重启container的影响？这边想到两种方案。

1.重启查询新启动的container，对新的目标container进行故障恢复。

2.通过前面infra容器的前置知识，可以知道infra container是和pod所有容器共享networknamespace的，因此可以直接把故障做在infra容器上，并且infra容器的生命周期是和pod相同的。

解决：

有了上述两种方案，我们再对其进行比较。

在方案1中，有下面几种情况仍然会出现恢复失败：

1.在恢复过程中，恰巧目标container重启了。

2.恢复时间点在新旧container重启的间隙。

3.尝试重试并且成功的时间间隔和新旧container重启并启动的时间间隔相关。

因此，需要不停重试，直到恢复成功为止，并不是一个看上去很好的解决方案。

再看看方案2，和没有重启的故障注入、恢复假设一模一样。通过分析和尝试最后选择了方案2。

四、参考

K8S/Kubernetes

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐

【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美

作者 | 韩堂、柘远、沉醉来源 | 阿里巴巴云原生公众号前言台湾作家林清玄在接受记者采访的时候，如此评价自己 30 多年写作生涯：“第一个十年我才华横溢，‘贼光闪现’，令周边黯然失色；第二个十年，我终于‘宝光现形’，不再去抢风头，反而与身边的美丽相得益彰；进入第三个十年，繁华落尽见真醇，我进入了‘醇光初现’的阶段，真正体味到了境界之美”。长夜有穷，真水无香。领略过了 K8s“身在江

K8S/Kubernetes

如何基于 K8s 构建下一代 DevOps 平台？

作者 | 孙健波（天元）导读：当前云原生 DevOps 体系现状如何？面临哪些挑战？如何通过 OAM 解决云原生 DevOps 场景下的诸多问题？云原生开发应用模型 OAM(Open Application Model) 社区核心成员孙健波将为大家一一解答，并分享如何基于 OAM 和 Kubernetes 打造无限能力的下一代 DevOps 平台。什么是 DevOps？为什么基于 Kub