k8s pod 网络与idc kafka集群网络不通故障解决

背景：使用百度云云主机搭建的k8s集群，上面跑着公司的爬虫服务，开发发布新版本结束后，发现服务一直连接kafka集群在重试。网络环境：使用百度云vpc专线连接至我们自己的IDC机房网络，从而使pod网络和IDC机房网络打通问题发现：排查思路：1.首先我们进该集群的pod中，发现ping kafka域名可以解析到ip但是确不通，但是可以看的出来DNS是没有问题的。可以正常解析出ip地址。2.随后我们

Cloud孙文波

825人浏览 · 2021-07-15 21:11:18

Cloud孙文波 · 2021-07-15 21:11:18 发布

背景：

使用百度云云主机搭建的k8s集群，上面跑着公司的爬虫服务，开发发布新版本结束后，发现服务一直连接kafka集群在重试。

网络环境：
使用百度云vpc专线连接至我们自己的IDC机房网络，从而使pod网络和IDC机房网络打通

问题发现：

在这里插入图片描述

排查思路：

1.首先我们进该集群的pod中，发现ping kafka域名可以解析到ip但是确不通，但是可以看的出来DNS是没有问题的。可以正常解析出ip地址。
在这里插入图片描述

2.随后我们使用node宿主机直接去ping该地址发现居然是通的，说明百度云的宿主机和我们的IDC网络是相通的，那么基本可以确定出大概出问题的地方了。CNI网络插件、kube-proxy、因为是跨网段涉及到VPN专线路由设置。

3.之后看了CNI和kube-proxy的日志，并没有发现有任何异常，于是我们和开发进行了沟通。询问他们是否有替换其他的kafka集群，具体原因是我们公司有多套kafka消息队列，怀疑他们使用了其他网段的kafka集群。

4.问完果然没让我失望，是一个新的kafka集群，从域名可以看的出解析到了。10.139的网段。之后我们让网络组的同学去查了对应的路由条目，果然发现是没有的。同时并加上了相关的路由。

5.这时再次去pod内ping该kafka域名，发现可以通了，但是还一直在丢包。如下图
在这里插入图片描述

6.此时我们可以说网络已经打通了，但是一直存在丢包的现象。通过使用dmesg命令和查看/var/log/messages系统日志知道是arp表缓存溢出的问题。主要就是由于内核维护的arp表过于庞大, 发生抖动, 因此导致了这种情况。
在这里插入图片描述

问题解决

先接受几个内核ARP参数:
gc_stale_time
决定检查一次相邻层记录的有效性的周期。当相邻层记录失效时，将在给它发送数据前，再解析一次。缺省值是60秒。
gc_thresh1
存在于ARP高速缓存中的最少层数，如果少于这个数，垃圾收集器将不会运行。缺省值是128。
gc_thresh2
保存在 ARP 高速缓存中的最多的记录软限制。垃圾收集器在开始收集前，允许记录数超过这个数字 5 秒。缺省值是 512。
gc_thresh3
保存在 ARP 高速缓存中的最多记录的硬限制，一旦高速缓存中的数目高于此，垃圾收集器将马上运行。缺省值是1024。

比如arp -an|wc -l的结果是300左右, 那么应当调高gc_thresh各项数值,防止抖动的发生:

之后将k8s集群的每台机器都调高gc_thresh各项数值。再次ping之前的域名，发现不在丢包了。

echo 8192 > /proc/sys/net/ipv4/neigh/default/gc_thresh1
echo 16384 > /proc/sys/net/ipv4/neigh/default/gc_thresh2
echo 32768 > /proc/sys/net/ipv4/neigh/default/gc_thresh3

K8S/Kubernetes

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐

【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美

作者 | 韩堂、柘远、沉醉来源 | 阿里巴巴云原生公众号前言台湾作家林清玄在接受记者采访的时候，如此评价自己 30 多年写作生涯：“第一个十年我才华横溢，‘贼光闪现’，令周边黯然失色；第二个十年，我终于‘宝光现形’，不再去抢风头，反而与身边的美丽相得益彰；进入第三个十年，繁华落尽见真醇，我进入了‘醇光初现’的阶段，真正体味到了境界之美”。长夜有穷，真水无香。领略过了 K8s“身在江

K8S/Kubernetes

如何基于 K8s 构建下一代 DevOps 平台？

作者 | 孙健波（天元）导读：当前云原生 DevOps 体系现状如何？面临哪些挑战？如何通过 OAM 解决云原生 DevOps 场景下的诸多问题？云原生开发应用模型 OAM(Open Application Model) 社区核心成员孙健波将为大家一一解答，并分享如何基于 OAM 和 Kubernetes 打造无限能力的下一代 DevOps 平台。什么是 DevOps？为什么基于 Kub