记一次 kubernetes 部署的业务访问量大时出现访问超时
问题表现当访问并发量比较大时, 请求会频繁超时.问题原因由于程序内部实现中会频繁访问日志服务器, 但当时 日志服务器没有部署到 kubernetes 中,所以使用 CoreDNS hosts 插件进行自定义域名解析来实现.出问题时, CoreDNS CPU 一直在 10-30% 之间波动.由于CPU并没有跑满, 怀疑此处有问题但并没有将此处当做本次的瓶颈.排查完其他问题后最后才排查此处问题...
问题表现
当访问并发量比较大时, 请求会频繁超时.
问题原因
由于程序内部实现中会频繁访问日志服务器, 但当时 日志服务器没有部署到 kubernetes
中,所以使用 CoreDNS
hosts
插件进行自定义域名解析来实现.
出问题时, CoreDNS
CPU 一直在 10-30%
之间波动.由于CPU并没有跑满, 怀疑此处有问题但并没有将此处当做本次的瓶颈.排查完其他问题后最后才排查此处问题.
最终确认确实是此处导致的性能瓶颈问题, 导致浪费了一下午的时间.
整个过程中, CoreDNS
监控均显示一切正常, 只是查询次数有些多, 监控显示有 1.8kpps 左右. 其中绝大多数都被缓存命中, 所以给人感觉压力可能并不大.
但后面实在找不到原因之后将 日志服务器解析方式从 hosts
插件改成 Deployment
配置 hostAliases
之后,问题瞬间解决.
最终确认问题如下(此处需要细查继续确认)
CoreDNS
在大量查询情况下可能存在慢查询的情况
Kubernetes
默认会给 Pod
添加 6 个搜索域, 导致一次外部 DNS 查询最少需要查询 6 次才能获得正确结果,导致DNS访问量巨大.
解决方式
使用 Deployment
配置 hostAliases
替换原来使用 CoreDNS
进行DNS映射.
更多推荐
所有评论(0)