几个redis问题排查记录
在一个部署在k8s的web程序中,发现redis中有一个key一直被删除,并且在所有可能处理这个key的地方都加上了log,并没有发现任何异常;那就很奇怪了,为什么呢?下面是排查过程:先确认这个key是否设置了存活时间,答案是没有设置随后尝试切断该web程序与redis的连接,发现依然会被删除。。太奇怪了没办法了,怀疑是外部有程序意外连接了这个redis,导致key被删除(这个猜想也太诡异了)尝试
·
一 数据异常被删排查
现象:
在一个部署在k8s的web程序中,发现redis中有一个key一直被删除,并且在所有可能处理这个key的地方都加上了log,并没有发现任何异常;
排查过程:
- 先确认这个key是否设置了存活时间,答案是没有设置
- 随后尝试切断该web程序与redis的连接,发现依然会被删除。。太奇怪了
- 没办法了,怀疑是外部有程序意外连接了这个redis,导致key被删除(这个猜想也太诡异了)
- 尝试使用redis-cli 连接redis-server, 使用 CLIENT LIST指令查看所有的连接,
- 使用 monitor指令监控所有执行的指令,过滤其中的delete指令
- 发现果然有一个IP来自其他的集群…-_-!
- 和运维沟通发现。。原来他们之前做k8s集群迁移时,没有把旧集群上的服务停掉,导致旧服务一直再跑,而新旧集群网络是不通的,这就导致旧集群会走到失败流程,走删除逻辑。这么一看旧符合逻辑了
小结:
主要是以下指令的使用
查看所有的连接
redis-cli -h [ip] -p [port] -a [password] client list
实时监控当前redis的所有执行的指令,及其内容
redis-cli -h [ip] -p [port] -a [password] monitor
二 内存异常增长问题排查
现象
redis的内存持续上涨,由2.xG 持续涨到了 6.xG,初步怀疑是内存泄漏,存在未合理删除的持续增长的key;
排查过程
- 内存增长了这么多,而本身业务的请求量和登录数并没有显著增长,那么应该有某些key,特别 list之类的key,持续被push,导致key越来越大
- 那么思路就很清晰了,先找出哪些key比较大,然后结合业务逻辑进一步进行筛查
- 使用 redis-cli --bigkeys指令,快速定位哪些key比较大,筛选出其中的list,hash类型的key,用于业务逻辑的下一步筛查;
小结
主要是以下指令的使用:
查找大key,会列举出key的类型,key中有多少个字段,大小是多少个byte
redis-cli -h [ip] -p [port] -a [password] --bigkeys
更多推荐
已为社区贡献1条内容
所有评论(0)