一 数据异常被删排查

现象:

在一个部署在k8s的web程序中,发现redis中有一个key一直被删除,并且在所有可能处理这个key的地方都加上了log,并没有发现任何异常;

排查过程:

  1. 先确认这个key是否设置了存活时间,答案是没有设置
  2. 随后尝试切断该web程序与redis的连接,发现依然会被删除。。太奇怪了
  3. 没办法了,怀疑是外部有程序意外连接了这个redis,导致key被删除(这个猜想也太诡异了)
  4. 尝试使用redis-cli 连接redis-server, 使用 CLIENT LIST指令查看所有的连接,
  5. 使用 monitor指令监控所有执行的指令,过滤其中的delete指令
  6. 发现果然有一个IP来自其他的集群…-_-!
  7. 和运维沟通发现。。原来他们之前做k8s集群迁移时,没有把旧集群上的服务停掉,导致旧服务一直再跑,而新旧集群网络是不通的,这就导致旧集群会走到失败流程,走删除逻辑。这么一看旧符合逻辑了

小结:

主要是以下指令的使用

查看所有的连接
redis-cli -h [ip] -p [port] -a [password] client list
实时监控当前redis的所有执行的指令,及其内容
redis-cli -h [ip] -p [port] -a [password] monitor

二 内存异常增长问题排查

现象

redis的内存持续上涨,由2.xG 持续涨到了 6.xG,初步怀疑是内存泄漏,存在未合理删除的持续增长的key;

排查过程

  1. 内存增长了这么多,而本身业务的请求量和登录数并没有显著增长,那么应该有某些key,特别 list之类的key,持续被push,导致key越来越大
  2. 那么思路就很清晰了,先找出哪些key比较大,然后结合业务逻辑进一步进行筛查
  3. 使用 redis-cli --bigkeys指令,快速定位哪些key比较大,筛选出其中的list,hash类型的key,用于业务逻辑的下一步筛查;

小结

主要是以下指令的使用:

查找大key,会列举出key的类型,key中有多少个字段,大小是多少个byte
redis-cli -h [ip] -p [port] -a [password] --bigkeys

Logo

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐