ELK日志系统的线上问题排查-Logstash问题

在公司搭建的分布式实时统一日志平台，是通过FELK的方式组建的，大致流程是Filebeat是和应用部署在一个Pod中的（K8s部署）。目前的量为70-80个应用，数据一天50G.事故回放：有同学通知在Kibana中查日志，发现当天的某个时间段后都没有日志了，查之前的日志都是ok的。找问题经过：1）Kibana查询其他项目的日志，发现都是在这个时间段后没有日志；...

平凡见真章

1020人浏览 · 2019-04-13 14:55:53

平凡见真章 · 2019-04-13 14:55:53 发布

在公司搭建的分布式实时统一日志平台，是通过FELK的方式组建的，大致流程是

Filebeat是和应用部署在一个Pod中的（K8s部署）。目前的量为70-80个应用，数据一天50G.

事故回放：

有同学通知在Kibana中查日志，发现当天的某个时间段后都没有日志了，查之前的日志都是ok的。

找问题经过：

1）Kibana查询其他项目的日志，发现都是在这个时间段后没有日志；

2）进容器排查，发现应用日志在这个时间段后都有日志输出，基本可以判定问题在Logstash及后续流程中，应该是没有把日志放入到ES。

3）查看ES情况，发现ES集群状态正常,3个节点状态都 ok

4) 当时怀疑是否是网络问题，进入容器，telnet logstash 端口都是通的，查看Filebeat的日志，日志也没报错。

5) 怀疑是logstash问题，应为出问题前一天，一下子在logstash中接入了20个应用，会不会是数据太大把logstash冲垮了。

于是在这台机器上发布了另外一个logstash实例，并且做了测试，发现新的logstash实例是可以接受数据，并且传入到ES.

--------------------------------------------------------------------------------------------------------------------

至此，基本可以判定问题在Logstash上了，各种查资料，性能参数优化，都没有效果。

偶尔通过ps -ef|grep logstash查看进程发现，logstash启动参数内存只有1G，默认就是1G。

于是在config\jvm.option中修改logstash启动参数，把内存改为4G。

重新启动，发现问题解决。

K8S/Kubernetes

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐

【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美

作者 | 韩堂、柘远、沉醉来源 | 阿里巴巴云原生公众号前言台湾作家林清玄在接受记者采访的时候，如此评价自己 30 多年写作生涯：“第一个十年我才华横溢，‘贼光闪现’，令周边黯然失色；第二个十年，我终于‘宝光现形’，不再去抢风头，反而与身边的美丽相得益彰；进入第三个十年，繁华落尽见真醇，我进入了‘醇光初现’的阶段，真正体味到了境界之美”。长夜有穷，真水无香。领略过了 K8s“身在江

K8S/Kubernetes

如何基于 K8s 构建下一代 DevOps 平台？

作者 | 孙健波（天元）导读：当前云原生 DevOps 体系现状如何？面临哪些挑战？如何通过 OAM 解决云原生 DevOps 场景下的诸多问题？云原生开发应用模型 OAM(Open Application Model) 社区核心成员孙健波将为大家一一解答，并分享如何基于 OAM 和 Kubernetes 打造无限能力的下一代 DevOps 平台。什么是 DevOps？为什么基于 Kub