过程

        今天用户反馈平台点什么都是系统错误,初步看,就是所有的请求都返回的是502 Bad GateWay。脑子里面第一反应就是nginx挂了,然后看服务器上nginx进程,发现运行正常,去看nginx日志也没有发现任何问题

        马上网上搜了下,对502 bad gateway的错误判断基本都是:说明服务器没有响应,也就是我们的web服务器没有接到有效的信息导致的。产生错误的原因主要是:连接超时,我们向服务器发送请求由于服务器当前链接太多,导致服务器方面无法给于正常的响应,产生此类报错。

        随即查看服务器上java进程,发现应用程序已经没有了,说明程序宕掉了。想着是不是有谁在攻击平台,但是查看nginx日志,也没有发现哪个请求的ip异常。

        用top命令查看,发现cpu的使用也很低,没有异常。

        使用iotop命令发现,io突然特别大。想着一般就是内存爆掉了,才会去直接与硬盘打交道,才会导致io飙升,用free查看内存,果然,内存已经100%。停掉了2个测试服务后,停掉那两个测试服务后,重启平台,一切正常。

总结

        当时出现问题时候,真的是一惊,以为平台被黑了。后面排查到其实就是简单的内存爆了,这个因为昨晚测试的时候又起了两个服务,所以内存突然就满了。后面这块也是要优化啊。
Logo

权威|前沿|技术|干货|国内首个API全生命周期开发者社区

更多推荐