编者注:以下是作者关于管理监控系统主题的观点。

随着组织转向新一代分布式系统和微服务架构,DevOps 世界发现越来越难以跟上当今应用程序监控的混合需求及其生成的警报。管理 IT 基础架构的这一方面使 DevOps 专业人员为此转向新兴的无服务器方法。

实现这一过程的软件范围从商业到开源,从昂贵到免费。让我们从问题本身开始。是什么让管理监控和警报如此困难?

管理监控

当在不同地区工作的不同组织选择不同的通信媒介以使他们的员工和客户感到舒适时,管理监控和警报变得复杂。

让我们通过一个例子来更多地理解这个问题。以一家公司为例:

  • 有很多产品可以在各种云和非云平台上运行。

  • 使用聊天和电子邮件服务进行内部沟通。

  • 支持在不同时区工作的专业人员。

现在,如果该公司的任何产品出现问题,响应团队应在客户(和公司)受到负面影响之前采取行动。如果响应团队立即解决问题不会有太大问题,但如果他们没有,响应团队的人应该以某种方式通知他们,以减少功能损失或可能的经济损失.

这就是问题所在。人们无法始终注意和回应问题。如果您向响应团队发送电子邮件或短信,那么在问题造成重大经济损失之前,团队中的任何人都可能不会看到它。此外,响应团队可能已经收到如此多的电子邮件警报,即使它们可用,他们也可能难以在较小的问题中发现高影响的问题。在这种情况下,您应该向响应团队中的某个人发送明确的警报,例如拨打电话或向寻呼机发送消息。但是,如果您决定打电话,您需要知道谁实际上有空,否则您可能不得不打电话给多个人,直到您找到准备在那个时刻接听电话的响应团队成员,这甚至可能需要如果您的电话是在他们所在位置的奇怪时间,则更长。

相反,您需要的是一种工具,它不仅可以监控您的系统,还可以智能地管理警报过程,以获得尽可能快的结果。一个流行的商业选项是 OpsGenie,在本文中,我们将讨论这个专有选项的开源替代方案。

我们想从 OpsGenie 得到什么

OpsGenie 是一种付费警报工具,可帮助组织实现智能警报和通知流程。除了随叫随到的轮换管理外,OpsGenie 目前还支持几乎所有现有系统的通知,无论是付费的还是免费的。在 DevOps 环境中拥有许多其他原因是很好的,其中包括大量自动化、与聊天机器人的集成以及随叫随到的轮换。在中断期间需要技术支持是考虑 OpsGenie 以获得这些优势的更重要原因之一。

在与 OpsGenie 的比较中,我们将只关注开源警报工具的基本部分。在许多环境中,这涉及通过管理以下内容来连接团队:

  • 向依赖服务的团队发出警报。

  • 用于查看系统状态的仪表板。

  • 与聊天工具和自动回复的集成。

编者注:在发布时,OpsGenie 确实在特定用途范围内提供免费产品。访问该站点以获取与其服务相关的最新详细信息。

开源告警工具

有一些开源工具可以完成 OpsGenie 所做的一切,我认为这对于管理监控系统至关重要。

卡博特

Cabot提供了所有必要的功能,以获得对您的基础设施的完整监控。 Cabot 支持通过电话、电子邮件、SMS、HipChat 和 Slack 发出警报。它是用 Python 编写的,主要使用 Django 框架。 Cabot 独立于 Java 和其他需要大量内存的进程,这使其成为一个稳定的选择。

纳吉奥斯

NagiosCore 是免费和开源的,但它的支持和一些插件是有成本的。值得庆幸的是,Nagios Core 本身是基础设施监控和警报的绝佳选择。它支持通过电子邮件发送通知,并有一些其他选项作为集成。它还支持用户定义的通知机制。如果您有一个 API 可以处理警报并将自定义通知发送到一种或多种媒体(例如 Slack、HipChat、SMS 等),那么此工具可能非常适合您。

ngDesk

ngDesk可以处理您的待命轮换,在没有响应时自动升级警报,并提供票务工具。 ngDesk 仍在开发完整的软件包,所以请继续关注这个崭露头角的项目。

Open Distro for Elasticsearch

Open Distro for Elasticsearch是监控和警报领域的最新成员。该项目支持几乎所有聊天机器人、电子邮件和各种其他警报机制。 Open Distro for Elasticsearch 是一个完整的、可插入的监控和警报模块,是许多工具的组合。有了它,您可以在 Kibana 中查看警报,因此无需使用单独的工具,您可以通过支持的集成和接收器以您想要的方式获得通知。身份验证支持已免费添加到 Kibana、Elasticsearch 和组合在此组合中的其他工具中,因此您可以指定谁可以查看访问权限以及对弹性堆栈中的内容进行访问。

OpenDuty

另一个为付费替代品提供激烈竞争的警报工具是OpenDuty。虽然仍处于测试阶段,但该项目已经支持 SMS、电话、电子邮件、Slack、HipChat 以及用于发送警报的各种其他付费和开源集成。还支持与 Nagios 等其他警报工具的集成,以及与付费警报工具 PagerDuty 的兼容性,最有可能帮助人们迁移。

Prometheus Alertmanager

Alertmanager能够定义警报定义,然后使用特定定义路由警报以轻松设置集成。然后,这些集成可以向端点设备广播警报,如果需要,管理员可以将其静音。尽管有其局限性,Alertmanager 仍然是向聊天平台和手机发送推送通知的非常好的工具。

总结

如果预算或仅使用开源软件是头等大事,那么有很多响应团队警报选项可用。首先查看您现有设置中的弱点,并查明您的组织在 IT 问题上的失误,导致它们升级为真正的问题。这样做可以更容易地选择您应该实施哪种工具或工具组合以最好地解决这些差距。如果它可以帮助您全面了解管理监控基础架构,则可以使用多个。

Logo

CI/CD社区为您提供最前沿的新闻资讯和知识内容

更多推荐