构建企业级监控平台系列（二十五）：Prometheus 高可用集群方案

点击下方名片，设为星标！回复“1024”获取2TB学习资源！前面介绍了 PrometheusAlertManager、Alertmanager 配置实现钉钉告警、Pushgateway、基于K8S服务发现、监控常见服务、配置 Grafana 展示与报警等相关的知识点，今天我将详细的为大家介绍Prometheus 高可用集群方案相关知识，希望大家能够从中收获多多！如有帮助，请点在看、转发朋友圈支持.

民工哥

875人浏览 · 2023-11-02 08:52:01

民工哥 · 2023-11-02 08:52:01 发布

点击下方名片，设为星标！

回复“1024”获取2TB学习资源！

前面介绍了 Prometheus AlertManager、Alertmanager 配置实现钉钉告警、Pushgateway、基于K8S服务发现、监控常见服务、配置 Grafana 展示与报警等相关的知识点，今天我将详细的为大家介绍Prometheus 高可用集群方案相关知识，希望大家能够从中收获多多！如有帮助，请点在看、转发朋友圈支持一波！！！

Prometheus 作为新生代的开源监控系统，慢慢成为了云原生体系的监控事实标准，也证明了其设计得到业界认可。但在多集群，大集群等场景下，Prometheus 由于没有分片能力和多集群支持，还有 Prometheus 不支持长期存储、不能自动水平缩、大范围监控指标查询会导致 Prometheus 服务内存突增等。

单台的 Prometheus 存在单点故障的风险，随着监控规模的扩大，Prometheus 产生的数据量也会非常大，性能和存储都会面临问题。毋庸置疑，我们需要一套高可用的 Prometheus 集群。更多关于企业级监控平台系列的学习文章，请参阅：构建企业级监控平台，本系列持续更新中。

Prometheus 高可用方案

方案一: 基本HA

Promethues通过Pull机制进行数据采集，要确保Promethues服务的可用性，只需要部署多套Prometheus Server实例，并且采集相同的Exporter目标, 通过负载均衡访问多个prometheus实例, 即可实现基本的高可用功能。

基本的HA模式只能确保Promethues服务的可用性问题，但是不解决Prometheus Server之间的数据一致性问题以及持久化问题，也无法进行动态的扩展。适合监控规模不大，Promethues Server也不会频繁发生迁移的情况，并且只需要保存短周期监控数据的场景。

方案二: 基本HA+远程存储

在基本HA模式的基础上通过添加Remote Storage存储支持，将监控数据保存在第三方存储服务上。

在解决了Promethues服务可用性的基础上，同时确保了数据的持久化，当Promethues Server发生宕机或者数据丢失的情况下，可以快速的恢复。同时Promethues Server能很好的进行迁移. 该方案适用于监控规模不大，希望能够将监控数据持久化，同时能够确保Promethues Server的可迁移性的场景。

远程存储解决方案

Prometheus的本地存储在可扩展性和耐用性方面受到单个节点的限制, 无法持久化数据，无法存储大量历史数据，同时也无法灵活扩展和迁移. Prometheus官方没有尝试解决Prometheus本身的集群存储问题，而是提供了一组允许与远程存储系统集成的接口, 将数据保存到任意第三方的存储服务中，实现远程存储。

Prometheus以两种方式与远程存储系统集成：

Prometheus可以以标准格式将其提取的样本写入远程URL。
Prometheus可以以标准格式从远程URL读取（返回）样本数据。

Prometheus的远端存储(remote storage)原理如下图所示：Prometheus定义了同远端存储的读写接口，交互协议使用protocol buffer定义，传输基于HTTP；一个存储系统如果要支持Prometheus，仅需要实现一个adapter层，将Prometheus的的读写请求转换为其内部的格式来处理。

InfluxDB

Influxdb是目前Prometheus支持的最好的时序型数据库,也是目前相对主流的时序数据库,选用Influxdb来作为Prometheus的远程存储是目前的最佳选择, 解锁本地存储的限制, 解决Prometheus server高可用的数据一致性和持久化问题。

不足之处是Influxdb的集群功能只有商业版本才支持, 开源版本只能部署单机版, 解决办法是使用公有云上的时序数据库产品。

Promethues 邦联集群

当单台Promethues Server无法处理大量的采集任务时，可以考虑基于Prometheus联邦集群的方式将监控采集任务划分到不同的Promethues实例当中, 即在任务级别做功能分区。

这种部署方式一般适用于两种场景

场景一：单数据中心 + 大量的采集任务

这种场景下Promethues的性能瓶颈主要在于大量的采集任务，因此需要利用Prometheus联邦集群的特性，将不同类型的采集任务划分到不同的Promethues子服务中，从而实现功能分区。例如一个Promethues Server负责采集基础设施相关的监控指标，另外一个Prometheus Server负责采集应用监控指标。再由上层Prometheus Server实现对数据的汇聚。

场景二：多数据中心

这种模式也适合于多数据中心的情况，当Promethues Server无法直接与数据中心中的Exporter进行通讯时，在每一个数据中部署一个单独的Promethues Server负责当前数据中心的采集任务。这样可以避免进行大量的网络配置，只需要确保主Promethues Server实例能够与当前数据中心的Prometheus Server通讯即可。中心Promethues Server负责实现对多数据中心数据的聚合。

远程存储InfluxDB如何处理重复数据点

measurement的名字、tag set和时间戳唯一标识一个数据点。如果提交的数据点跟已有的数据点相比，具有相同measurement、tag set和时间戳，但具有不同field set，那么该数据点的field set会变为旧field set和新field set的并集，如果有任何冲突以新field set为准。这是预期的结果。

更多关于企业级监控平台系列的学习文章，请参阅：构建企业级监控平台，本系列持续更新中。

链接：https://blog.csdn.net/sxy2475/article/details

/104852154

读者专属技术群

构建高质量的技术交流社群，欢迎从事后端开发、运维技术进群（备注岗位，已在技术交流群的请勿重复添加）。主要以技术交流、内推、行业探讨为主，请文明发言。广告人士勿入，切勿轻信私聊，防止被骗。

扫码加我好友，拉你进群

推荐阅读点击标题可跳转

Windows 全新虚拟机发布！

待遇最好的 10 家央国企名单！

一款超牛逼的组网神器！吊打市面其它工具~

原以为是 Visio 的平替，没想到是个王者！

又发现一款吊炸天的全平台终端工具，有点牛逼！

PS：因为公众号平台更改了推送规则，如果不想错过内容，记得读完点一下“在看”，加个“星标”，这样每次新文章推送才会第一时间出现在你的订阅列表里。点“在看”支持我们吧!

K8S/Kubernetes

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐

【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美

作者 | 韩堂、柘远、沉醉来源 | 阿里巴巴云原生公众号前言台湾作家林清玄在接受记者采访的时候，如此评价自己 30 多年写作生涯：“第一个十年我才华横溢，‘贼光闪现’，令周边黯然失色；第二个十年，我终于‘宝光现形’，不再去抢风头，反而与身边的美丽相得益彰；进入第三个十年，繁华落尽见真醇，我进入了‘醇光初现’的阶段，真正体味到了境界之美”。长夜有穷，真水无香。领略过了 K8s“身在江

K8S/Kubernetes

如何基于 K8s 构建下一代 DevOps 平台？

作者 | 孙健波（天元）导读：当前云原生 DevOps 体系现状如何？面临哪些挑战？如何通过 OAM 解决云原生 DevOps 场景下的诸多问题？云原生开发应用模型 OAM(Open Application Model) 社区核心成员孙健波将为大家一一解答，并分享如何基于 OAM 和 Kubernetes 打造无限能力的下一代 DevOps 平台。什么是 DevOps？为什么基于 Kub