使用prometheus监控多k8s集群多个集群~ ocp监控之 Prometheus-thanos集群 -分布式 Prometheus命令 Prometheus常用 Prometheus下载

遇到一个需求，要使用prometheus监控多个k8s集群。甲方觉得上述方案中每个k8s集群都要部署prometheus，增加了每套k8s集群的资源开销，希望全局只部署一套prometheus，由它统一采集多个k8s集群的监控指标。尽管个人不太认可这种方案，中心prometheus今后很有可能成为性能瓶颈，但甲方要求的总得尽力满足，下面开始研究如何用一个prometheus采集多个k8s集群的监控

yuezhilangniao

2469人浏览 · 2021-09-23 10:34:59

yuezhilangniao · 2021-09-23 10:34:59 发布

thanos的两种模式 - 待实践

sidercar模式实践文章参考1-K8S部署：https://blog.csdn.net/networken/article/details/136313609
参考2-linux主机部署：https://www.jianshu.com/p/96d60af42431
图片原文：https://blog.csdn.net/Kammingo/article/details/113944099
在这里插入图片描述

Prometheus systemctl 安装

https://blog.csdn.net/yuezhilangniao/article/details/112991269

Prometheus官网下载

https://prometheus.io/download/#memcached_exporter

Prometheus写的好的文档

https://www.cnblogs.com/biaogejiushibiao/p/12442949.html
在这里插入图片描述

Prometheus常用命令 - 修改默认端口

https://blog.51cto.com/chier11/9736763

./promtool check config prometheus.yml
./prometheus --version
./prometheus --config.file=prometheus.yml --web.listen-address="0.0.0.0:9099"
/usr/local/prometheus/prometheus --web.enable-lifecycle --config.file=/usr/local/prometheus/prometheus.yml --storage.tsdb.retention.time=180d --storage.tsdb.path=/data/prometheus-bak/data

原文打造云原生大型分布式监控系统(二): Thanos 架构详解

https://cloud.tencent.com/developer/article/1610306
在这里插入图片描述
这张图中包含了 Thanos 的几个核心组件，但并不包括所有组件，为了便于理解，我们先不细讲，简单介绍下图中这几个组件的作用：

Thanos Query: 实现了 Prometheus API，将来自下游组件提供的数据进行聚合最终返回给查询数据的 client (如 grafana)，类似数据库中间件。
Thanos Sidecar: 连接 Prometheus，将其数据提供给 Thanos Query 查询，并且/或者将其上传到对象存储，以供长期存储。
Thanos Store Gateway: 将对象存储的数据暴露给 Thanos Query 去查询。
Thanos Ruler: 对监控数据进行评估和告警，还可以计算出新的监控数据，将这些新数据提供给 Thanos Query 查询并且/或者上传到对象存储，以供长期存储。
Thanos Compact: 将对象存储中的数据进行压缩和降低采样率，加速大时间区间监控数据查询的速度。

原文：
https://cloud.tencent.com/developer/article/1402436

1 需求分析：

遇到一个需求，要使用prometheus监控多个k8s集群。

调研发现prometheus配合node_exporter、kube-state-metrics可以很方便地采集单个集群的监控指标。因此最初的构想是在每套k8s集群里部署prometheus，由它采集该集群的监控指标，再运用prometheus的联邦模式将多个prometheus中的监控数据聚合采集到一个中心prometheus里来，参考模型为Hierarchical federation 链接：（https://prometheus.io/docs/prometheus/latest/federation/#hierarchical-federation）。

但甲方觉得上述方案中每个k8s集群都要部署prometheus，增加了每套k8s集群的资源开销，希望全局只部署一套prometheus，由它统一采集多个k8s集群的监控指标。尽管个人不太认可这种方案，中心prometheus今后很有可能成为性能瓶颈，但甲方要求的总得尽力满足，下面开始研究如何用一个prometheus采集多个k8s集群的监控指标。

2 步骤

1 prometheus采集当前k8s监控数据

2 prometheus采集其它k8s监控数据
从上述分析来看，假设其它k8s部署了node_exporter和kube-state-metrics，用prometheus采集其它k8s集群的监控数据也是可行的，只需要解决两个问题：

设置好kubernetes_sd_configs，让其可通过其它k8s集群的apiserver发现抓取的endpionts。
设置好relabel_configs，构造出访问其它k8s集群中的service, pod, node等endpoint URL。

3 实施参考

# 假设就部署在default命名空间
helm install --name prometheus --namespace default stable/prometheus

部署完毕之后，由于默认并没有创造任何ingress资源对象，创建的service的类型也仅仅是ClusterIP，所以从集群外部是没法访问到它的，不过可以简单地将端口映射出来，如下：

kubectl -n default port-forward service/prometheus-server 30080:80

这里使用了kubectl port-forward命令，详细使用方法参考这里。

然后用浏览器访问http://127.0.0.1:30080/graph，就可访问到prometheus的WebConsole了。

访问http://127.0.0.1:30080/config可以看到当前prometheus的配置，其中抓取当前k8s集群监控指标的配置如下：

scrape_configs:
# 抓取当前prometheus的监控指标
- job_name: prometheus
  scrape_interval: 1m
  scrape_timeout: 10s
  metrics_path: /metrics
  scheme: http
  static_configs:
  - targets:
    - localhost:9090
# 通过kubernetes_sd_configs发现机制，通过apiserver的接口列出当前k8s集群中endpoints列表，匹配到apiserver的endpoint，从该endpoint抓取apiserver的监控指标
- job_name: kubernetes-apiservers
  scrape_interval: 1m
  scrape_timeout: 10s
  metrics_path: /metrics
  scheme: https
  kubernetes_sd_configs:
  - role: endpoints
  bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
  tls_config:
    ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
    insecure_skip_verify: true
  relabel_configs:
  - source_labels: [__meta_kubernetes_namespace, __meta_kubernetes_service_name, __meta_kubernetes_endpoint_port_name]
    separator: ;
    regex: default;kubernetes;https
    replacement: $1
    action: keep
# 通过kubernetes_sd_configs发现机制，通过apiserver的接口列出当前k8s集群中node列表，从node列表中每个node抓取node的监控指标(kubelet通过/metrics接口将node的监控指标export出来了)
- job_name: kubernetes-nodes
  scrape_interval: 1m
  scrape_timeout: 10s
  metrics_path: /metrics
  scheme: https
  kubernetes_sd_configs:
  - role: node
  bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
  tls_config:
    ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
    insecure_skip_verify: true
  relabel_configs:
  - separator: ;
    regex: __meta_kubernetes_node_label_(.+)
    replacement: $1
    action: labelmap
  - separator: ;
    regex: (.*)
    target_label: __address__
    replacement: kubernetes.default.svc:443
    action: replace
  - source_labels: [__meta_kubernetes_node_name]
    separator: ;
    regex: (.+)
    target_label: __metrics_path__
    replacement: /api/v1/nodes/${1}/proxy/metrics
    action: replace
# 通过kubernetes_sd_configs发现机制，通过apiserver的接口列出当前k8s集群中node列表，从node列表中每个node抓取cadvisor的监控指标(kubelet通过/metrics/cadvisor接口将cadvisor的监控指标export出来了)
- job_name: kubernetes-nodes-cadvisor
  scrape_interval: 1m
  scrape_timeout: 10s
  metrics_path: /metrics
  scheme: https
  kubernetes_sd_configs:
  - role: node
  bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
  tls_config:
    ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
    insecure_skip_verify: true
  relabel_configs:
  - separator: ;
    regex: __meta_kubernetes_node_label_(.+)
    replacement: $1
    action: labelmap
  - separator: ;
    regex: (.*)
    target_label: __address__
    replacement: kubernetes.default.svc:443
    action: replace
  - source_labels: [__meta_kubernetes_node_name]
    separator: ;
    regex: (.+)
    target_label: __metrics_path__
    replacement: /api/v1/nodes/${1}/proxy/metrics/cadvisor
    action: replace
# 通过kubernetes_sd_configs发现机制，通过apiserver的接口列出当前k8s集群中endpoints列表，匹配到打了prometheus_io_scrape: true annotation的endpoint，从匹配到的endpoint列表中每个endpoint抓取该endpoint暴露的监控指标
- job_name: kubernetes-service-endpoints
  scrape_interval: 1m
  scrape_timeout: 10s
  metrics_path: /metrics
  scheme: http
  kubernetes_sd_configs:
  - role: endpoints
  relabel_configs:
  - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_scrape]
    separator: ;
    regex: "true"
    replacement: $1
    action: keep
  - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_scheme]
    separator: ;
    regex: (https?)
    target_label: __scheme__
    replacement: $1
    action: replace
  - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_path]
    separator: ;
    regex: (.+)
    target_label: __metrics_path__
    replacement: $1
    action: replace
  - source_labels: [__address__, __meta_kubernetes_service_annotation_prometheus_io_port]
    separator: ;
    regex: ([^:]+)(?::\d+)?;(\d+)
    target_label: __address__
    replacement: $1:$2
    action: replace
  - separator: ;
    regex: __meta_kubernetes_service_label_(.+)
    replacement: $1
    action: labelmap
  - source_labels: [__meta_kubernetes_namespace]
    separator: ;
    regex: (.*)
    target_label: kubernetes_namespace
    replacement: $1
    action: replace
  - source_labels: [__meta_kubernetes_service_name]
    separator: ;
    regex: (.*)
    target_label: kubernetes_name
    replacement: $1
    action: replace
# 通过kubernetes_sd_configs发现机制，通过apiserver的接口列出当前k8s集群中service列表，匹配到打了prometheus_io_scrape: pushgateway annotation的service，从匹配到的service列表中每个service抓取该service暴露的监控指标
- job_name: prometheus-pushgateway
  honor_labels: true
  scrape_interval: 1m
  scrape_timeout: 10s
  metrics_path: /metrics
  scheme: http
  kubernetes_sd_configs:
  - role: service
  relabel_configs:
  - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_probe]
    separator: ;
    regex: pushgateway
    replacement: $1
    action: keep
# 通过kubernetes_sd_configs发现机制，通过apiserver的接口列出当前k8s集群中service列表，匹配到打了prometheus_io_scrape: true annotation的service，从匹配到的service列表中每个service抓取该service暴露的监控指标(这里通过blackbox这个服务来抓取，需要在prometheus所在的namespace部署blackbox服务)
- job_name: kubernetes-services
  params:
    module:
    - http_2xx
  scrape_interval: 1m
  scrape_timeout: 10s
  metrics_path: /probe
  scheme: http
  kubernetes_sd_configs:
  - role: service
  relabel_configs:
  - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_probe]
    separator: ;
    regex: "true"
    replacement: $1
    action: keep
  - source_labels: [__address__]
    separator: ;
    regex: (.*)
    target_label: __param_target
    replacement: $1
    action: replace
  - separator: ;
    regex: (.*)
    target_label: __address__
    replacement: blackbox
    action: replace
  - source_labels: [__param_target]
    separator: ;
    regex: (.*)
    target_label: instance
    replacement: $1
    action: replace
  - separator: ;
    regex: __meta_kubernetes_service_label_(.+)
    replacement: $1
    action: labelmap
  - source_labels: [__meta_kubernetes_namespace]
    separator: ;
    regex: (.*)
    target_label: kubernetes_namespace
    replacement: $1
    action: replace
  - source_labels: [__meta_kubernetes_service_name]
    separator: ;
    regex: (.*)
    target_label: kubernetes_name
    replacement: $1
    action: replace
# 通过kubernetes_sd_configs发现机制，通过apiserver的接口列出当前k8s集群中pod列表，匹配到打了prometheus_io_scrape: true annotation的pod，从匹配到的pod列表中每个pod抓取该pod暴露的监控指标
- job_name: kubernetes-pods
  scrape_interval: 1m
  scrape_timeout: 10s
  metrics_path: /metrics
  scheme: http
  kubernetes_sd_configs:
  - role: pod
  relabel_configs:
  - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape]
    separator: ;
    regex: "true"
    replacement: $1
    action: keep
  - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_path]
    separator: ;
    regex: (.+)
    target_label: __metrics_path__
    replacement: $1
    action: replace
  - source_labels: [__address__, __meta_kubernetes_pod_annotation_prometheus_io_port]
    separator: ;
    regex: ([^:]+)(?::\d+)?;(\d+)
    target_label: __address__
    replacement: $1:$2
    action: replace
  - separator: ;
    regex: __meta_kubernetes_pod_label_(.+)
    replacement: $1
    action: labelmap
  - source_labels: [__meta_kubernetes_namespace]
    separator: ;
    regex: (.*)
    target_label: kubernetes_namespace
    replacement: $1
    action: replace
  - source_labels: [__meta_kubernetes_pod_name]
    separator: ;
    regex: (.*)
    target_label: kubernetes_pod_name
    replacement: $1
    action: replace

首先是一小段prometheus的抓取配置，官方解释在这里，这个比较简单，就不具体解释了

- job_name: kubernetes-service-endpoints
  scrape_interval: 1m
  scrape_timeout: 10s
  metrics_path: /metrics
  scheme: http

然后说明是用k8s的发现机制去发现抓取地址的：

  kubernetes_sd_configs:
  - role: endpoints

prometheus里k8s的发现机制配置见这里，注意这里没填api_server属性，因此用了默认值kubernetes.default.svc。

然后是一段relabel_configs配置，其作用主要是用于匹配最终要抓取的endpoint，构造抓取的地址，甚至给最终的时序指标加上一些label。这里以apiserver发现的node_exporter endpoint信息为例，在没有relabel之前，其endpoint信息如下：

。。。略

具体参考原文：https://cloud.tencent.com/developer/article/1402436

K8S/Kubernetes

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐

【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美

作者 | 韩堂、柘远、沉醉来源 | 阿里巴巴云原生公众号前言台湾作家林清玄在接受记者采访的时候，如此评价自己 30 多年写作生涯：“第一个十年我才华横溢，‘贼光闪现’，令周边黯然失色；第二个十年，我终于‘宝光现形’，不再去抢风头，反而与身边的美丽相得益彰；进入第三个十年，繁华落尽见真醇，我进入了‘醇光初现’的阶段，真正体味到了境界之美”。长夜有穷，真水无香。领略过了 K8s“身在江

K8S/Kubernetes

如何基于 K8s 构建下一代 DevOps 平台？

作者 | 孙健波（天元）导读：当前云原生 DevOps 体系现状如何？面临哪些挑战？如何通过 OAM 解决云原生 DevOps 场景下的诸多问题？云原生开发应用模型 OAM(Open Application Model) 社区核心成员孙健波将为大家一一解答，并分享如何基于 OAM 和 Kubernetes 打造无限能力的下一代 DevOps 平台。什么是 DevOps？为什么基于 Kub