promethue-k8s监控系统部署脚本使用指引

需要的可联系Mail: [cai20022023@gmail.com] 微信:sibdygx

  • 适配k8s集群版本:
  • 1.22
  • 1.23

测试环境机器分配

IP角色功能
192.168.18.111ansible部署机
192.168.18.125k8s-masterk8s集群

目录结构

image-20231226211605704

一、修改配置文件

config.yaml

1、主机信息hosts配置

image-20240121164721096

重装应用

image-20231230152337950

2、基础信息配置

image-20231230152455602

3、应用配置

image-20240121164802783

4、k8s集群外部节点监控配置

1、考虑到生产环境可能会把中间件拆分部署到k8s集群外部节点。仅nginx支持在集群内部安装监控

2、本脚本支持监控插件选项:Nginx,Mysql,Redis,MongoDB,Elasticsearch,Rabbitmq,Node,BlackBox

image-20240121164836987

nginx的监控前提,nginx.conf配置开启状态页

image-20231210194550547

image-20231210194610151

二、脚本使用方法

1、一键执行安装

chmod +x setup.sh
/root/authDeploy/setup.sh all                # 执行所有任务

2、部署错误 重新部署可分步骤进行

/root/authDeploy/setup.sh local              # 检查本地环境,重新读取配置
/root/authDeploy/setup.sh host               # 远程主机环境设置
/root/authDeploy/setup.sh deploy	         # 部署plmxs应用
/root/authDeploy/setup.sh exporter           # 部署exporter监控插件
/root/authDeploy/setup.sh report	         # 生成简单报告

3、执行过程

自动检测共享存储服务器状态

image-20231210204008474

自动免密 -----前提:config.yaml配置了服务器密码

image-20231210204038670

自动推送镜像

image-20240114215142290

自动检查pod状态

image-20240114215202983

image-20240114215457328

image-20240114215654822

部署监控插件

image-20240114220038764

生成部署报告

image-20240114220106886

三、部署后验证

promethues

image-20231210205242630

告警规则

image-20231210205304436

alertmanager

image-20231210205334895

grafana

image-20231225231224876

image-20231210205423161

告警机器人

image-20231210211240815

image-20231210220225719

四、自动化脚本使用

image-20240114212808097

1、一键检查服务状态

自定义编辑服务列表

默认检查的命名空间为入口文件配置的命名空间

/root/authDeploy/authOps/service_list.yaml

image-20240121165022453

/root/authDeploy/authOps/k8s_app_run.py check all                 #检查所有服务
/root/authDeploy/authOps/k8s_app_run.py check grafana             #检查单个服务
/root/authDeploy/authOps/k8s_app_run.py check grafana,dcp-news    #检查多个服务

image-20240121165144480

2、一键获取Pod容器的资源信息

/root/authDeploy/authOps/k8s_app_run.py info all                    #获取所有命名空间
/root/authDeploy/authOps/k8s_app_run.py info cwc                    #获取cwc命名空间下的

image-20240114221227695

在Windows系统打 开

image-20231218235047376

六、FAQ

1、安装的exporter在Prometheus无法被发现。

具体表现:没有其他exporter的tagets

image-20231229163954486

原因:endpoint配置没有失效

处理方式:到k8s主节点执行以下命令

#重新加载endpoint配置
kubectl apply -f /do1cloud/exporter_service/
#刷新Prometheus配置
curl  -XPOST [k8smaster_ip:prometheus_port]/-/reload
curl -XPOST 192.168.18.111:32002/-/reload

2、重新导入Grafana监控模板

如果新增grafana的监控模板json文件

/root/plmxs_authDeploy/setting/install.py dashboard

image-20240114223015348

Logo

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐