SRE运维揭秘: 企业生产中运维监控的真相
大家好,我是博哥爱运维,有着十年SRE运维开发经验,从事过全球多个主流云平台的服务架构设计及自动化运维开发工作,在企业中基于gitlab和k8s从零设计过完整的一套CICD流水线架构,曾用shell开发过运维堡垒机系统,用golang开发过云原生K8S堡垒机系统及运维OnCall监控报警中心服务,在云计算、自动化、安全、监控、DevOps运维开发方面有着丰富的实战工作经验。SRE运维开发工程师:能
大家好,我是博哥爱运维,有着十年SRE运维开发经验,从事过全球多个主流云平台的服务架构设计及自动化运维开发工作,在企业中基于gitlab和k8s从零设计过完整的一套CICD流水线架构,曾用shell开发过运维堡垒机系统,用golang开发过云原生K8S堡垒机系统及运维OnCall监控报警中心服务,在云计算、自动化、安全、监控、DevOps运维开发方面有着丰富的实战工作经验。
------> 课程视频同步分享在今日头条和B站
这里只作录课时笔记的一些记录,很零散,具体有兴趣大家可以点击上面链接去看公开课视频。
-
初级运维工程师:知道什么业务场景需要用什么监控软件 ,并且能够部署上线生产使用。
-
中、高级运维开发工程师:能够结合公司生产业务场景,针对 不同的监控软件做相应运维开发监控层面的开发工作。
-
SRE运维开发工程师:能够站在公司业务架构的视角,上帝视角,开发相应的运维监控平台,统筹管理公司所有的监控体系。
从0到1实现这一套监控体系,从而保障业务服务的稳定性
基础资源监控
zabbix
小米公司
open-falcon
server — agent
编写一些脚本,收集一些特定的监控数据
netdata 秒级 UI页面很漂亮 ,数据 很全
K8S容器化监控
k8s deployment pod ip
prometheus promql
nightingale 夜莺 监控模板很多
服务网络链路监控
监控宝 公有业务服务链路拨测saas
uptime-kuma 开源监控宝,拨测,秒级
K8S普及
资源生命周期事件
kube-eventer 秒级K8S事件监控
falco K8S上安全事件监控
上千个服务POD,上万个
kubectl exec -it xxxxx – bash
微服务
成千上万个服务
skywalking
更多推荐
所有评论(0)