
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
梳理运维同学的职业发展设计的技术栈路线,共勉

谈到 GPU (Graphics Processing Unit,图形显示卡)大多数人想到的是游戏、图形渲染等这些词汇,图形处理确实是 GPU 的一大应用场景。然而人们也早已关注到它在通用计算上的巨大潜力,并提出了 GPGPU (General-purpose computing on graphics processing units, 图形处理器上的通用计算) 概念。到随着大数据处理、深度学习

探讨kafka的监控数据采集方式以及需要关注的核心指标,便于日常生产进行监控和巡检。

探讨rabbitmq的监控数据采集方式以及需要关注的核心指标,便于日常生产进行监控和巡检。

SRE(Site Reliability Engineering,站点可靠性/稳定性工程师),与普通的开发工程师(Dev)不同,也与传统的运维工程师(Ops)不同,SRE更接近是两者的结合,也就是2008年末提出的一个概念:DevOps,这个概念最近也越来越流行起来。SRE模型是Google对Dev+Ops模型的一种实践和拓展(可以参考《Google运维解密》一书),SRE这个概念我比较喜欢,因为

日常工作中,遇到日常工作使用的小技巧,便于生产环境进行生产debug和排障,现进行整理和梳理,便于梳理和沉淀。1. k8s常用技巧1.1 pod一启动就crash,来不及定位相关的日志,该如何debug?1.2 pod内部没有安装tcpdump,该如何抓包?2. linux常用技巧2.1 服务出现性能问题,怀疑到系统调用,该如何继续定位?2.2 ping一个域名有延迟,该如何定位哪个环节慢?2.3

kube-scheduler 是 kubernetes 的核心组件之一,主要负责整个集群资源的调度功能,根据特定的调度算法和策略,将 Pod 调度到最优的工作节点上面去,从而更加合理、更加充分的利用集群的资源,这也是我们选择使用 kubernetes 一个非常重要的理由。如果一门新的技术不能帮助企业节约成本、提供效率,我相信是很难推进的。

ETCD是常见的K8S分布式数据库。在生产过程中,偶尔会发现etcd节点异常或者集群异常。本文档作为etcd单异常节点的恢复办法

探讨kafka的系统架构以及以及整体常用的命令和系统分析,本文主要探讨高可用版本的kafka集群,并基于日常工作中的沉淀进行思考和整理。更多关于分布式系统的架构思考请参考文档[关于常见分布式组件高可用设计原理的理解和思考](https://blog.csDN.net/weixin_43845924/article/details/135713107)

探讨kafka的监控数据采集方式以及需要关注的核心指标,便于日常生产进行监控和巡检。








