logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

5、openEuler上Mellanox(迈洛思)网卡Bond无法聚合问题排查

最近在部署 Ceph 集群时,遇到一个比较典型但又容易误判的问题:openEuler 系统上,Intel 网卡做 Bond 正常,但 Mellanox 网卡做 Bond 后无法正常聚合,业务网和后端网都不通。最终通过升级 Mellanox 网卡固件并同步升级 OFED 驱动后,问题得到解决。这篇文章记录一下完整的排查和处理过程,供类似场景参考。bond0:管理网,100.69.124.26/24b

文章图片
#服务器#运维
2、生产环境存储集群 “瘦身+增肌” 实战

而直通模式下,操作系统就直接接管了硬盘,会根据自己的判断去尝试开启硬盘缓存(也就是 hdparm 看到的 write-back)说个我之前遇到的惨案,ip地址冲突导致业务都挂了,建议在给新机器配地址前,先ping一下,正常应该是ping不通的,如果能ping通,说明这个ip有机器用着呢,规划组规划错误了,去找他们改,不要背锅了(所有ip都要ping,尤其是存储网和业务网,千万不能冲突)我们用的存储

文章图片
#运维#经验分享#ceph
第三章 集群的大脑 — Monitor

Ceph Monitor是Ceph集群的管理核心,负责维护集群状态信息(Cluster Map)并确保各组件间的一致性。它基于Paxos算法实现多Monitor节点间的数据同步,通过Leader选举机制,保证高可用性。Monitor包含多种类型:AuthMonitor负责认证授权、HealthMonitor监控自身状态、MDSMonitor管理元数据服务器、OSDMonitor维护OSD状态、PG

文章图片
#ceph#分布式#云计算
4、 一次 Ceph OSD 高时延排查复盘:BlueStore db/wal 介质选择不当引发的小 IO 时延问题

本文复盘一例 Ceph OSD 高时延问题:在集群健康、主机资源和网络正常的情况下,通过 `ceph osd perf`、`iostat`、`blktrace` 逐步定位到 BlueStore `db/wal` 直通机械盘的小块同步写确认过慢;改造成单盘 RAID0 并启用 RAID 缓存后,时延显著下降,验证了问题根因在介质与写入模型不匹配。

#ceph#运维#云计算
第一章 一生万物 — RADOS导论

Ceph是由Sage Weil于2006年开发的分布式统一存储系统,其核心RADOS提供可靠的自洽分布式存储服务。Ceph支持块存储(RBD)、文件存储(CephFS)和对象存储(RADOSGW)三种协议,分别适用于高性能、共享访问和海量非结构化数据场景。存储池作为虚拟资源管理单元,支持副本和纠删码两种数据冗余策略,通过CRUSH算法实现数据自动分布。Ceph的模块化架构和开源特性使其成为软件定义

文章图片
#ceph#分布式#云计算
到底了