
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
最近在部署 Ceph 集群时,遇到一个比较典型但又容易误判的问题:openEuler 系统上,Intel 网卡做 Bond 正常,但 Mellanox 网卡做 Bond 后无法正常聚合,业务网和后端网都不通。最终通过升级 Mellanox 网卡固件并同步升级 OFED 驱动后,问题得到解决。这篇文章记录一下完整的排查和处理过程,供类似场景参考。bond0:管理网,100.69.124.26/24b

而直通模式下,操作系统就直接接管了硬盘,会根据自己的判断去尝试开启硬盘缓存(也就是 hdparm 看到的 write-back)说个我之前遇到的惨案,ip地址冲突导致业务都挂了,建议在给新机器配地址前,先ping一下,正常应该是ping不通的,如果能ping通,说明这个ip有机器用着呢,规划组规划错误了,去找他们改,不要背锅了(所有ip都要ping,尤其是存储网和业务网,千万不能冲突)我们用的存储

Ceph Monitor是Ceph集群的管理核心,负责维护集群状态信息(Cluster Map)并确保各组件间的一致性。它基于Paxos算法实现多Monitor节点间的数据同步,通过Leader选举机制,保证高可用性。Monitor包含多种类型:AuthMonitor负责认证授权、HealthMonitor监控自身状态、MDSMonitor管理元数据服务器、OSDMonitor维护OSD状态、PG

本文复盘一例 Ceph OSD 高时延问题:在集群健康、主机资源和网络正常的情况下,通过 `ceph osd perf`、`iostat`、`blktrace` 逐步定位到 BlueStore `db/wal` 直通机械盘的小块同步写确认过慢;改造成单盘 RAID0 并启用 RAID 缓存后,时延显著下降,验证了问题根因在介质与写入模型不匹配。
Ceph是由Sage Weil于2006年开发的分布式统一存储系统,其核心RADOS提供可靠的自洽分布式存储服务。Ceph支持块存储(RBD)、文件存储(CephFS)和对象存储(RADOSGW)三种协议,分别适用于高性能、共享访问和海量非结构化数据场景。存储池作为虚拟资源管理单元,支持副本和纠删码两种数据冗余策略,通过CRUSH算法实现数据自动分布。Ceph的模块化架构和开源特性使其成为软件定义








