raid管理工具—megacli、megaraidsas-status

  • 背景
    公司服务器磁盘有些是做的硬raid,为了及时的发现故障磁盘,避免数据的丢失,更快速的解决问题,因此团队内部基于这些硬raid做了相关监控。

  • MegaCli介绍
    MegaCli是一款管理维护硬件RAID软件,可以通过它来了解当前raid卡的所有信息,包括 raid卡的型号,raid的阵列类型,raid 上各磁盘状态,等等。通常,我们对硬盘当前的状态不太好确定,一般通过机房人员巡检来完成,有没有通过软件的方式来检查确定这个问题呢。MegaCli就可以做到,一般通过 MegaCli 的Media Error Count: 0 Other Error Count: 0 这两个数值来确定阵列中磁盘是否有问题;Medai Error Count 表示磁盘可能错误,可能是磁盘有坏道,这个值不为0值得注意,数值越大,危险系数越高,Other Error Count 表示磁盘可能存在松动,可能需要重新再插入。MegaCli 可以对阵列中所有的磁盘进行检测,我们可以通过脚本的方式来检测相关参数,从而通知管理人员。

  • MegaCli安装

echo "deb http://hwraid.le-vert.net/ubuntu precise main"  >> /etc/apt/sources.list
wget -O - http://hwraid.le-vert.net/debian/hwraid.le-vert.net.gpg.key | sudo apt-key add -
sudo apt-get update
sudo apt-get install megacli megactl megaraid-status
  • MegaCli常用命令

查看raid卡日志

sudo megacli -FwTermLog -Dsply -aALL

查看raid卡信息

sudo megacli -AdpAllInfo -aALL |grep -E "Product Name|BBU|Memory Size|RAID Level Supported"
sudo megacli -cfgdsply -aALL |egrep "PDs|VDs|Product Name|Memory|BBU:"
#查看raid卡个数
sudo megacli -adpCount

查看raid级别及raid信息(逻辑磁盘组信息)

sudo megacli -LDInfo -Lall -aALL
#RAID型号对应表信息如下:
RAID Level : Primary-1, Secondary-0, RAID Level Qualifier-0" #代表Raid 1
RAID Level : Primary-0, Secondary-0, RAID Level Qualifier-0" #代表Raid 0
RAID Level : Primary-5, Secondary-0, RAID Level Qualifier-3" #代表Raid 5
RAID Level : Primary-1, Secondary-3, RAID Level Qualifier-0" #代表Raid10

查看所有物理盘信息

sudo megacli -PDList -aAll

查看物理磁盘SN(本次是raid1,其他raid类型不一定是该字段)

sudo megacli -PDList -aAll -NoLog | grep -i 'Inquiry Data'

通过物理磁盘SN查看坏磁盘(不同厂商,不同raid类型可能会有差别)

sudo megacli -PDList -aAll -NoLog | grep -B 30 9MG8KTAJ
Adapter #0:#第一块卡的意思
Enclosure Device ID: 25   #设置raid需要用到
Slot Number: 11    #硬盘插入的位置
PD type:SATA   #接口是SATA接口,不是SAS接口
core size:12.731TB   #容量
inquiry data:#硬盘产商或者硬盘SN

通过megaraidsas-status查看坏磁盘

sudo megaraidsas-status
-- Disks informations
-- ID | Model | Status | Warnings
a0e24s0 | ATA WDC WUH721414AL 12TiB | online   
a0e24s1 | ATA WDC WUH721414AL 12TiB | bad  
#24指Enclosure Device ID,1指Slot Number,0指Adapter
a0e24s2 | ATA WDC WUH721414AL 12TiB | online
a0e24s3 | ATA WDC WUH721414AL 12TiB | online
a0e24s4 | ATA WDC WUH721414AL 12TiB | online
a0e24s5 | ATA WDC WUH721414AL 12TiB | online
a0e24s6 | ATA WDC WUH721414AL 12TiB | online
a0e24s7 | ATA WDC WUH721414AL 12TiB | online

点亮指定硬盘(定位,让磁盘闪灯)

megacli -PdLocate -start -physdrv[24:1] -a0

磁盘换完后关闭指定硬盘指示灯(经实践,更换新的盘后,rebuild完成指示灯自动恢复正常)

megacli -PdLocate -stop -physdrv[24:1] -a0

在服务器现场查看时,故障硬盘闪烁的是黄灯,正常硬盘的绿灯; 拔下故障硬盘,插上好硬盘,硬盘灯闪烁为绿色,并硬盘快速旋转,表示硬盘正在rebuild状态。

查看rebuild进度

megacli -PDRbld -ShowProg -PhysDrv[24:1] -aAll  或  megacli -PDRbld -ProgDsply -PhysDrv[24:1] -a0

参考网址:
https://www.cnblogs.com/dexter-wang/articles/12235881.html
http://www.ttlsa.com/tools/megacli-monitor-raid-status/

Logo

鸿蒙生态一站式服务平台。

更多推荐