系统的可靠性分析与设计是系统架构设计师在系统分析与设计阶段、系统集成阶段应该重点考虑的问题。内容主要为可靠性设计、系统的故障模型、系统的可靠性模型、组合模型可靠性计算、马尔柯夫模型可靠性计算,以及硬件冗余、信息校验码等方面;另外也涉及系统可靠性分析与计算、系统可靠性评估和系统配置方法等概念与理论的实际工程运用等内容。

可靠性相关的概念主要有:可靠度、可用度、可维度、平均无故障时间、平均故障修复时间及平均故障间隔时间等;
(1)可靠度。系统的可靠度 R(t)是指在 t=0 时系统正常的条件下,系统在时间区间[0,t]
内能正常运行的概率。
(2)可用度。系统的可用度 A(t)是指系统在时刻 t 可运行的概率。
(3)可维度。系统的可维度 M(t)是指系统失效后,在时间间隔内被修复的概率。
(4)平均无故障时间。可靠度为 R(t)的系统平均无故障时间(Mean Time To Failure,
MTTF)定义为从 t=0 时到故障发生时系统的持续运行时间的期望值:

(5)平均故障修复时间。可用度为 A(t)的系统

(6)平均故障间隔时间。平均故障间隔时间(Mean Time Between Failure, MTBF)常
常与 MTTF 发生混淆。因为两次故障(失败)之间必然有修复行为,因此, MTBF 中应包
含 MTTR。对于可靠度服从指数分布的系统,从任一时刻 t 0 到达故障的期望时间都是相等
的,因此有:
MTBF = MTTR + MTTF平均故障修复时间(Mean Time To Repair,
MTTR)可以用类似于求 MTTF 的方法求得。

故障来源:

(1)失效:硬件的物理改变。
(2)故障:由于部件的失效、环境的物理干扰、操作错误或不正确的设计引起的硬件
或软件中的错误状态。
(3)错误(差错):故障在程序或数据结构中的具体位置。
    永久性:描述连续稳定的失效、故障或错误。在硬件中,永久性失效反映了不可恢复的物理
改变。
    间歇性:描述那些由于不稳定的硬件或变化着的硬件或软件状态所引起的、仅仅是偶然出现
的故障或错误。
    瞬时性:描述那些由于暂时的环境条件而引起的故障或错误。

Logo

开源、云原生的融合云平台

更多推荐