系统冗余

2227

此条目需要补充更多来源。 (2018年11月)请协助补充多方面可靠来源以改善这篇条目,无法查证的内容可能会因为异议提出而被移除。致使用者:请搜索一下条目的标题(来源搜索:"系统冗余" — 网页、新闻、书籍、学术、图像),以检查网络上是否存在该主题的更多可靠来源(判定指引)。

冗馀的电脑电源

冗馀(英语:redundancy)是指系统为了提升其可靠度,刻意配置重复的零件或是机能。冗馀一般是为了备用,或是失效安全的考量,也有可能是为了提升系统性能,像是卫星导航系统接收器,或是多线程电脑处理。

在许多生命攸关系统(像是飞机中的Fly-by-wire及液压系统)中,控制系统的一些元件会特别配置三组[1],一般称为三重模块冗馀(TMR)。若其中一个有问题,其他二个正常,则会依类似投票的机制,以二个正常的模块为准。在三重模块冗馀的系统中,至少要有二个模块有问题才可能造成系统失效。因为模块的失效率其实很低,而且模块的失效是互相独立的,因此二个模块都失效的机率相当的低,会低于比其他的风险因素(例如人为错误)。冗馀也可以称为是“多数决系统”[2]或“投票式逻辑”[3]。

悬索桥的许多缆绳也是冗馀的一种

有时冗馀不会提高系统的可靠度,反倒会降低系统的可靠度。有冗馀设计的系统是比较复杂的系统,也比较容易被其他问题影响。有冗馀的系统比较容易让操作者疏忽职责,或是给予系统较大的生产需求,使系统处于过应力,较不安全的情形下[4]。

冗馀的种类[编辑]

其中的子系统"B"是冗馀的(三重模块冗馀)

串联(A)及并联(B)的系统,两者的组合即为(C)[5]

电脑科学中,主要有四种不同的冗馀[6],分别是

硬体冗馀,例如双重模块冗馀(英语:dual modular redundancy)及三重模块冗馀

资讯冗馀,例如错误检测与纠正方法

时间冗馀,进行同一个任务数次,例如执行同一个程式数次,或是传输同一笔资料数次等

软体冗馀,例如N版本编程(英语:N-version programming)

另一种由软体冗馀衍生,但应用在硬体上的冗馀是:

不同机能冗馀,像是车辆中同时有机械刹车及油压刹车。此作法是用软体中的例子,二个独立由不同人写作,有相同功能的模组,针对同一讯号产生相同的输出

建筑结构在进行设计时,一般也会设计冗馀的模组,在只有一个零件损坏的情形下,不会破坏整个结构。没有设计冗馀的结构称为fracture critical(英语:Fracture critical),意思是单一零件的损坏可能破坏整个结构。像美国西维吉尼亚州和俄亥俄州的Silver Bridge(英语:Silver Bridge)(在1967年倒塌)和华盛顿州的Skagit River Bridge(英语:Skagit River Bridge)(在2013年倒塌)都是没有考虑冗馀结构桥梁的例子。

平行系统及组合式系统都有不同程度的冗馀。这些模型是可靠度及安全工程研究的主题。

主动冗馀及被动冗馀[编辑]

采用主动冗馀设计的变电所

冗馀可以分为被动冗馀及主动冗馀(英语:active redundancy)。两种冗馀都是利用额外的零件,在没有人为介入的情形下,避免性能低于所需的规则以外。

被动冗馀是用多馀的数量或能力来减少零件损坏的影响。像桥梁上的缆绳及支撑的强度都会较所需的强度要高一些,就是被动冗馀的例子。提升的强度可以使桥梁不会因为部份元件损坏而倒塌。额外提升的强度即为安全裕度。

人的耳朵和眼睛也是被动冗馀的例子。一个眼睛若完全没有视力,不会让人失明,不过视觉上无法识别远近。一个耳朵若完全没有听力,不会让人失聪,但无法透过耳朵识别声音的位置。被动冗馀的系统,若有少量的故障,可能也会伴随性能的降低。

主动冗馀是用监控个别设备的方式来消除性能降低,监控时也会用投票式逻辑。投票式逻辑会连接到开关,自动调整零件的组态。错误检测与纠正及修正及全球定位系统(GPS)都是主动冗馀的例子。

配电系统就是主动冗馀的例子。有许多高压电缆连结发电设备及用户。每一组高压电缆都会监测负载,也会有断路器。高压电缆的组合可以提供的电力超过总用电量。若高压电缆侦测到负载过载,会切断断路器。会由其他的高压电缆提供用户所需的电力。

缺点[编辑]

《高风险技术与“正常”事故(英语:Normal Accidents)》的作者查尔斯·佩罗(英语:Charles Perrow)曾提到:有时冗馀反而会带来反效果,让可靠度变低,而不是提升可靠度。冗馀降低可靠度的可能原因有三个:第一,冗馀安全设备使系统变复杂,比较容易出现故障及意外,再者,冗馀比较容易让工作者轻忽,最后一点是常常会给予过高的产能压力,使系统运作在较高,但较不安全的速度下[4]。

投票式逻辑[编辑]

投票式逻辑会利用性能监控来决定个别模组的配置,目的是让系统可以在符合整体规格要求的情形下继续运作。投票式逻辑一般会包括电脑,不过没有电脑的系统仍然可以使用投票式逻辑,像用断路器就是非电脑式投票式逻辑的例子。

电力系统会用电力调度来达到主动式冗馀。在一个发电设备出现问题,由电脑系统调整其他发电设备的发电量。这可以避免一些重大事件(例如地震)时的停电。

计算系统中最简单的投票式逻辑包括二个零件:主要零件及备援零件。二个的软体都相近,不过正常情形下,备援零件的输出无效,主要零件会周期性进行自我监控,若一切正常的话,会送出活动中信息给备援零件。若主要零件监测到问题,主要零件的输出以及活动中信息都会停止。备援零件会监测活动中信息,若活动中信息消失,备援零件会等待一小段时间,之后会用备援零件的输出代替主要零件。若是投票式逻辑本身有问题,可能会让二个零件的输出都同时有效或是无效,或是让输出频繁在有效及无效之间切换。

另一种比较可靠的投票式逻辑是包括三个或是三个以上的奇数个零件。所有零件的机能都相同,透过投票式逻辑来比较所有零件的输出。若输出有不一致时,由投票式逻辑决定多数的输出,和多数输出不一致的零件,其输出会类似失效。单一故障不会中断正常机能。在航空电子系统中有使用此一技术,例如负责航天飞机运作的系统。

计算系统失效的机率[编辑]

系统中每一个冗馀的零件,都会减少系统失效的机率。

假设失效事件之间是相互独立的(不论零件A是否失效,不会影响零件B的失效机率),并且只要有一个元件就可以使系统正常运作。

系统失效机率的公式如下:

p

=

i

=

1

n

p

i

{\displaystyle {p}=\prod _{i=1}^{n}p_{i}}

其中

n

{\displaystyle n}

:零件个数

p

i

{\displaystyle p_{i}}

:零件i失效的机率

p

{\displaystyle p}

:所有零件i失效的机率(系统失效)

学术研究[编辑]

利用冗馀零件的分配来最佳化系统是历史悠久且常见的数学规划问题:

冗馀分配问题 (Redundancy Allocation Problem, RAP) : RAP是一种可靠度最佳化的设计工具,是在已知每个子系统中零件可靠度的情况下,分配每个子系统中的零件数量以最大化系统可靠度。[7]

可靠度冗馀分配问题 (Reliability Redundancy Allocation Problem, RRAP) : RRAP由RAP衍伸,除了分配子系统中的零件数量外,每个子系统的零件可靠度也是决策变数,目标最大化系统可靠度。[8]

近年来随著柔性运算的发展,许多学者改以利用元启发算法来求解上述两种问题。[9][10]

相关条目[编辑]

简并 (生物学)(英语:degeneracy (biology))

共因失效(英语:Common mode failure)

数据冗余

双开关(英语:Double switching)

故障容许度

辐射硬化(英语:Radiation hardening)

安全系数

可靠度

老化和寿命的可靠度理论(英语:Reliability theory of aging and longevity)

安全工程

可靠性 (计算机网络)

平均故障间隔

N+1冗馀(英语:N+1 redundancy)

参考资料[编辑]

^ Redundancy Management Technique for Space Shuttle Computers (页面存档备份,存于互联网档案馆) (PDF), IBM Research

^ R. Jayapal. Analog Voting Circuit Is More Flexible Than Its Digital Version. elecdesign.com. 2003-12-04 [2014-06-01]. (原始内容存档于2007-03-03).

^ The Aerospace Corporation | Assuring Space Mission Success. Aero.org. 2014-05-20 [2014-06-01]. (原始内容存档于2008-04-10).

^ 4.0 4.1 Scott D. Sagan. Learning from Normal Accidents (PDF). Organization & Environment. March 2004 [2018-11-22]. (原始内容 (PDF)存档于2004-07-14).

^ Kokcharov I. Structural Safety http://www.kokch.kts.ru/me/t6/SIA_6_Structural_Safety.pdf (页面存档备份,存于互联网档案馆)

^ Koren, Israel; Krishna, C. Mani. Fault-Tolerant Systems. San Francisco, CA: Morgan Kaufmann. 2007: 3. ISBN 0-12-088525-5.

^ Fan, Liang Tseng; Wang, Chiu Sen; Tillman, Frank A.; Hwang, Ching Lai. Optimization of Systems Reliability. IEEE Transactions on Reliability. 1967-09, R–16 (2): 81–86 [2021-05-25]. ISSN 1558-1721. doi:10.1109/TR.1967.5217465. (原始内容存档于2021-05-25).

^ Tillman, Frank A.; Hwang, Ching-Lai; Kuo, Way. Determining Component Reliability and Redundancy for Optimum System Reliability. IEEE Transactions on Reliability. 1977-08, R–26 (3): 162–165 [2021-05-25]. ISSN 1558-1721. doi:10.1109/TR.1977.5220102. (原始内容存档于2021-05-25).

^ A two-stage discrete particle swarm optimization for the problem of multiple multi-level redundancy allocation in series systems. Expert Systems with Applications. 2009-07-01, 36 (5): 9192–9200 [2021-05-25]. ISSN 0957-4174. doi:10.1016/j.eswa.2008.12.024. (原始内容存档于2021-05-25) (英语).

^ Genetic algorithms for reliability design problems. Microelectronics Reliability. 1998-10-01, 38 (10): 1599–1605 [2021-05-25]. ISSN 0026-2714. doi:10.1016/S0026-2714(98)00028-6. (原始内容存档于2021-05-25) (英语).

外部链接[编辑]

Secure Propulsion using Advanced Redundant Control

Using powerline as a redundant communication channel

A new modeling approach to the safety evaluation of N-modular redundant computer systems in presence of imperfect maintenance (页面存档备份,存于互联网档案馆)

查论编职业安全与健康职业病和职业伤害

石绵沉滞症

粉红症

职业性哮喘(英语:Occupational asthma)

气压损伤(英语:Barotrauma)

布鲁氏菌病

减压症

狄奎凡氏症

噪声引起的听力损失(英语:Noise-induced hearing loss)

听觉障碍

医疗照顾相关感染

铅中毒

间皮瘤

肺尘病

煤矿工人肺尘病(CWP)(英语:Coalworker's pneumoconiosis)

重复性劳损(RSI)

矽肺

运动损伤

肱骨外上髁炎(网球肘)

耳鸣

职业卫生

职业安全健康

职业危害

生物性危害

化学性危害(英语:Chemical hazard)

社会心理性危害

物理性危害(英语:Physical hazard)

设计保障安全

职业病

环境、健康和安全(英语:Environment, Health and Safety)

工业与组织心理学

工业社会学

过程安全管理(英语:Process safety management)

公共卫生

安全生产

专业领域

环境健康(英语:Environmental health)

职业健康护理(英语:Occupational health nursing)

职业健康心理学(英语:Occupational health psychology)

职业医学

职能治疗师

工业工程学

安全工程

机构和组织

国际劳工组织

世界卫生组织

欧洲工作安全与健康局(EU-OSHA)(英语:European Agency for Safety and Health at Work)

HSE(英语:Health and Safety Executive)

OSHA(英语:Occupational Safety and Health Administration)

美国国家职业安全卫生研究所

中华人民共和国国家疾病预防控制局

标准

ISO 45001

1981年职业安全与卫生公约(英语:Occupational Safety and Health Convention, 1981)

工人保护标准(英语:Worker Protection Standard)(美国)

安全

应急计划

工程冗馀

风险评估

暴露评估

紧急疏散

危害(英语:Hazard)

标准作业程序

潜水安全(英语:Diving safety)

防具

工作安全分析(英语:Job safety analysis)

立法

潜水规定(英语:Diving regulations)

职业病防治法

美国职业安全卫生法(英语:Occupational Safety and Health Act (United States))

参阅

环境,健康与安全(英语:Environment, health and safety)(EHS)

人因工程学

保健物理学(英语:Health physics)

风险管理

风险评估

安全数据表(MSDS)

工作与生活的平衡

职业过劳

过劳死

血汗工厂

996工作制

工业灾难

矿难

国际化学品安全卡(英语:International Chemical Safety Cards)(ICSC)

职能治疗

公共卫生

室内空气品质

职场霸凌

性骚扰

深圳富士康员工坠楼事件

分类

职业病

组织

维基共享