01
硬件隨機(jī)故障基本類型
為方便理解,在具體談?dòng)布怕驶攘壳?,我們先?lái)看看硬件隨機(jī)失效的基本模式:
由上圖可知,ISO 26262將硬件隨機(jī)故障失效模式,按照發(fā)生故障的數(shù)目,是否可以被探測(cè)以及感知進(jìn)行了分類,其主要特點(diǎn)總結(jié)如下:
單點(diǎn)故障? ?
─ 某個(gè)器件單獨(dú)導(dǎo)致功能失效的故障。
─ 單點(diǎn)故障可直接導(dǎo)致違背安全目標(biāo)。
─ 單點(diǎn)故障意味著沒(méi)有任何安全機(jī)制,否則不能歸類為單點(diǎn)故障。
殘余故障? ?
─ 安全機(jī)制無(wú)法覆蓋的那部分故障(沒(méi)有100%覆蓋率的安全機(jī)制,如果一個(gè)安全機(jī)制覆蓋率為90%,那剩余的10%則屬于殘余故障)。
─ 殘余故障可直接導(dǎo)致違背安全目標(biāo)。
─ 殘余故障至少存在一個(gè)安全機(jī)制。
潛在故障 ??
─ 既不被安全機(jī)制所探測(cè),又不被駕駛員感知的故障。
─ 系統(tǒng)保持正常工作至所有獨(dú)立故障發(fā)生。
─ 潛在故障可直接導(dǎo)致違背安全目標(biāo)。
可探測(cè)的故障
─ 通過(guò)安全機(jī)制可探測(cè)到的那部分故障。 ─ 通過(guò)安全機(jī)制探測(cè)到故障并進(jìn)行顯示。
可感知的故障
─ 可以被駕駛員感知的故障。 ─ 可以有或者無(wú)安全機(jī)制進(jìn)行探測(cè)。
雙點(diǎn)故障? ?
─ 兩個(gè)獨(dú)立的故障同時(shí)發(fā)生才會(huì)違背安全目標(biāo),則這兩獨(dú)立的故障屬于雙點(diǎn)故障。
─ 某故障和其對(duì)應(yīng)的安全機(jī)制失效屬于常見(jiàn)的雙點(diǎn)故障。
─ 雙點(diǎn)故障又細(xì)分為可探測(cè)的雙點(diǎn)故障、可感知的雙點(diǎn)故障以及潛伏的雙點(diǎn)故障。
安全故障 ??
─ 不會(huì)導(dǎo)致違背安全目標(biāo)的故障,例如某指示燈顯示故障,但不影響其正常功能。
─ 三點(diǎn)及以上的故障通常也被認(rèn)為是安全故障(一般發(fā)生概率較低且所對(duì)應(yīng)的安全機(jī)制過(guò)于復(fù)雜,所以歸類為安全故障)。
更多詳細(xì)介紹可以直接參考ISO 26262-10:2018第8部分。
02
硬件隨機(jī)失效率
為了對(duì)硬件隨機(jī)失效進(jìn)行量化,引入了硬件隨機(jī)失效率λ,其定義為:
失效率是指元器件在單位時(shí)間內(nèi)發(fā)生失效的概率,記為λ,一般以小時(shí)(h)作為時(shí)間計(jì)量單位,所以其單位為: 次/h。
考慮到電子元器件失效率極低,所以一般采用FIT (Failures In Time) 來(lái)計(jì)量,1 FIT=1次失效/10^9 h。
例如: 某電阻失效率λ=2 FIT,即該電阻在10^9 h內(nèi)存在兩次失效。
不知道朋友們有沒(méi)有想過(guò),既然電子元器件的失效和自身老化相關(guān),那它的失效率為什么是常數(shù),而不是隨時(shí)間變化的?
為了回答這個(gè)問(wèn)題,我們先來(lái)看看電子元器件的生命周期特性。電子元器件的生命周期非常符合浴盆曲線(Bathtub Curve),如下圖所示:
有圖可知,電子元器件整個(gè)生命周期大致可以分為三個(gè)階段:
第一階段: 早期故障期,即磨合期,該階段故障多屬于系統(tǒng)性故障,和設(shè)計(jì),制造相關(guān),故障率相對(duì)較高。
第二階段: 偶然故障期,即有用壽命期,該階段是電子元器件正常使用周期,持續(xù)時(shí)間長(zhǎng),失效率低且較穩(wěn)定,設(shè)計(jì)無(wú)法消除,屬于隨機(jī)硬件故障,ISO26262 中硬件量化指標(biāo)就是針對(duì)該階段失效率的評(píng)估。
第三階段: 耗損故障期,上隨著電子元器件使用壽命到期,故障率隨之上升。
因此,在ISO 26262中查到的是恒定值,而不是一個(gè)時(shí)間函數(shù)。
那么怎么獲取電子元器件的失效率呢?一般來(lái)講可以通過(guò)以下三種方式獲得:
1
歷史數(shù)據(jù): 根據(jù)已有或相似產(chǎn)品,預(yù)估新產(chǎn)品的失效率,但全新的產(chǎn)品沒(méi)有歷史數(shù)據(jù)可參考。
2
測(cè)試: 屬于最真實(shí)和最準(zhǔn)確的數(shù)據(jù)來(lái)源。但測(cè)試周期長(zhǎng),成本高。
3
行業(yè)公認(rèn)的標(biāo)準(zhǔn): 根據(jù)SN29500, IEC 62380等行業(yè)公認(rèn)的標(biāo)準(zhǔn)和指南中提供的可靠性預(yù)估算法計(jì)算。
03
硬件的架構(gòu)度量
硬件架構(gòu)的度量, 用于評(píng)估相關(guān)項(xiàng)架構(gòu)應(yīng)對(duì)單獨(dú)類型的隨機(jī)硬件失效的有效性。由于硬件隨機(jī)故障中,單點(diǎn)故障、殘余故障和潛伏故障會(huì)直接導(dǎo)致安全目標(biāo)的違背或?qū)崿F(xiàn)有顯著影響,所以硬件架構(gòu)概率度量包含以下兩個(gè)方面:
單點(diǎn)故障度量(single-point fault metric):
1
單點(diǎn)故障度量反映硬件安全機(jī)制或設(shè)計(jì)對(duì)單點(diǎn)和殘余故障的覆蓋是否足夠。
2
高單點(diǎn)故障度量值表示相關(guān)項(xiàng)硬件單點(diǎn)和殘余故障所占比例低,系統(tǒng)可靠性高。
計(jì)算公式:
即: SPFM=1 - (單點(diǎn)故障總和+殘余故障總和) / (所有和安全相關(guān)失效率總和)
其中:
─ λSPF: 單點(diǎn)故障失效率,λRF,est: 估算的殘余故障的失效率,λDC,RF: 殘余故障的診斷覆蓋率。
潛伏故障度量(latent-fault metric-LFM):
1
潛伏故障度量反映硬件安全機(jī)制和設(shè)計(jì)對(duì)潛伏故障的覆蓋是否足夠。
2
高潛伏故障度量值表示硬件潛伏故障所占比例低,系統(tǒng)可靠性高。
計(jì)算公式:
即: LFM=1 - (所有潛伏故障總和) / (所有和安全相關(guān)失效率總和 - 單點(diǎn)故障總和 - 殘余故障總和)
其中:
─ λMPF,L,est: 潛伏故障的估算的失效率,λDC,MPF,L: 潛伏故障的診斷覆蓋率。
─ 由于λ=λSPF+λRF +λMPF +λS,所以殘余故障多為雙點(diǎn)或多點(diǎn)故障MPF。
此外,硬件架構(gòu)度量取決于相關(guān)項(xiàng)的整體硬件,都應(yīng)符合規(guī)定的硬件架構(gòu)度量的目標(biāo)值:
針對(duì)ASIL (B)、C或D的安全目標(biāo),對(duì)于每一個(gè)安全目標(biāo),“單點(diǎn)故障度量”的定量目標(biāo)值應(yīng)基于下列參考目標(biāo)值來(lái)源之一:
針對(duì)ASIL (B)、(C)或?D的安全目標(biāo),對(duì)于每一個(gè)安全目標(biāo),“潛伏故障度量”的定量目標(biāo)值應(yīng)基于下列參考目標(biāo)值來(lái)源之一:
需要注意的是:
1
硬件架構(gòu)的度量是針對(duì)于相關(guān)項(xiàng)的整體硬件,非一個(gè)單獨(dú)的硬件部件,需要考慮所有相關(guān)硬件的失效率。
2
度量指標(biāo),即SPFM和LFM,均屬于相對(duì)值,即百分值%。
04
硬件隨機(jī)失效的評(píng)估
隨機(jī)硬件失效的評(píng)估旨在從硬件整體設(shè)計(jì)的角度,即綜合考慮不同類型硬件隨機(jī)失效,確保硬件系統(tǒng)安全機(jī)制和設(shè)計(jì)的有效性。ISO 26262對(duì)這一評(píng)估推薦了兩個(gè)方法:
方法一: 使用概率的絕對(duì)值的度量, 即隨機(jī)硬件失效概率度量(probabilistic metric for random hardware failures, PMHF),通過(guò)使用定量分析方法計(jì)算PMHF,其結(jié)果與目標(biāo)值相比較的方法,評(píng)估是否違背所考慮的安全目標(biāo)。
方法二: 獨(dú)立評(píng)估每個(gè)單點(diǎn)和殘余故障及每個(gè)雙點(diǎn)故障是否導(dǎo)致違背所考慮的安全目標(biāo)。
一般在實(shí)際應(yīng)用中都采用第一種方法,即PMHF。關(guān)于PMHF計(jì)算公式網(wǎng)上有很多誤解,在ISO 26262-10:2018,第8.3章節(jié)增加了有關(guān)PMHF計(jì)算的進(jìn)一步解釋。一般來(lái)講,PMHF通用化計(jì)算公式如下: ? PMHF=∑λSPF?+ ∑λRF?+ ∑λDPF_det × λDPF_latent × TLifetime ? 其中:
─ λSPF: 單點(diǎn)故障的失效率,λRF: 殘余故障的失效率,λDPF_det: 雙點(diǎn)故障的可探測(cè)失效率,λDPF_latent: 雙點(diǎn)故障的潛伏失效率。
─ TLifetime:?車輛生命周期。
需要注意的是: ?
1
PMHF表示在汽車運(yùn)行周期中每小時(shí)平均失效概率,包括了對(duì)單點(diǎn)失效,殘余失效,可探測(cè)的以及殘余的雙點(diǎn)失效的綜合量化衡量。
2
PMHF單位為FIT,屬于失效率絕對(duì)值度量,而硬件架構(gòu)度量指標(biāo)SPFM,LFM單位為%,屬于相對(duì)值度量。
3
除基本硬件隨機(jī)基本故障的失效率以外,PMHF還需要考慮車輛生命周期(TLifetime)。
4
對(duì)于雙點(diǎn)故障(A,B),最常見(jiàn)的組合是功能故障A和對(duì)應(yīng)的安全機(jī)制B,當(dāng)故障A發(fā)生且不被安全機(jī)制B探測(cè),并不會(huì)立刻違背安全目標(biāo);但如果安全機(jī)制B也發(fā)生故障,將違背安全目標(biāo)。
很對(duì)朋友搞不清楚為什么雙點(diǎn)故障失效率計(jì)算是λDPF_det,?λDPF_latent, TLifetime這三個(gè)因素的乘積?
其實(shí)該公式已經(jīng)屬于簡(jiǎn)化后的計(jì)算公式,在ISO 26262-10:2018對(duì)典型的雙點(diǎn)故障不同的失效模式進(jìn)行了分析,一共包含了4個(gè)Patterns,功能發(fā)生故障A且對(duì)應(yīng)的安全機(jī)制B潛伏這種Pattern下,雙點(diǎn)故障會(huì)在整個(gè)車輛生命周期永久潛伏,影響最大,因此故障A和故障B組合違背安全目標(biāo)的每小時(shí)平均失效概率為λDPF_det,?λDPF_latent, TLifetime這三個(gè)因素的乘積,雙點(diǎn)故障失效計(jì)算因此也簡(jiǎn)化為該P(yáng)attern下的失效率,具體見(jiàn)ISO 26262-10:2018。
如果這部分?jǐn)?shù)值較小,則可忽略,這也是為什么在很多計(jì)算中沒(méi)有考慮這部分的原因。
此外,雖然失效率λ和PMHF單位均為FIT,屬于絕對(duì)值度量,但二者意義完全不同,主要體現(xiàn)在以下幾點(diǎn): ?
針對(duì)級(jí)別不同
─?失效率: 單個(gè)硬件組件。
─?PMHF:?整個(gè)相關(guān)項(xiàng)硬件。
?代表意義不同
─?失效率:?表示單位時(shí)間內(nèi)單個(gè)硬件組件或零部件發(fā)生故障的次數(shù)或概率。
─?PMHF: 用于衡量硬件安全設(shè)計(jì)是否足夠有效。具體來(lái)講就是,相對(duì)于指定的ASIL等級(jí)要求,由于相關(guān)項(xiàng)的隨機(jī)硬件故障而導(dǎo)致的安全目標(biāo)被破壞的風(fēng)險(xiǎn)是否足夠低。PMHF并不顯示隨機(jī)硬件故障發(fā)生的頻率。即便一個(gè)硬件組件的故障率很高,但由于良好的硬件架構(gòu),包括安全機(jī)制,整體的PMHF也可能較低。
此外,隨機(jī)硬件失效度量取決于相關(guān)項(xiàng)整體硬件,需要分析計(jì)算不同安全目標(biāo)對(duì)應(yīng)的PMHF值,并且符合規(guī)定的隨機(jī)硬件失效率度量目標(biāo)值: 針對(duì)ASIL (B)、C或D的安全目標(biāo),必須為隨機(jī)硬件失效導(dǎo)致違背每個(gè)安全目標(biāo)的最大可能性定義定量目標(biāo)值,其使用來(lái)源包括以下a)、b)或c):
a) 來(lái)自表6;或
b) 來(lái)自值得信賴的相似設(shè)計(jì)原則的現(xiàn)場(chǎng)數(shù)據(jù);或
c) 來(lái)自應(yīng)用于值得信賴的相似設(shè)計(jì)原則中的定量分析技術(shù)。
此處需要注意的是:
表6提供的PMHF定量目標(biāo)值只是一種可能性,并不是唯一的依據(jù)。
這些來(lái)源于a)、b)或c)的定量目標(biāo)值沒(méi)有任何絕對(duì)的意義,僅有助于將一個(gè)新的設(shè)計(jì)與已有設(shè)計(jì)相比較。其目的是生成硬件可靠性設(shè)計(jì)指導(dǎo),并獲得設(shè)計(jì)符合安全目標(biāo)的可用證據(jù)。
當(dāng)沒(méi)有其他來(lái)源可以確定隨機(jī)硬件故障失效目標(biāo)值,通常會(huì)選擇表6提供的目標(biāo)數(shù)據(jù)。
審核編輯:劉清
評(píng)論