當(dāng)我們談及AI芯片,腦海中不免都會(huì)想起TOPS、L4/L5自動(dòng)駕駛、圖像識(shí)別和處理算法等詞。但在初創(chuàng)企業(yè)、芯片大廠紛紛追逐“AI熱“的情況下,芯片的可靠性成了一個(gè)大問(wèn)題,甚至對(duì)終端應(yīng)用也有較大的影響。
自動(dòng)駕駛故障,不止OEM要擔(dān)責(zé)
經(jīng)常關(guān)注汽車新聞的讀者想必都很清楚,近年來(lái)因?yàn)樽詣?dòng)/輔助駕駛引發(fā)的事故越來(lái)越多,起因多種多樣,但很少會(huì)將其追溯到芯片上。有的車企為了追求快速上市,其AI芯片很可能只有AEC-Q100認(rèn)證,而沒(méi)有ISO 26262這樣的功能安全認(rèn)證,在他們看來(lái)這些標(biāo)準(zhǔn)太過(guò)
“傳統(tǒng)”了,對(duì)于產(chǎn)品的創(chuàng)新流程來(lái)說(shuō)有些多余了。
這在消費(fèi)者眼里也是如此,我們對(duì)功能的感知是最為直觀的,而對(duì)故障的感知只要在接受范圍來(lái)就好。這就使得此類車廠可以以一種“手機(jī)APP”開(kāi)發(fā)式的模式運(yùn)作,實(shí)現(xiàn)快速迭代。然而,這并不代表功能安全可以被忽視,畢竟當(dāng)壞事落在自己頭上時(shí),總得要個(gè)說(shuō)法吧。
在實(shí)現(xiàn)功能安全的過(guò)程中,從提出要求、架構(gòu)、設(shè)計(jì)、編程到測(cè)試階段,都有對(duì)應(yīng)的確認(rèn)與驗(yàn)證工作,然而通過(guò)驗(yàn)證是一回事,能否實(shí)現(xiàn)追溯就是另一回事了。比如設(shè)計(jì)上的改動(dòng)可能會(huì)違背芯片要求等等,最終導(dǎo)致實(shí)際性能不符等問(wèn)題,所以在功能安全開(kāi)發(fā)設(shè)計(jì)和認(rèn)證的過(guò)程中,必須要做到可追溯。
Harmony Trace芯片設(shè)計(jì)追溯 / Arteris
IP廠商Arteris提出了一個(gè)追溯方案名為Harmony Trace,幫助芯片廠商更好地實(shí)現(xiàn)功能安全。Harmony Trace在這些分散的流程系統(tǒng)之間創(chuàng)造了一層整合系統(tǒng),用于追蹤半導(dǎo)體產(chǎn)品壽命周期中的所有失誤。一旦違反芯片要求的錯(cuò)誤出現(xiàn),這套系統(tǒng)就會(huì)通知工程師這項(xiàng)改動(dòng)需要進(jìn)行檢查,從而自動(dòng)化車規(guī)認(rèn)證的審查流程。當(dāng)然了,芯片開(kāi)發(fā)廠商所用的開(kāi)發(fā)工具流都是不盡相同的,所以Harmony Trace也提供了對(duì)現(xiàn)有主流EDA工具、認(rèn)證流程的支持。
在自動(dòng)駕駛安全標(biāo)準(zhǔn)繼續(xù)演進(jìn),ISO 21448和UL4600等標(biāo)準(zhǔn)提出的額外要求下,在AI芯片設(shè)計(jì)中保證可追溯性或許是縮短產(chǎn)品開(kāi)發(fā)認(rèn)證周期的一條捷徑。
可靠性第一
事實(shí)證明,不止自動(dòng)駕駛領(lǐng)域,云端同樣需要可靠的AI計(jì)算芯片。我們從現(xiàn)在的云端計(jì)算集群來(lái)看,多個(gè)節(jié)點(diǎn)為云服務(wù)提供了強(qiáng)大的計(jì)算能力,但正是因?yàn)檫@般復(fù)雜的架構(gòu),每一個(gè)節(jié)點(diǎn)都有可能成為整個(gè)系統(tǒng)的阿喀琉斯之踵。
這樣的案例我們也見(jiàn)多了,甚至開(kāi)始影響到我們的生活,熱搜上時(shí)不時(shí)就會(huì)冒出“某某應(yīng)用崩了”的消息,互聯(lián)網(wǎng)公司經(jīng)受的服務(wù)器故障可謂數(shù)不勝數(shù),而且苦于定位故障來(lái)源,這其中,芯片也脫離不了干系。
造成這些后果的芯片可靠性問(wèn)題主要有三種,早期失效(ELF)和正常設(shè)備運(yùn)行下的隨機(jī)失效,還有不可避免的設(shè)備老化。芯片都是有著工作壽命的,所以最后一項(xiàng)難以從設(shè)計(jì)上解決,最多盡可能延長(zhǎng)其壽命,而前面兩者才是當(dāng)下云端需要提防的問(wèn)題。
常見(jiàn)的早期失效有閘極氧化層失效、老化效果不好和軟擊穿等,隨機(jī)失效很多與運(yùn)行環(huán)境有關(guān),比如溫度過(guò)高、輻射過(guò)高等等。
為了進(jìn)一步讓AI芯片免受這些可靠性問(wèn)題的影響,初創(chuàng)公司Ceremophic公布了自己研發(fā)的QS1芯片。這是一款基于5nm工藝的分層學(xué)習(xí)芯片,集成了2GHz自定義機(jī)器學(xué)習(xí)處理器、2GHz的自定義FPU處理機(jī)器學(xué)習(xí)計(jì)算,還有一個(gè)基于ThreadArch的RISC-V處理器和ARM Cortex-M55應(yīng)用處理器,Ceremophic稱后者主要用于元宇宙相關(guān)應(yīng)用的視頻處理。在接口方面,該芯片支持到x16 PCIe6.0/CXL 3.0。
那么這款芯片在可靠性上的亮點(diǎn)又有哪些呢?Ceremophic稱對(duì)于早期失效而言,他們選用了高效的ASIC實(shí)現(xiàn)方式來(lái)使用抗ELF的邏輯庫(kù),在正確的邏輯單元組合下以最小的設(shè)計(jì)開(kāi)銷做到低ELF。
而在面對(duì)隨機(jī)失效上,Ceremophic用到了自己的多線程技術(shù),利用兩個(gè)多線程處理器運(yùn)行同一程序,一旦檢測(cè)到錯(cuò)誤,就會(huì)利用多個(gè)結(jié)果來(lái)做出表決,并進(jìn)行修正,接著程序執(zhí)行會(huì)直接從檢測(cè)到錯(cuò)誤發(fā)生的地方開(kāi)始運(yùn)行,而不是一個(gè)未知的安全起始點(diǎn),消耗更多的功耗。
在傳統(tǒng)的高可靠性設(shè)計(jì)中,往往都得采用高成本的解決方案,比如冗余,就像是需要在兩個(gè)地方做同一件事,帶來(lái)計(jì)算資源和功耗的雙重增加。不僅如此,解決方式也需要消耗更多的運(yùn)行周期,這也是為何云端服務(wù)器出現(xiàn)故障后,不能快速恢復(fù)的原因。
-
芯片
+關(guān)注
關(guān)注
460文章
52520瀏覽量
441021 -
AI
+關(guān)注
關(guān)注
88文章
35164瀏覽量
280007 -
AI芯片
+關(guān)注
關(guān)注
17文章
1983瀏覽量
35915
發(fā)布評(píng)論請(qǐng)先 登錄
大算力芯片的生態(tài)突圍與算力革命
DeepSeek推動(dòng)AI算力需求:800G光模塊的關(guān)鍵作用
TLK2711的數(shù)字地可不可以接普通的數(shù)字地?
請(qǐng)問(wèn)TLV1570的AIN引腳的作用是什么,可不可以懸空處理?

請(qǐng)問(wèn)ADC161S626可不可以與DSP的MCASP連接?
企業(yè)AI算力租賃是什么
AI算力芯片供電電源測(cè)試?yán)?費(fèi)思低壓大電流系列電子負(fù)載

評(píng)論