chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

一文讀懂 | 識別靜默數(shù)據(jù)損壞的來源

PDF Solutions ? 2025-09-19 18:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Laura Peters

文章來源:https://semiengineering.com/identifying-sources-of-silent-data-corruption/


在大型數(shù)據(jù)中心,靜默數(shù)據(jù)錯誤(SDE,Silent Data Errors)正引發(fā)廣泛擔憂 —— 這類錯誤會在系統(tǒng)內(nèi)傳播,對 AI 訓練任務等長時間運行的程序造成嚴重影響。


從技術角度看,靜默數(shù)據(jù)錯誤(又稱靜默數(shù)據(jù)損壞-SDC,Silent Data Corruption)本身并不常見。但在由數(shù)千臺服務器組成的集群中(這些服務器搭載數(shù)百萬臺高利用率運行的處理器芯片),這類破壞性事件卻變得十分普遍。盡管任務模式測試正捕獲更多靜默數(shù)據(jù)錯誤,但事實證明,要檢測出所有數(shù)據(jù)損壞錯誤,其復雜程度遠超預期 ——這需要對設計、制造、可測試性設計(DFT)、測試流程,以及軟硬件運維環(huán)節(jié)進行針對性調(diào)整。


新思科技(Synopsys)工程架構(gòu)總監(jiān) Jyotika Athavale指出:“當受影響的器件處理數(shù)據(jù)時,若無意中導致所處理數(shù)據(jù)出現(xiàn)未被察覺的錯誤,便會引發(fā)靜默數(shù)據(jù)損壞。例如,受影響的中央處理器(CPU)可能在完全沒有數(shù)據(jù)損壞提示的情況下,對數(shù)據(jù)進行錯誤計算。如今,計算密集型機器學習算法需在數(shù)萬個節(jié)點上執(zhí)行,這類數(shù)據(jù)損壞可能在不觸發(fā)任何警報的情況下破壞整個數(shù)據(jù)集,而解決此類問題往往需要數(shù)月時間,進而帶來巨額成本損失。此外,該問題的復雜性與規(guī)模也使其難以通過主動措施防范;更關鍵的是,芯片生產(chǎn)周期較長,針對靜默數(shù)據(jù)損壞(SDC)的修復方案可能需要數(shù)年時間才能在新硬件中落地。”


靜默數(shù)據(jù)錯誤的棘手之處在于,其并非源于單一來源或單一機制。普迪飛(PDF Solutions )首席技術官 Andrzej Strojwas 表示:“靜默數(shù)據(jù)損壞(SDC)的潛在根本原因繁多。有人認為最可能的誘因是測試疏漏,但許多此類故障只有在實際應用環(huán)境中被觸發(fā)后才會顯現(xiàn)。例如,由于嚴苛的容差要求和形形色色的布局模式,晶體管層面可能存在漏電這類系統(tǒng)性缺陷。測試過程中可能遺漏對特定模式的敏感性檢測,進而演變?yōu)榭煽啃詥栴}。此外,器件老化也是重要因素,會導致閾值電壓發(fā)生變化。不過,通過適當?shù)臏y試結(jié)構(gòu)設計,這些問題都可得到有效應對?!?/p>


靜默數(shù)據(jù)損壞(SDC)可能發(fā)生在硅片全生命周期的任何階段,這也是業(yè)界采用多種硅生命周期管理方法應對此類錯誤的核心原因。


西門子 EDA(Siemens)旗下 Tessent 部門工程副總裁Janusz Rajski解釋道:“要消除早期失效現(xiàn)象,必須通過壓力測試加速器件老化。生產(chǎn)階段則需采用高質(zhì)量、確定性的測試方法,同時在系統(tǒng)內(nèi)也需執(zhí)行相同的測試流程。部分企業(yè)會在核心閑置時開展測試,也有企業(yè)將其作為預防性維護措施,按周或按月定期執(zhí)行,但無論哪種方式,系統(tǒng)內(nèi)的測試都會非常全面 —— 這無疑是一項重大變革?!?/p>


5955f0ac-9540-11f0-8ce9-92fbcf53809c.png

(圖 1:器件全生命周期內(nèi)的半導體故障率。來源:西門子EDA )


Janusz Rajski補充道:“靜默數(shù)據(jù)損壞(SDC)是個亟待解決的嚴重問題。多家企業(yè)發(fā)布的數(shù)據(jù)顯示,每 1000 臺服務器中,約有 1 臺可能受到此類問題影響。顯然,在任務關鍵型或安全關鍵型應用中,其影響會更為嚴重。超大規(guī)模數(shù)據(jù)中心最先發(fā)現(xiàn)這一問題,正是因為其處理器數(shù)量龐大,但實際上其他領域也存在類似情況。”

在測試層面,工程師們也在深入研究芯片架構(gòu)優(yōu)化方向。愛德萬測試(Advantest)應用研究與技術副總裁Ira Leventhal表示:“我們需要一種我稱之為‘架構(gòu)感知測試’的方法 —— 因為在邏輯芯片中,只有特定的計算單元才有可能將故障傳播至整個網(wǎng)絡。因此,核心思路也就變成了‘將特定測試向量聚焦于核心的這些關鍵區(qū)域’—— 不僅要采用傳統(tǒng)掃描測試并核驗結(jié)果,還需將部分功能測試整合到自動測試設備(ATE)的測試環(huán)節(jié)中?!?/p>


測試越接近任務模式,就越容易捕獲靜默數(shù)據(jù)錯誤導致的故障結(jié)果。


Ira Leventhal指出:“我們可在 93k 測試工具上使用 LinkScale 卡,通過高速接口開展掃描測試,本質(zhì)上是讓器件按照實際任務模式的運行邏輯工作。這種情況下,無需像系統(tǒng)級測試那樣運行全套測試場景,只需聚焦核心的特定區(qū)域,通過特定方式驅(qū)動器件運行,即可觸發(fā)靜默數(shù)據(jù)損壞(SDC)問題。這在異構(gòu)集成場景中尤為重要 —— 我們需在芯片級發(fā)現(xiàn)所有潛在問題,確保芯片具備抵御靜默數(shù)據(jù)損壞的能力。這類措施能幫助我們在問題管控中占據(jù)主動?!?/p>


然而,即便在測試環(huán)節(jié)占據(jù)主動,企業(yè)也逐漸意識到,解決靜默數(shù)據(jù)損壞(SDC)問題真正需要的是整個供應鏈的協(xié)同。盡管器件制造商、測試企業(yè)與可測試性設計(DFT)提供商之間的合作已催生出更完善的篩選與緩解方案,但隨著器件和系統(tǒng)復雜度不斷提升,靜默數(shù)據(jù)錯誤問題只會愈發(fā)嚴峻,因此行業(yè)仍需長期策略支撐。例如,Meta 正探索如何提升應用對靜默數(shù)據(jù)損壞的容錯能力。Meta 工程總監(jiān)斯里Sriram Sankar表示:“我們正在推進一項長期工作,旨在改進并推廣具備內(nèi)在抗靜默數(shù)據(jù)損壞(SDC)能力的架構(gòu)解決方案與設計模式?!?/p>


鑒于整個供應鏈解決靜默數(shù)據(jù)損壞(SDC)問題的緊迫性,OCP啟動了 “服務器組件彈性工作流” 項目,參與者包括AMD、安謀Arm、谷歌Google、英特爾Intel、微軟Microsoft、Meta 和英偉達NVIDIA等多家企業(yè)。去年 6 月,該項目為六個以解決靜默數(shù)據(jù)錯誤(SDE)為目標的研究項目提供了資金支持。


其他企業(yè)也認為,這一領域需要研究界的深度參與。谷歌工程總監(jiān)Rama Govindaraju在近期的小組討論中表示:“僅依靠過往的方法,無法顯著推動問題的解決進程。 這一領域需要更多創(chuàng)新性研究,因為它需要更全面的解決方案,且必須引入新想法、創(chuàng)新性思路。靜默數(shù)據(jù)損壞(SDC)是個極其復雜的問題,需要開發(fā)大量研究成果和端到端解決方案?!?/strong>


追溯靜默數(shù)據(jù)損壞(SDC)的根源,需從設計階段著手。新思科技杰出架構(gòu)師Adam Cron指出:“我們曾交流過的一家芯片設計企業(yè)表示,即便是設計錯誤,也可能成為靜默數(shù)據(jù)錯誤(SDE)的來源。硅后驗證工具可為多線程應用生成邊界情況工作負載;隨后,在制造測試和現(xiàn)場測試階段,借助硅后激勵器可在硅片層面發(fā)現(xiàn)設計錯誤。這些測試也可用于仿真和驗證環(huán)節(jié),以判斷設計邏輯是否存在問題。但有時,只有借助實際流片的硅片,才能發(fā)現(xiàn)這些特殊錯誤?!?/p>


Adam Cron特別強調(diào),流片制造的實際硅片對于識別新故障(尤其是新工藝節(jié)點下的故障)至關重要:“內(nèi)存有時需要針對新工藝的內(nèi)建自測試(BiST)算法,以發(fā)現(xiàn)這些新的缺陷特征。通過流片制造實際硅片,是防范特定設計風格或物理布局方案日后演變?yōu)殪o默數(shù)據(jù)錯誤(SDE)的有效保障?!?/p>


目前,半導體行業(yè)在兩方面取得了顯著進展:一是通過測試更有效地篩選缺陷,二是通過軟件管控靜默數(shù)據(jù)錯誤(SDE)造成的損害。然而,設計中的 “邊際性”(marginality)和工藝中的變異性,可能是靜默數(shù)據(jù)損壞(SDC)的核心誘因,且這類誘因極難察覺。有些潛伏性缺陷能通過所有測試和檢查,但一旦處于實際應用環(huán)境中,就可能在現(xiàn)場發(fā)生故障。


泰瑞達(Teradyne)技術與營銷總監(jiān)Nitza Basoco解釋道:“就靜默數(shù)據(jù)錯誤(SDE)而言,某些知識產(chǎn)權(IP)模塊可能存在邊際性問題,但在‘零時刻’(time zero,即出廠時)仍可通過測試。然而,當信號路徑與環(huán)境條件呈現(xiàn)特定組合時,這類邊際性缺陷可能演變?yōu)殛P鍵性缺陷。而且,由于缺陷對多種因素的組合敏感,其是否會導致故障具有不確定性。”


盡管傳統(tǒng)測試是在故障發(fā)生后進行檢測,但部分策略已轉(zhuǎn)向預防導向。proteanTecs 聯(lián)合創(chuàng)始人兼首席技術官 Evelyn Landman表示:“我們專注于預測這些故障 —— 如今,一個主要問題是,這些故障會反饋給設備供應商,而供應商需投入巨額資源進行故障分析。在很多情況下,他們無法復現(xiàn)故障,導致‘未發(fā)現(xiàn)故障’(no trouble found,簡稱 NTF)率居高不下。我們的核心目標是從源頭避免故障發(fā)生。我們發(fā)現(xiàn),在未采用我們方法的案例里,部分退回的故障芯片存在缺陷,而通過我們的方法本可提前發(fā)現(xiàn)這些問題?!?/p>


例如,借助對漏電流敏感的專用工藝監(jiān)視器,結(jié)合模型可預測每顆芯片的預期漏電流。若實際漏電流超過預期值,即表明可能存在導致靜默數(shù)據(jù)錯誤的缺陷。


第二種方法是通過遙測監(jiān)視器追蹤時序余量 —— 時序余量的變化是預測故障的關鍵指標。時序余量變化可能由多種因素引起,例如連接松動導致金屬線電阻升高,或特征粗糙度導致晶體管計算速度變慢。


時序延遲還與故障傳播路徑密切相關:若時序延遲沿短路徑傳播,微小延遲可能不會被察覺;若沿較長的關鍵路徑傳播,即便微小延遲也可能導致故障。然而,所有這些監(jiān)視器都會占用硅片面積,產(chǎn)生成本開銷。尤其是在先進工藝節(jié)點下,器件可集成的傳感器數(shù)量有限,一旦空間耗盡便無法再增加。因此,遙測傳感器的部署必須經(jīng)過周密規(guī)劃,優(yōu)先部署在最關鍵的位置。


靜默數(shù)據(jù)錯誤發(fā)生率上升的部分原因,可能與芯片處于高壓力運行模式的時間增加有關。


Nitza Basoco指出:“系統(tǒng)級芯片(SoC)的設計初衷并非使其以最高電壓、最高頻率、高功耗狀態(tài) 24 小時不間斷運行 —— 原本設計的高負載運行時長本就較短。但如今,芯片大部分時間都處于高壓力環(huán)境中,因此故障風險顯著升高。我們需要明確芯片的實際運行工況,并調(diào)整相關設計或運行參數(shù),以確保這些器件在與認證環(huán)境差異極大的工況下,仍能保持較長的使用壽命?!?/p>


Ira Leventhal提出了靜默數(shù)據(jù)損壞的三大管控方法:“在靜默數(shù)據(jù)損壞問題的管控方面,我們有三種核心手段 —— 檢測錯誤、降低錯誤發(fā)生率、構(gòu)建缺陷容錯系統(tǒng)。這三種手段必須同時采用。我把它比作通信領域的問題應對邏輯:我們從不期望通信鏈路絕對可靠,因此始終會執(zhí)行錯誤檢查。若系統(tǒng)檢測到錯誤,便會啟動重試機制 —— 這是預期的運行模式?!?/p>


此外,針對靜默數(shù)據(jù)損壞(SDC)的測試并非孤立進行。Adam Cron補充道:“任何用于檢測缺陷組件的設計結(jié)構(gòu),都有助于發(fā)現(xiàn)那些故障時會‘靜默失效’的器件。目前尚無專門針對靜默數(shù)據(jù)錯誤的工具,但任何可反映硅片整體質(zhì)量狀況的特征都十分有用。例如,將工藝監(jiān)視器與異常值檢測分析技術相結(jié)合,可幫助篩選出可能在現(xiàn)場出現(xiàn)問題的芯片。”


由于 Meta、谷歌等企業(yè)已找到通過軟件管控靜默數(shù)據(jù)錯誤的方法,行業(yè)對這類錯誤的警報聲已有所緩和。Nitza Basoco 提醒道:“目前,問題已得到初步控制,但如果靜默數(shù)據(jù)錯誤(SDE)的發(fā)生率上升到現(xiàn)有管控措施或臨時應對方案無法應對的程度,行業(yè)必須提前做好準備?!?/p>

行業(yè)也在積極針對多芯片組件采取預防措施。Janusz Rajski表示:“適用于 3D 集成電路(3D-IC)的可測試性設計(DFT)架構(gòu)正逐步形成,該架構(gòu)會將靜默數(shù)據(jù)損壞錯誤和設計規(guī)模不斷擴大的問題納入考量。測試壓縮并非新技術,但在這些核心中的應用已非常普遍。其次,流掃描網(wǎng)絡(可實現(xiàn)打包數(shù)據(jù)在不同核心間的傳輸)已應用于大多數(shù)大型設計,能以極高速度傳輸數(shù)據(jù)。我們還在開發(fā) iJTAG 技術,以支持對大量儀器進行并行編程。在去年的國際測試會議(ITC)上,我們推出了在線測試(in-system test)技術,該技術可提供確定性測試能力,尤其適用于關注靜默數(shù)據(jù)錯誤或有特定可靠性、可用性與可維護性(RAS)需求的客戶。最后,還需借助監(jiān)視器掌握工藝邊界(如工藝 - 電壓 - 溫度(PVT)邊界),部署時序裕量傳感器、路徑傳感器等結(jié)構(gòu)傳感器,同時將傳感器讀數(shù)與測試結(jié)果進行關聯(lián)分析。”


PDF

結(jié)語


盡管通過可測試性設計(DFT)、工藝監(jiān)視器和更全面的測試流程,制造和測試階段捕獲的靜默數(shù)據(jù)錯誤數(shù)量不斷增加,但在識別靜默數(shù)據(jù)錯誤(SDE)的所有根本原因、降低其造成的影響,以及防止其在數(shù)據(jù)中心內(nèi)部傳播方面,行業(yè)仍有很長的路要走。

盡管如此,領先企業(yè)已積極采取行動:他們不僅采用更全面的基于任務模式的測試方法,還引入了系統(tǒng)內(nèi)測試技術。超大規(guī)模數(shù)據(jù)中心運營商、集成電路(IC)制造商、測試企業(yè)、可測試性設計(DFT)提供商和 EDA 企業(yè)之間加強數(shù)據(jù)共享與協(xié)作,將有助于形成更全面的解決方案,同時避免供應鏈內(nèi)部出現(xiàn)勞動重復的情況。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    讀懂接口模塊的組合應用有哪些?

    讀懂接口模塊的組合應用有哪些?
    發(fā)表于 05-17 07:15

    讀懂如何去優(yōu)化AC耦合電容?

    讀懂如何去優(yōu)化AC耦合電容?
    發(fā)表于 06-08 07:04

    讀懂什么是NEC協(xié)議

    讀懂什么是NEC協(xié)議?
    發(fā)表于 10-15 09:22

    讀懂中斷方式和輪詢操作有什么區(qū)別嗎

    讀懂中斷方式和輪詢操作有什么區(qū)別嗎?
    發(fā)表于 12-10 06:00

    讀懂傳感器的原理與結(jié)構(gòu)

    讀懂傳感器傳感器在原理與結(jié)構(gòu)上千差萬別,如何根據(jù)具體的測量目的、測量對象以及測量環(huán)境合理地選用傳感器,是在進行某個量的測量時首先要解決的問題。當傳感器確定之后,與之相配套的測量方法和測量設備也就
    發(fā)表于 01-13 07:08

    讀懂NB-IoT 的現(xiàn)狀、挑戰(zhàn)和前景

    讀懂 NB-IoT 的現(xiàn)狀、挑戰(zhàn)和前景
    的頭像 發(fā)表于 02-28 15:42 ?7659次閱讀

    讀懂,電容如何識別資料下載

    電子發(fā)燒友網(wǎng)為你提供讀懂,電容如何識別資料下載的電子資料下載,更有其他相關的電路圖、源代碼、課件教程、中文資料、英文資料、參考設計、用戶指南、解決方案等資料,希望可以幫助到廣大的電
    發(fā)表于 04-17 08:47 ?3次下載
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>,電容如何<b class='flag-5'>識別</b>資料下載

    讀懂MCU的特點、功能及如何編寫

    讀懂MCU的特點、功能及如何編寫
    發(fā)表于 12-05 09:51 ?24次下載
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>MCU的特點、功能及如何編寫

    讀懂,什么是BLE?

    讀懂,什么是BLE?
    的頭像 發(fā)表于 11-27 17:11 ?4870次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>,什么是BLE?

    讀懂車規(guī)級AEC-Q認證

    讀懂車規(guī)級AEC-Q認證
    的頭像 發(fā)表于 12-04 16:45 ?2186次閱讀

    讀懂微力扭轉(zhuǎn)試驗機的優(yōu)勢

    讀懂微力扭轉(zhuǎn)試驗機的優(yōu)勢
    的頭像 發(fā)表于 11-30 09:08 ?1424次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>微力扭轉(zhuǎn)試驗機的優(yōu)勢

    讀懂新能源汽車的功能安全

    電子發(fā)燒友網(wǎng)站提供《讀懂新能源汽車的功能安全.pdf》資料免費下載
    發(fā)表于 09-04 09:22 ?4次下載

    讀懂MSA(測量系統(tǒng)分析)

    讀懂MSA(測量系統(tǒng)分析)
    的頭像 發(fā)表于 11-01 11:08 ?2428次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>MSA(測量系統(tǒng)分析)

    讀懂單燈控制器工作原理

    讀懂單燈控制器工作原理
    的頭像 發(fā)表于 11-11 13:13 ?2747次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>單燈控制器工作原理

    如何處理復雜的靜默數(shù)據(jù)損壞問題

    在本系列的第篇文章中,我們探討了靜默數(shù)據(jù)損壞(Silent Data Corruption,SDC)的定義及其對當前計算數(shù)據(jù)狀況的影響。為
    的頭像 發(fā)表于 11-21 18:01 ?1652次閱讀