chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

如何處理復雜的靜默數(shù)據(jù)損壞問題

新思科技 ? 來源:新思科技 ? 2024-11-21 18:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在本系列的第一篇文章中,我們探討了靜默數(shù)據(jù)損壞(Silent Data Corruption,SDC)的定義及其對當前計算數(shù)據(jù)狀況的影響。為此,我們再次邀請了谷歌的首席工程師Rama Govindaraju和微軟的硬件架構合伙人Robert S. Chappell共同探討解決這一棘手問題的可行方案。

回顧一下,靜默數(shù)據(jù)損壞是指受影響的CPU在處理數(shù)據(jù)時無意中引發(fā)錯誤。這些錯誤可能會長時間潛伏而不被發(fā)現(xiàn),進而悄無聲息地破壞整個數(shù)據(jù)集。

隨著計算機處理能力的飛速提升,尤其是伴隨內(nèi)存密集型人工智能AI)及其他前沿技術的廣泛應用,SDC的風險日益加劇,可能導致大量數(shù)據(jù)的損壞,進而引發(fā)難以預估且影響深遠的問題。

SDC問題亟待解決,那我們應該如何應對呢?

處理復雜的靜默數(shù)據(jù)損壞問題

當前,SDC的成因尚未明確,且解決方案尚處于初級階段。

SDC所面臨的一大挑戰(zhàn)是決策者未投入充足資源來根本性地解決該問題,而僅僅是在癥狀顯現(xiàn)時采取臨時緩解措施?!斑@要花多少錢?”是常見的反對理由,通常也是SDC未得到根本解決的原因,畢竟定期執(zhí)行掃描以及改進芯片制造工藝等諸多措施的成本過高。

最終,成本問題成為了開發(fā)實際解決方案的絆腳石。如果成本過高,為什么還要去研究解決方案呢?但這正是悖論所在:如果開發(fā)出了解決方案,就可以進一步研究降低成本和擴大應用的方法。

解決SDC的責任不應僅落在芯片開發(fā)者身上,制造商以及更廣泛的利益相關方也應參與其中。即使現(xiàn)有的每個芯片都完美無瑕,SDC問題仍然會發(fā)生。然而,芯片生命周期的每一個環(huán)節(jié)都可能存在相關的解決方案,且或?qū)Υ税l(fā)揮積極作用。

如今,制造商缺乏應對SDC的動力。如果客戶收到有故障或缺陷的芯片,通常只需退換即可。這種做法雖然可行,但并未從根本上解決問題。如果激勵機制發(fā)生改變,相應的行為模式也會隨之變化。例如,如果芯片開發(fā)者可以向制造商證明某個芯片存在缺陷,而制造商必須為此支付50倍于芯片成本的賠償,那么制造商就會更自覺地采取預防措施。

此外,早期的篩查和測試有助于盡早發(fā)現(xiàn)SDC,從而留出補救時間。就比如您汽車上的傳感器。許多傳感器并不是汽車正常運行所必需的,而是用于提醒用戶可能存在的問題。

在芯片領域,某些故障可能隱藏了一兩年之久,等到發(fā)現(xiàn)時往往為時已晚。芯片中的傳感器可以發(fā)出預警或警告,雖然這只是權宜之計,但可以在過渡階段提供有效幫助。

解決SDC面臨的一大難題在于,解決方案需要廣泛覆蓋。具體來說,真正有效的解決方案應涵蓋芯片開發(fā)者、供應商、云和數(shù)據(jù)管理者及其他相關方等等所有環(huán)節(jié)。

有望解決靜默數(shù)據(jù)損壞的工具和方法

解決SDC的另一難點在于我們對其發(fā)生機制和原因知之甚少。不知彼,不知己,每戰(zhàn)必貽。因此,我們需要更多能夠廣泛共享、分析和研究的數(shù)據(jù)。此外,行業(yè)也應允許并鼓勵研究人員和開發(fā)者聚焦于SDC問題。

識別數(shù)據(jù)中的異常點、采取糾正措施、診斷癥狀、關注時間延遲或數(shù)據(jù)泄漏等警示跡象,以及其他許多診斷選項,將有助于揭開SDC的神秘面紗。然后,通過調(diào)整策略,我們也許能夠找到解決方案。然而,這些舉措仍未能在開發(fā)階段如期落地,所以迫切需要集結各方力量共同攻關。

我們可以借鑒網(wǎng)絡安全等相關行業(yè)以及食品和消費品等領域,建立一系列的管理標準,規(guī)定安全可靠的產(chǎn)品必須達到的特定條件。在計算機組件領域,類似的框架必定有助于推動解決方案的發(fā)展。

在工具箱中,還有一個工具目前尚未得到充分利用,那就是人工智能(AI)和機器學習(ML)算法。在診斷方面,定期篩查并不完美。一項篩查可以運行10次,但可能會得到5次陽性結果和5次陰性結果。故障容易被遺漏,而即便能夠識別出某些癥狀,但通常也難以確定故障的根本原因或具體機制。

AI或ML或許能夠提供幫助。理論上,當SDC的早期跡象達到某些條件時,算法能夠發(fā)出警報。但這種方法也并不理想,因為訓練這些模型需要大量數(shù)據(jù),進而需要綜合處理數(shù)據(jù),而且用于AI訓練的數(shù)據(jù)集必須具備高度的目的性。這個方法雖然很有潛能,但仍處于早期階段。

毫無疑問,這一問題規(guī)模巨大,構成了根本性威脅,需要我們攜手應對。芯片開發(fā)者、制造商、軟件和硬件工程師、供應商以及任何涉及計算機數(shù)據(jù)的人員等等各個領域的利益相關者,都需要共同合作并認真對待SDC問題。在此過程中,教育扮演著重要角色,我們希望類似本博客系列的資源有助于闡明為什么必須采取行動來解決靜默數(shù)據(jù)損壞,并說服決策者落實措施。

解決問題的第一步是承認問題的存在。對于靜默數(shù)據(jù)損壞,我們已經(jīng)意識到問題的存在,現(xiàn)在是采取行動的時候了。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6754

    瀏覽量

    108085
  • 谷歌
    +關注

    關注

    27

    文章

    6259

    瀏覽量

    111984
  • 計算機
    +關注

    關注

    19

    文章

    7841

    瀏覽量

    93473
  • 人工智能
    +關注

    關注

    1820

    文章

    50344

    瀏覽量

    266989
  • 新思科技
    +關注

    關注

    5

    文章

    981

    瀏覽量

    52990

原文標題:對話谷歌和微軟,為什么靜默數(shù)據(jù)損壞(SDC)問題需要高度重視?(下)

文章出處:【微信號:Synopsys_CN,微信公眾號:新思科技】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    使用 SSP 的 LPC1768 上的 SPI 傳輸數(shù)據(jù)損壞是什么原因?qū)е碌模?/a>

    MOSI 傳輸不正確。例如,最后一個字節(jié)似乎已損壞或重復,并且僅發(fā)送 23 個字節(jié)而不是 32 個字節(jié)。有些字節(jié)是用來發(fā)送0x55但它的傳輸0x00。 當我放置斷點并單步執(zhí)行時,數(shù)據(jù)會正確傳輸。 設置
    發(fā)表于 04-28 07:53

    stm32cubeide 編譯報錯如何處理?

    報錯如何處理 \"make -j8 all\" terminated with exit code -1073741819. Build might be incomplete.
    發(fā)表于 04-28 07:47

    SAF sCheck 關機測試如何處理

    to read from the NvM during the next cycle? 預計如何處理? Br, 哈里什 R
    發(fā)表于 04-15 09:31

    變頻器逆變模塊損壞的起因及處理方法

    變頻器作為現(xiàn)代工業(yè)控制中的核心設備,其逆變模塊的可靠性直接影響生產(chǎn)系統(tǒng)的穩(wěn)定性。然而,在實際應用中,逆變模塊損壞是變頻器故障中最常見的現(xiàn)象之一。深入分析其損壞原因并掌握有效的處理方法,對設備維護人員具有重要意義。
    的頭像 發(fā)表于 03-13 17:13 ?853次閱讀

    NAND閃存的電荷泄露機理與靜默數(shù)據(jù)損壞防御——天碩工業(yè)級SSD技術解析

    工控系統(tǒng)的典型特征是7×24小時持續(xù)運行、讀多寫少、數(shù)據(jù)長期駐留。與消費級使用場景不同,SSD中的數(shù)據(jù)可能數(shù)月甚至數(shù)年不被重寫,但卻要隨時可被準確讀取。然而, NAND閃存不是“天然長期可靠”的介質(zhì)
    的頭像 發(fā)表于 03-06 16:17 ?275次閱讀
    NAND閃存的電荷泄露機理與<b class='flag-5'>靜默</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>損壞</b>防御——天碩工業(yè)級SSD技術解析

    SMT產(chǎn)線急停?PCB變形/MARK點損壞的4步應急處理法與根本預防

    23年PCBA一站式行業(yè)經(jīng)驗PCBA加工廠家今天為大家講講如何處理PCB變形或MARK點損壞導致校正失敗的情況。處理PCB變形或MARK點損壞導致的校正失敗,核心思路是先評估問題程度,
    的頭像 發(fā)表于 02-03 09:16 ?378次閱讀
    SMT產(chǎn)線急停?PCB變形/MARK點<b class='flag-5'>損壞</b>的4步應急<b class='flag-5'>處理</b>法與根本預防

    請問沒有用到的I/0如何處理?

    沒有用到的I/0如何處理?
    發(fā)表于 01-12 06:29

    大語言模型如何處理上下文窗口中的輸入

    本博客介紹了五個基本概念,闡述了大語言模型如何處理上下文窗口中的輸入。通過明確的例子和實踐中獲得的見解,本文介紹了多個與上下文窗口有關的基本概念,如詞元化、序列長度和注意力等。
    的頭像 發(fā)表于 12-03 13:48 ?768次閱讀
    大語言模型如<b class='flag-5'>何處理</b>上下文窗口中的輸入

    Stduio使用wifi模塊出錯如何處理

    外設為潘多拉IOT開發(fā)板,使用Stduio配置了wifi框架,但是代碼里在配置wifi模式時,沒有找到wlan0這個設備,wifi整個功能也用不了,請問應該如何處理。使用正點原子資料包里的rtthread測試demo,wifi工作正常,wifi模塊硬件沒有問題。
    發(fā)表于 10-10 08:18

    一文讀懂 | 識別靜默數(shù)據(jù)損壞的來源

    在大型數(shù)據(jù)中心,靜默數(shù)據(jù)錯誤(SDE,SilentDataErrors)正引發(fā)廣泛擔憂——這類錯誤會在系統(tǒng)內(nèi)傳播,對AI訓練任務等長時間運行的程序造成嚴重影響。從技術角度看,靜默
    的頭像 發(fā)表于 09-19 18:06 ?874次閱讀
    一文讀懂 | 識別<b class='flag-5'>靜默</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>損壞</b>的來源

    NUC972DF62Y LCD FIFO欠載中斷如何處理?

    我使用 NUC972DF62Y 并使用 LCM 和 GE2D 模塊。 是什么原因?qū)е?FIFO 欠運行中斷,我必須如何處理它? 清除旗幟UNDERRUN_INT后,它再次設置。
    發(fā)表于 08-29 07:44

    在M480系列中,GPIO配置為準雙向模組時,如何處理功耗過大?

    在M480系列中,GPIO配置為準雙向模組時,用戶應該如何處理功耗過大?
    發(fā)表于 08-28 08:05

    當UART數(shù)據(jù)傳輸過程中發(fā)生RLS(接收線狀態(tài))中斷時,如何處理PEF、FEF和BIF標志?

    當UART數(shù)據(jù)傳輸過程中發(fā)生RLS(接收線狀態(tài))中斷時,如何處理PEF、FEF和BIF標志
    發(fā)表于 08-22 07:25

    靜力水準儀在測量過程中遇到誤差如何處理?

    靜力水準儀在測量過程中遇到誤差如何處理?靜力水準儀在工程沉降監(jiān)測中出現(xiàn)數(shù)據(jù)偏差時,需采取系統(tǒng)性處理措施。根據(jù)實際工況,誤差主要源于環(huán)境干擾、設備狀態(tài)、安裝缺陷及操作不當四類因素,需針對性解決。靜力
    的頭像 發(fā)表于 08-14 13:01 ?1067次閱讀
    靜力水準儀在測量過程中遇到誤差如<b class='flag-5'>何處理</b>?

    固定式測斜儀在測量過程中遇到誤差如何處理?

    在巖土工程與結構物安全監(jiān)測中,固定式測斜儀是捕捉位移變化的核心設備。然而,實際應用中可能因環(huán)境、操作或設備因素導致測量誤差。很多人想要了解固定式測斜儀在測量過程中遇到誤差如何處理?下面讓南京峟思給
    的頭像 發(fā)表于 06-13 12:10 ?779次閱讀
    固定式測斜儀在測量過程中遇到誤差如<b class='flag-5'>何處理</b>?