chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何處理復(fù)雜的靜默數(shù)據(jù)損壞問題

新思科技 ? 來源:新思科技 ? 2024-11-21 18:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在本系列的第一篇文章中,我們探討了靜默數(shù)據(jù)損壞(Silent Data Corruption,SDC)的定義及其對(duì)當(dāng)前計(jì)算數(shù)據(jù)狀況的影響。為此,我們?cè)俅窝?qǐng)了谷歌的首席工程師Rama Govindaraju和微軟的硬件架構(gòu)合伙人Robert S. Chappell共同探討解決這一棘手問題的可行方案。

回顧一下,靜默數(shù)據(jù)損壞是指受影響的CPU在處理數(shù)據(jù)時(shí)無意中引發(fā)錯(cuò)誤。這些錯(cuò)誤可能會(huì)長時(shí)間潛伏而不被發(fā)現(xiàn),進(jìn)而悄無聲息地破壞整個(gè)數(shù)據(jù)集。

隨著計(jì)算機(jī)處理能力的飛速提升,尤其是伴隨內(nèi)存密集型人工智能AI)及其他前沿技術(shù)的廣泛應(yīng)用,SDC的風(fēng)險(xiǎn)日益加劇,可能導(dǎo)致大量數(shù)據(jù)的損壞,進(jìn)而引發(fā)難以預(yù)估且影響深遠(yuǎn)的問題。

SDC問題亟待解決,那我們應(yīng)該如何應(yīng)對(duì)呢?

處理復(fù)雜的靜默數(shù)據(jù)損壞問題

當(dāng)前,SDC的成因尚未明確,且解決方案尚處于初級(jí)階段。

SDC所面臨的一大挑戰(zhàn)是決策者未投入充足資源來根本性地解決該問題,而僅僅是在癥狀顯現(xiàn)時(shí)采取臨時(shí)緩解措施?!斑@要花多少錢?”是常見的反對(duì)理由,通常也是SDC未得到根本解決的原因,畢竟定期執(zhí)行掃描以及改進(jìn)芯片制造工藝等諸多措施的成本過高。

最終,成本問題成為了開發(fā)實(shí)際解決方案的絆腳石。如果成本過高,為什么還要去研究解決方案呢?但這正是悖論所在:如果開發(fā)出了解決方案,就可以進(jìn)一步研究降低成本和擴(kuò)大應(yīng)用的方法。

解決SDC的責(zé)任不應(yīng)僅落在芯片開發(fā)者身上,制造商以及更廣泛的利益相關(guān)方也應(yīng)參與其中。即使現(xiàn)有的每個(gè)芯片都完美無瑕,SDC問題仍然會(huì)發(fā)生。然而,芯片生命周期的每一個(gè)環(huán)節(jié)都可能存在相關(guān)的解決方案,且或?qū)?duì)此發(fā)揮積極作用。

如今,制造商缺乏應(yīng)對(duì)SDC的動(dòng)力。如果客戶收到有故障或缺陷的芯片,通常只需退換即可。這種做法雖然可行,但并未從根本上解決問題。如果激勵(lì)機(jī)制發(fā)生改變,相應(yīng)的行為模式也會(huì)隨之變化。例如,如果芯片開發(fā)者可以向制造商證明某個(gè)芯片存在缺陷,而制造商必須為此支付50倍于芯片成本的賠償,那么制造商就會(huì)更自覺地采取預(yù)防措施。

此外,早期的篩查和測試有助于盡早發(fā)現(xiàn)SDC,從而留出補(bǔ)救時(shí)間。就比如您汽車上的傳感器。許多傳感器并不是汽車正常運(yùn)行所必需的,而是用于提醒用戶可能存在的問題。

在芯片領(lǐng)域,某些故障可能隱藏了一兩年之久,等到發(fā)現(xiàn)時(shí)往往為時(shí)已晚。芯片中的傳感器可以發(fā)出預(yù)警或警告,雖然這只是權(quán)宜之計(jì),但可以在過渡階段提供有效幫助。

解決SDC面臨的一大難題在于,解決方案需要廣泛覆蓋。具體來說,真正有效的解決方案應(yīng)涵蓋芯片開發(fā)者、供應(yīng)商、云和數(shù)據(jù)管理者及其他相關(guān)方等等所有環(huán)節(jié)。

有望解決靜默數(shù)據(jù)損壞的工具和方法

解決SDC的另一難點(diǎn)在于我們對(duì)其發(fā)生機(jī)制和原因知之甚少。不知彼,不知己,每戰(zhàn)必貽。因此,我們需要更多能夠廣泛共享、分析和研究的數(shù)據(jù)。此外,行業(yè)也應(yīng)允許并鼓勵(lì)研究人員和開發(fā)者聚焦于SDC問題。

識(shí)別數(shù)據(jù)中的異常點(diǎn)、采取糾正措施、診斷癥狀、關(guān)注時(shí)間延遲或數(shù)據(jù)泄漏等警示跡象,以及其他許多診斷選項(xiàng),將有助于揭開SDC的神秘面紗。然后,通過調(diào)整策略,我們也許能夠找到解決方案。然而,這些舉措仍未能在開發(fā)階段如期落地,所以迫切需要集結(jié)各方力量共同攻關(guān)。

我們可以借鑒網(wǎng)絡(luò)安全等相關(guān)行業(yè)以及食品和消費(fèi)品等領(lǐng)域,建立一系列的管理標(biāo)準(zhǔn),規(guī)定安全可靠的產(chǎn)品必須達(dá)到的特定條件。在計(jì)算機(jī)組件領(lǐng)域,類似的框架必定有助于推動(dòng)解決方案的發(fā)展。

在工具箱中,還有一個(gè)工具目前尚未得到充分利用,那就是人工智能(AI)和機(jī)器學(xué)習(xí)(ML)算法。在診斷方面,定期篩查并不完美。一項(xiàng)篩查可以運(yùn)行10次,但可能會(huì)得到5次陽性結(jié)果和5次陰性結(jié)果。故障容易被遺漏,而即便能夠識(shí)別出某些癥狀,但通常也難以確定故障的根本原因或具體機(jī)制。

AI或ML或許能夠提供幫助。理論上,當(dāng)SDC的早期跡象達(dá)到某些條件時(shí),算法能夠發(fā)出警報(bào)。但這種方法也并不理想,因?yàn)橛?xùn)練這些模型需要大量數(shù)據(jù),進(jìn)而需要綜合處理數(shù)據(jù),而且用于AI訓(xùn)練的數(shù)據(jù)集必須具備高度的目的性。這個(gè)方法雖然很有潛能,但仍處于早期階段。

毫無疑問,這一問題規(guī)模巨大,構(gòu)成了根本性威脅,需要我們攜手應(yīng)對(duì)。芯片開發(fā)者、制造商、軟件和硬件工程師、供應(yīng)商以及任何涉及計(jì)算機(jī)數(shù)據(jù)的人員等等各個(gè)領(lǐng)域的利益相關(guān)者,都需要共同合作并認(rèn)真對(duì)待SDC問題。在此過程中,教育扮演著重要角色,我們希望類似本博客系列的資源有助于闡明為什么必須采取行動(dòng)來解決靜默數(shù)據(jù)損壞,并說服決策者落實(shí)措施。

解決問題的第一步是承認(rèn)問題的存在。對(duì)于靜默數(shù)據(jù)損壞,我們已經(jīng)意識(shí)到問題的存在,現(xiàn)在是采取行動(dòng)的時(shí)候了。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6719

    瀏覽量

    107355
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6244

    瀏覽量

    110263
  • 計(jì)算機(jī)
    +關(guān)注

    關(guān)注

    19

    文章

    7764

    瀏覽量

    92688
  • 人工智能
    +關(guān)注

    關(guān)注

    1813

    文章

    49741

    瀏覽量

    261570
  • 新思科技
    +關(guān)注

    關(guān)注

    5

    文章

    925

    瀏覽量

    52643

原文標(biāo)題:對(duì)話谷歌和微軟,為什么靜默數(shù)據(jù)損壞(SDC)問題需要高度重視?(下)

文章出處:【微信號(hào):Synopsys_CN,微信公眾號(hào):新思科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Stduio使用wifi模塊出錯(cuò)如何處理

    外設(shè)為潘多拉IOT開發(fā)板,使用Stduio配置了wifi框架,但是代碼里在配置wifi模式時(shí),沒有找到wlan0這個(gè)設(shè)備,wifi整個(gè)功能也用不了,請(qǐng)問應(yīng)該如何處理。使用正點(diǎn)原子資料包里的rtthread測試demo,wifi工作正常,wifi模塊硬件沒有問題。
    發(fā)表于 10-10 08:18

    一文讀懂 | 識(shí)別靜默數(shù)據(jù)損壞的來源

    在大型數(shù)據(jù)中心,靜默數(shù)據(jù)錯(cuò)誤(SDE,SilentDataErrors)正引發(fā)廣泛擔(dān)憂——這類錯(cuò)誤會(huì)在系統(tǒng)內(nèi)傳播,對(duì)AI訓(xùn)練任務(wù)等長時(shí)間運(yùn)行的程序造成嚴(yán)重影響。從技術(shù)角度看,靜默
    的頭像 發(fā)表于 09-19 18:06 ?551次閱讀
    一文讀懂 | 識(shí)別<b class='flag-5'>靜默</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>損壞</b>的來源

    NUC972DF62Y LCD FIFO欠載中斷如何處理?

    我使用 NUC972DF62Y 并使用 LCM 和 GE2D 模塊。 是什么原因?qū)е?FIFO 欠運(yùn)行中斷,我必須如何處理它? 清除旗幟UNDERRUN_INT后,它再次設(shè)置。
    發(fā)表于 08-29 07:44

    在M480系列中,GPIO配置為準(zhǔn)雙向模組時(shí),如何處理功耗過大?

    在M480系列中,GPIO配置為準(zhǔn)雙向模組時(shí),用戶應(yīng)該如何處理功耗過大?
    發(fā)表于 08-28 08:05

    當(dāng)UART數(shù)據(jù)傳輸過程中發(fā)生RLS(接收線狀態(tài))中斷時(shí),如何處理PEF、FEF和BIF標(biāo)志?

    當(dāng)UART數(shù)據(jù)傳輸過程中發(fā)生RLS(接收線狀態(tài))中斷時(shí),如何處理PEF、FEF和BIF標(biāo)志
    發(fā)表于 08-22 07:25

    靜力水準(zhǔn)儀在測量過程中遇到誤差如何處理?

    靜力水準(zhǔn)儀在測量過程中遇到誤差如何處理?靜力水準(zhǔn)儀在工程沉降監(jiān)測中出現(xiàn)數(shù)據(jù)偏差時(shí),需采取系統(tǒng)性處理措施。根據(jù)實(shí)際工況,誤差主要源于環(huán)境干擾、設(shè)備狀態(tài)、安裝缺陷及操作不當(dāng)四類因素,需針對(duì)性解決。靜力
    的頭像 發(fā)表于 08-14 13:01 ?585次閱讀
    靜力水準(zhǔn)儀在測量過程中遇到誤差如<b class='flag-5'>何處理</b>?

    STM32WLE5CBU6在待機(jī)模式下使用頻率校準(zhǔn)命令失敗如何處理?

    STM32WLE5CBU6在待機(jī)模式下使用頻率校準(zhǔn)命令失敗,用get_error命令獲取信息發(fā)現(xiàn)HSE32啟動(dòng)失敗,進(jìn)而導(dǎo)致校準(zhǔn)失敗,應(yīng)該如何處理
    發(fā)表于 03-07 07:06

    DLPC3433的PCLK和PDATA【0~23】該如何處理呢?

    我們項(xiàng)目里面只用到了mipi接口,請(qǐng)問下如何處理不用的并口輸入呢? 規(guī)格書中在第7頁有描述PDM_CVS_TE,VSYNC_WE,HSYNC_CS,DATAEN_CMD需要下拉,但沒有明確說PCLK和PDATA【0~23】該如何處理, 請(qǐng)問下PCLK和PDATA【0~
    發(fā)表于 02-27 08:43

    差分輸入的AD轉(zhuǎn)換芯片如何處理單端輸入的信號(hào)?

    對(duì)一個(gè)儀表放大器輸出的信號(hào)進(jìn)行AD轉(zhuǎn)換,怎么使用差分輸入呢,IN-端是接地么?還是怎么處理? 即是:差分輸入的AD轉(zhuǎn)換芯片如何處理單端輸入的信號(hào)
    發(fā)表于 02-07 06:40

    ADS1192IRSMR何處理采集ECG信號(hào)伴隨的工頻干擾、運(yùn)動(dòng)基線漂移、電極接觸噪聲、肌電干擾等及其他干擾的?

    請(qǐng)問這顆ECG 模擬前端,他如何處理采集ECG信號(hào)伴隨的工頻干擾、運(yùn)動(dòng)基線漂移、電極接觸噪聲、肌電干擾等及其他干擾的,是需要外面搭電路還是他內(nèi)部可以處理,如果是搭電路能否給應(yīng)用線路圖?內(nèi)部處理的話是否能夠大部分
    發(fā)表于 02-05 08:23

    請(qǐng)問ADS42LB49模擬地AGND和數(shù)字地DGND是如何處理?

    ADS42LB49的芯片手冊(cè)中沒有講模擬地AGND和數(shù)字地DGND是如何處理的,但 ADS42LB49引腳只有一個(gè)GND PAD引腳,請(qǐng)問在PCB布線時(shí),應(yīng)當(dāng)如何處理PCB板上的一個(gè)模擬地和數(shù)字地?
    發(fā)表于 01-22 08:09

    請(qǐng)問LDC1314讀出來的數(shù)據(jù)何處理呢?數(shù)據(jù)與距離的關(guān)系函數(shù)如何確定?

    請(qǐng)問LDC1314讀出來的數(shù)據(jù)何處理呢?數(shù)據(jù)與距離的關(guān)系函數(shù)如何確定?自己測量找關(guān)系么??
    發(fā)表于 01-02 06:21

    ADS1292系列VQFN封裝的芯片,Thermal pad該如何處理?

    請(qǐng)問,ADS1292系列VQFN封裝的芯片,Thermal pad該如何處理?datasheet上沒有注明如何處理該腳。 是否像常規(guī)的芯片一樣進(jìn)行處理?具體如下: 單電源供電下: Thermal Pad接 GND 雙電源下:
    發(fā)表于 12-30 08:30

    使用DDC112時(shí),只使用其中一個(gè)通道,另外一個(gè)通道應(yīng)該如何處理

    1.在使用DDC112時(shí),只使用其中一個(gè)通道,另外一個(gè)通道應(yīng)該如何處理. 2.DDC112可以穩(wěn)定測量的最小電流為多少. 3.DDC112可以測量的最大負(fù)電流為多少?
    發(fā)表于 12-11 07:45

    AFE5809EVM GUI如何處理低頻信號(hào)?

    請(qǐng)教如何處理低頻信號(hào)。 對(duì)AFE5809EVM GUI進(jìn)行如下圖設(shè)置,請(qǐng)問是否正確。
    發(fā)表于 12-09 07:04