chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

重新思考 AI 時(shí)代的分布式計(jì)算

穎脈Imgtec ? 2025-07-31 14:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

DeepSeek的崛起,不僅因其巨大成就,更因其高效性而在AI行業(yè)引起了震動(dòng)。雖然大家的關(guān)注重點(diǎn)大都放在DeepSeek僅花費(fèi)了560萬美元的訓(xùn)練成本,而OpenAI花費(fèi)超過1億美元,但其中更深層次的關(guān)注點(diǎn)在于這一效率突破揭示了傳統(tǒng)分布式計(jì)算范式與AI工作負(fù)載獨(dú)特需求之間的根本不匹配。

AI技術(shù)浪潮對(duì)基礎(chǔ)設(shè)施選型帶來了深層挑戰(zhàn):當(dāng)前廣泛部署的分布式計(jì)算架構(gòu)本質(zhì)上仍是為解決20世紀(jì)的大規(guī)模數(shù)據(jù)處理問題而設(shè)計(jì),卻承擔(dān)著運(yùn)行21世紀(jì)AI工作負(fù)載的重任。DeepSeek的突破性實(shí)踐揭示了一個(gè)關(guān)鍵命題——業(yè)界需要從根本上重新思考如何實(shí)現(xiàn)AI的分布式計(jì)算,其影響將遠(yuǎn)遠(yuǎn)超出訓(xùn)練成本的范疇。


分布式計(jì)算與AI發(fā)展不匹配

傳統(tǒng)的分布式計(jì)算是基于一些假設(shè)而設(shè)計(jì)的,而這些假設(shè)在人工智能時(shí)代已不復(fù)存在。不妨想想經(jīng)典的 MapReduce 范式,它徹底改變了大數(shù)據(jù)處理:它擅長處理高度并行的問題,即數(shù)據(jù)可以清晰地分區(qū),并且計(jì)算在很大程度上是獨(dú)立的。然而,Transformer 架構(gòu)展現(xiàn)出了截然不同的計(jì)算模式。

Transformer 訓(xùn)練在注意力計(jì)算過程中涉及密集的、all-to-all的通信模式。每個(gè) token 都可能關(guān)注其他所有 token,從而產(chǎn)生隨序列長度平方增長的通信需求。這與傳統(tǒng)分布式系統(tǒng)處理良好的稀疏、分層通信模式截然相反。注意力機(jī)制的全局依賴性意味著,在傳統(tǒng)分布式工作負(fù)載中行之有效的“分而治之”策略在AI中變得適得其反。

再看內(nèi)存訪問模式,問題更為嚴(yán)重。傳統(tǒng)的分布式計(jì)算假設(shè)計(jì)算可以與數(shù)據(jù)共存,從而最大限度地減少網(wǎng)絡(luò)流量——這是自集群計(jì)算早期以來一直指導(dǎo)系統(tǒng)設(shè)計(jì)的原則。但Transformer 架構(gòu)需要在海量參數(shù)空間(有時(shí)甚至高達(dá)數(shù)千億個(gè)參數(shù))中頻繁同步梯度更新。由此產(chǎn)生的通信開銷可能會(huì)占據(jù)總訓(xùn)練時(shí)間的大部分,這也解釋了為什么增加更多 GPU 往往會(huì)帶來的收益遞減,而非設(shè)計(jì)良好的分布式系統(tǒng)所預(yù)期的線性擴(kuò)展。


DeepSeek 效率革命的經(jīng)驗(yàn)教訓(xùn)

DeepSeek 的成就不僅在于其巧妙的算法,更在于其架構(gòu)選擇能夠更好地契合 AI 工作負(fù)載的特性。其混合專家 (MoE) 方法通過使計(jì)算再次稀疏化,從根本上改變了分布式計(jì)算方程。MoE 架構(gòu)并非要求每個(gè) GPU 都處理所有參數(shù),而是在每次計(jì)算中僅激活模型的子集,從而顯著降低了通信需求。

更有趣的是,DeepSeek 強(qiáng)調(diào)“蒸餾”和強(qiáng)化學(xué)習(xí),而非傳統(tǒng)的監(jiān)督微調(diào),這表明它正在轉(zhuǎn)向更高效的通信訓(xùn)練范式。與監(jiān)督學(xué)習(xí)相比,基于獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)可以比需要跨所有節(jié)點(diǎn)緊密同步標(biāo)記訓(xùn)練數(shù)據(jù)的監(jiān)督學(xué)習(xí)更自然地分布。但更深層次的教訓(xùn)并非關(guān)于具體的技術(shù),而是關(guān)于如何將AI工作負(fù)載與分布式系統(tǒng)協(xié)同設(shè)計(jì),而不是強(qiáng)迫AI工作負(fù)載適應(yīng)現(xiàn)有的分布式計(jì)算模式。這代表著我們需要從根本上對(duì)分布式系統(tǒng)設(shè)計(jì)思維方式進(jìn)行轉(zhuǎn)變。


重新思考分布式人工智能系統(tǒng):三個(gè)核心原則

如果從頭開始為AI工作負(fù)載設(shè)計(jì)分布式計(jì)算,會(huì)是什么樣子?總的來說可以歸納為以下三個(gè)原則:

1. 異步優(yōu)先設(shè)計(jì):傳統(tǒng)參數(shù)服務(wù)器假設(shè)同步更新以保持一致性,這一原則借鑒自數(shù)據(jù)庫系統(tǒng),在數(shù)據(jù)庫系統(tǒng)中,正確性至關(guān)重要。但AI訓(xùn)練本身對(duì)某些不一致性具有魯棒性;即使梯度過時(shí),模型也能收斂。采用有限異步可以顯著降低通信開銷,同時(shí)保持訓(xùn)練效率。這不僅僅關(guān)乎最終一致性,而是設(shè)計(jì)能夠容忍并從受控不一致性中受益的系統(tǒng)。

2. 分層通信模式:AI 原生的分布式系統(tǒng)應(yīng)該利用 Transformer 架構(gòu)中自然的層級(jí)結(jié)構(gòu),而非扁平的all-to-all通信。層內(nèi)注意力模式與跨層依賴關(guān)系不同,這為多層通信優(yōu)化提供了機(jī)會(huì)。我們需要能夠理解這些計(jì)算依賴關(guān)系并相應(yīng)地優(yōu)化通信的分布式系統(tǒng)。

3. 自適應(yīng)資源分配:與資源需求可預(yù)測的傳統(tǒng)工作負(fù)載不同,AI 訓(xùn)練表現(xiàn)出階段依賴性行為。早期訓(xùn)練側(cè)重于學(xué)習(xí)基本模式,對(duì)通信精度的要求低于后期的微調(diào)階段。分布式系統(tǒng)應(yīng)該在整個(gè)訓(xùn)練過程中調(diào)整其通信策略和資源分配,而不是將其視為靜態(tài)工作負(fù)載。


基礎(chǔ)設(shè)施投資悖論

業(yè)界目前應(yīng)對(duì) AI 擴(kuò)展挑戰(zhàn)的措施,例如 Stargate 宣布的 5000 億美元基礎(chǔ)設(shè)施投資,基本上都遵循著“大同小異”的策略:更大的 GPU 集群、更快的互連速度、更高的內(nèi)存帶寬。雖然有必要,但這種策略治標(biāo)不治本,就像在高速公路上增加車道,卻不解決交通信號(hào)燈的配時(shí)問題。

如果目前的趨勢持續(xù)下去,AI訓(xùn)練可能會(huì)在幾十年內(nèi)消耗掉全球相當(dāng)一部分電力。但能源消耗不僅僅取決于操作次數(shù),它很大程度上受到數(shù)據(jù)移動(dòng)的影響。在對(duì)節(jié)能分布式系統(tǒng)的研究過程中可以觀察到,數(shù)據(jù)移動(dòng)通常比計(jì)算本身消耗的能量高出幾個(gè)數(shù)量級(jí)。更好的分布式計(jì)算架構(gòu)可以最大限度地減少不必要的通信,從而實(shí)現(xiàn)大量的能源節(jié)約,使AI的發(fā)展更具可持續(xù)性。


跨層優(yōu)化:尚未開發(fā)的前沿

最有前景的方法涉及跨層優(yōu)化,而傳統(tǒng)系統(tǒng)在維護(hù)抽象邊界時(shí)會(huì)避免使用這種優(yōu)化。例如,現(xiàn)代 GPU 支持混合精度計(jì)算,但分布式系統(tǒng)很少能夠智能地利用這一能力。梯度更新可能不需要與前向傳播相同的精度,這意味著精度感知通信協(xié)議有機(jī)會(huì)將帶寬需求降低 50% 或更多。

同樣,從谷歌的TPU到新興的神經(jīng)形態(tài)芯片,AI專用硬件的興起也帶來了新的分布式計(jì)算挑戰(zhàn)。這些架構(gòu)通常具有不統(tǒng)一的內(nèi)存層次結(jié)構(gòu)和專用互連,無法清晰地映射到傳統(tǒng)的分布式計(jì)算抽象上。我們需要新的分布式系統(tǒng)設(shè)計(jì),能夠利用這些硬件特定的優(yōu)化,同時(shí)保持可移植性。

31a4497c-6dd7-11f0-9080-92fbcf53809c.png

從傳統(tǒng)的基于網(wǎng)格的分布式計(jì)算架構(gòu)(左)到AI原生的流暢互連系統(tǒng)設(shè)計(jì)(右)的演變??梢暬@示幾何節(jié)點(diǎn)從僵化的層級(jí)模式演變?yōu)獒槍?duì)AI工作負(fù)載通信模式優(yōu)化的自適應(yīng)、密集連接的類神經(jīng)架構(gòu)。


展望:后 GPU 時(shí)代

或許最重要的是,我們目前以 GPU 為中心的 AI 基礎(chǔ)設(shè)施觀念可能只是暫時(shí)的。隨著我們?cè)絹碓浇咏柖珊偷羌{德縮放定律的極限,未來很可能屬于專用的異構(gòu)計(jì)算架構(gòu)。量子-經(jīng)典混合系統(tǒng)、神經(jīng)形態(tài)處理器光學(xué)計(jì)算平臺(tái)將需要全新的分布式計(jì)算范式。

在這個(gè)過渡中成功的組織將不是那些擁有最多GPU的組織,而是那些最理解如何為AI工作負(fù)載編排復(fù)雜的、異構(gòu)的分布式系統(tǒng)的組織。DeepSeek的效率突破只是一個(gè)開始,它表明,架構(gòu)創(chuàng)新并非僅僅是原始計(jì)算能力,仍然是AI進(jìn)步的關(guān)鍵。

隨著AI行業(yè)日趨成熟,超越了當(dāng)前“投入更多計(jì)算”的階段,分布式系統(tǒng)的基本原則——一致性、可用性、分區(qū)容錯(cuò)性和效率,將決定哪些方法能夠持續(xù)發(fā)展。未來的道路需要我們摒棄對(duì)傳統(tǒng)分布式計(jì)算模式的執(zhí)著,擁抱專為 AI 工作負(fù)載優(yōu)化的設(shè)計(jì)。這不僅僅是一個(gè)優(yōu)化問題,更是對(duì)如何為 AI 優(yōu)先的世界構(gòu)建分布式系統(tǒng)的根本性反思。

*本文轉(zhuǎn)自SDNLAB,編譯自 CACM Blog,作者:Akshay Mittal。

原文鏈接:https://cacm.acm.org/blogcacm/rethinking-distributed-computing-for-the-ai-era/


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    36966

    瀏覽量

    289759
  • DeepSeek
    +關(guān)注

    關(guān)注

    2

    文章

    820

    瀏覽量

    2537
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    一鍵部署無損網(wǎng)絡(luò):EasyRoCE助力分布式存儲(chǔ)效能革命

    分布式存儲(chǔ)的性能瓶頸往往在于網(wǎng)絡(luò)。如何構(gòu)建一個(gè)高帶寬、超低時(shí)延、零丟包的無損網(wǎng)絡(luò),是釋放分布式存儲(chǔ)全部潛力、賦能企業(yè)關(guān)鍵業(yè)務(wù)(如實(shí)時(shí)數(shù)據(jù)庫、AI訓(xùn)練、高性能計(jì)算)的關(guān)鍵挑戰(zhàn)。
    的頭像 發(fā)表于 08-04 11:34 ?1100次閱讀
    一鍵部署無損網(wǎng)絡(luò):EasyRoCE助力<b class='flag-5'>分布式</b>存儲(chǔ)效能革命

    訊維AI分布式控制系統(tǒng)的核心優(yōu)勢和應(yīng)用場景

    在數(shù)字化轉(zhuǎn)型的浪潮中,音視頻技術(shù)正從傳統(tǒng)的信號(hào)傳輸工具進(jìn)化為智能交互的核心載體。訊維AI分布式可視化控制系統(tǒng)通過深度融合AI技術(shù)與分布式架構(gòu),構(gòu)建了"去中心化節(jié)點(diǎn)+
    的頭像 發(fā)表于 05-26 15:12 ?776次閱讀

    訊維AI分布式系統(tǒng)的十大優(yōu)勢

    在數(shù)字化轉(zhuǎn)型浪潮中,音視頻技術(shù)正從傳統(tǒng)的信號(hào)傳輸工具演變?yōu)橹悄芙换サ暮诵妮d體。訊維AI分布式系統(tǒng)通過與AI技術(shù)的深度融合,構(gòu)建了"去中心化架構(gòu)+AI智能引擎"的創(chuàng)新體系,實(shí)現(xiàn)了音視頻信
    的頭像 發(fā)表于 04-15 14:53 ?894次閱讀

    使用VirtualLab Fusion中分布式計(jì)算的AR波導(dǎo)測試圖像模擬

    計(jì)算時(shí)間超過31小時(shí)。通過使用一個(gè)由8個(gè)多核PC組成的網(wǎng)絡(luò),提供35個(gè)客戶端分布式計(jì)算,將模擬時(shí)間減少到1小時(shí)5分鐘?;灸M任務(wù)基本任務(wù)集合:FOV使用分布式
    發(fā)表于 04-10 08:48

    適用于數(shù)據(jù)中心和AI時(shí)代的800G網(wǎng)絡(luò)

    和性能隔離能力,以保障不同用戶任務(wù)互不干擾。 分布式AI計(jì)算與網(wǎng)絡(luò)架構(gòu)設(shè)計(jì) 分布式計(jì)算已成為A
    發(fā)表于 03-25 17:35

    VirtualLab Fusion應(yīng)用:基于分布式計(jì)算的AR光波導(dǎo)中測試圖像的仿真

    (10201次模擬):大約43小時(shí)。 模擬結(jié)果:不同視場角的輻射通量*。 *注: 21個(gè)×21個(gè)方向的結(jié)果存儲(chǔ)在參數(shù)連續(xù)變化的光柵的查找表中。 使用分布式計(jì)算 參數(shù)運(yùn)行用于改變當(dāng)前視場模式的角度,這
    發(fā)表于 02-19 08:51

    分布式云化數(shù)據(jù)庫有哪些類型

    分布式云化數(shù)據(jù)庫有哪些類型?分布式云化數(shù)據(jù)庫主要類型包括:關(guān)系型分布式數(shù)據(jù)庫、非關(guān)系型分布式數(shù)據(jù)庫、新SQL分布式數(shù)據(jù)庫、以列方式存儲(chǔ)數(shù)據(jù)、
    的頭像 發(fā)表于 01-15 09:43 ?754次閱讀

    基于ptp的分布式系統(tǒng)設(shè)計(jì)

    在現(xiàn)代分布式系統(tǒng)中,精確的時(shí)間同步對(duì)于確保數(shù)據(jù)一致性、系統(tǒng)穩(wěn)定性和性能至關(guān)重要。PTP(Precision Time Protocol)是一種網(wǎng)絡(luò)協(xié)議,用于在分布式系統(tǒng)中實(shí)現(xiàn)高精度的時(shí)間同步
    的頭像 發(fā)表于 12-29 10:09 ?835次閱讀

    HarmonyOS Next 應(yīng)用元服務(wù)開發(fā)-分布式數(shù)據(jù)對(duì)象遷移數(shù)據(jù)權(quán)限與基礎(chǔ)數(shù)據(jù)

    使用分布式數(shù)據(jù)對(duì)象遷移數(shù)據(jù),當(dāng)需要遷移的數(shù)據(jù)較大(100KB以上)或需要遷移文件時(shí),可以使用分布式數(shù)據(jù)對(duì)象。原理與接口說明詳見分布式數(shù)據(jù)對(duì)象跨設(shè)備數(shù)據(jù)同步。 說明:自API 12起,由于直接使用跨
    發(fā)表于 12-24 09:40

    星融元與焱融科技AI分布式存儲(chǔ)軟硬件完成兼容性互認(rèn)證

    星融元與焱融科技AI分布式存儲(chǔ)軟硬件完成兼容性互認(rèn)證
    的頭像 發(fā)表于 11-20 16:36 ?734次閱讀
    星融元與焱融科技<b class='flag-5'>AI</b><b class='flag-5'>分布式</b>存儲(chǔ)軟硬件完成兼容性互認(rèn)證

    訊維AI分布式無紙化交互系統(tǒng):突破傳統(tǒng),引領(lǐng)AI智能會(huì)商新革命!

    及快速部署能力上還存在巨大的短板。訊維分布式無紙化交互系統(tǒng)以其快速的系統(tǒng)部署能力、強(qiáng)大的數(shù)據(jù)互通能力、創(chuàng)新的AI智能交互能力的特點(diǎn),實(shí)現(xiàn)了音視頻會(huì)議系統(tǒng)的又一次創(chuàng)新變革,從此音視頻會(huì)議系統(tǒng)迎來了AI智能會(huì)商
    的頭像 發(fā)表于 11-18 16:53 ?931次閱讀
    訊維<b class='flag-5'>AI</b><b class='flag-5'>分布式</b>無紙化交互系統(tǒng):突破傳統(tǒng),引領(lǐng)<b class='flag-5'>AI</b>智能會(huì)商新革命!

    分布式通信的原理和實(shí)現(xiàn)高效分布式通信背后的技術(shù)NVLink的演進(jìn)

    大型模型的大小已經(jīng)超出了單個(gè) GPU 的范圍。所以就需要實(shí)現(xiàn)跨多個(gè) GPU 的模型訓(xùn)練,這種訓(xùn)練方式就涉及到了分布式通信和 NVLink。 當(dāng)談及分布式通信和 NVLink 時(shí),我們進(jìn)入了一個(gè)引人入勝且不斷演進(jìn)的技術(shù)領(lǐng)域,下面我們將簡單介紹
    的頭像 發(fā)表于 11-18 09:39 ?1661次閱讀
    <b class='flag-5'>分布式</b>通信的原理和實(shí)現(xiàn)高效<b class='flag-5'>分布式</b>通信背后的技術(shù)NVLink的演進(jìn)

    分布式光纖測溫解決方案

    分布式光纖測溫解決方案
    的頭像 發(fā)表于 11-12 01:02 ?797次閱讀
    <b class='flag-5'>分布式</b>光纖測溫解決方案

    分布式光纖測溫是什么?應(yīng)用領(lǐng)域是?

    分布式光纖測溫是一種先進(jìn)的溫度測量技術(shù),它利用光纖的拉曼散射原理進(jìn)行溫度監(jiān)測。以下是對(duì)分布式光纖測溫的詳細(xì)介紹: 一、基本原理 分布式光纖測溫的原理基于光纖的拉曼散射效應(yīng)。當(dāng)光纖某處的溫度發(fā)生變化
    的頭像 發(fā)表于 10-24 15:30 ?1664次閱讀
    <b class='flag-5'>分布式</b>光纖測溫是什么?應(yīng)用領(lǐng)域是?

    分布式輸電線路故障定位中的分布式是指什么

    所謂分布式指的是產(chǎn)品的部署方式,是相對(duì)于集中式而言的。 一、部署方式 分散安裝:分布式輸電線路故障定位系統(tǒng)中的采集裝置需要安裝在輸電線路的多個(gè)位置,通常是每隔一定距離設(shè)置一個(gè)監(jiān)測點(diǎn),以確保對(duì)整條線路
    的頭像 發(fā)表于 10-16 11:39 ?856次閱讀
    <b class='flag-5'>分布式</b>輸電線路故障定位中的<b class='flag-5'>分布式</b>是指什么