chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

重新思考 AI 時代的分布式計算

穎脈Imgtec ? 2025-07-31 14:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

DeepSeek的崛起,不僅因其巨大成就,更因其高效性而在AI行業(yè)引起了震動。雖然大家的關注重點大都放在DeepSeek僅花費了560萬美元的訓練成本,而OpenAI花費超過1億美元,但其中更深層次的關注點在于這一效率突破揭示了傳統(tǒng)分布式計算范式與AI工作負載獨特需求之間的根本不匹配。

AI技術浪潮對基礎設施選型帶來了深層挑戰(zhàn):當前廣泛部署的分布式計算架構本質(zhì)上仍是為解決20世紀的大規(guī)模數(shù)據(jù)處理問題而設計,卻承擔著運行21世紀AI工作負載的重任。DeepSeek的突破性實踐揭示了一個關鍵命題——業(yè)界需要從根本上重新思考如何實現(xiàn)AI的分布式計算,其影響將遠遠超出訓練成本的范疇。


分布式計算與AI發(fā)展不匹配

傳統(tǒng)的分布式計算是基于一些假設而設計的,而這些假設在人工智能時代已不復存在。不妨想想經(jīng)典的 MapReduce 范式,它徹底改變了大數(shù)據(jù)處理:它擅長處理高度并行的問題,即數(shù)據(jù)可以清晰地分區(qū),并且計算在很大程度上是獨立的。然而,Transformer 架構展現(xiàn)出了截然不同的計算模式。

Transformer 訓練在注意力計算過程中涉及密集的、all-to-all的通信模式。每個 token 都可能關注其他所有 token,從而產(chǎn)生隨序列長度平方增長的通信需求。這與傳統(tǒng)分布式系統(tǒng)處理良好的稀疏、分層通信模式截然相反。注意力機制的全局依賴性意味著,在傳統(tǒng)分布式工作負載中行之有效的“分而治之”策略在AI中變得適得其反。

再看內(nèi)存訪問模式,問題更為嚴重。傳統(tǒng)的分布式計算假設計算可以與數(shù)據(jù)共存,從而最大限度地減少網(wǎng)絡流量——這是自集群計算早期以來一直指導系統(tǒng)設計的原則。但Transformer 架構需要在海量參數(shù)空間(有時甚至高達數(shù)千億個參數(shù))中頻繁同步梯度更新。由此產(chǎn)生的通信開銷可能會占據(jù)總訓練時間的大部分,這也解釋了為什么增加更多 GPU 往往會帶來的收益遞減,而非設計良好的分布式系統(tǒng)所預期的線性擴展。


DeepSeek 效率革命的經(jīng)驗教訓

DeepSeek 的成就不僅在于其巧妙的算法,更在于其架構選擇能夠更好地契合 AI 工作負載的特性。其混合專家 (MoE) 方法通過使計算再次稀疏化,從根本上改變了分布式計算方程。MoE 架構并非要求每個 GPU 都處理所有參數(shù),而是在每次計算中僅激活模型的子集,從而顯著降低了通信需求。

更有趣的是,DeepSeek 強調(diào)“蒸餾”和強化學習,而非傳統(tǒng)的監(jiān)督微調(diào),這表明它正在轉向更高效的通信訓練范式。與監(jiān)督學習相比,基于獎勵的強化學習可以比需要跨所有節(jié)點緊密同步標記訓練數(shù)據(jù)的監(jiān)督學習更自然地分布。但更深層次的教訓并非關于具體的技術,而是關于如何將AI工作負載與分布式系統(tǒng)協(xié)同設計,而不是強迫AI工作負載適應現(xiàn)有的分布式計算模式。這代表著我們需要從根本上對分布式系統(tǒng)設計思維方式進行轉變。


重新思考分布式人工智能系統(tǒng):三個核心原則

如果從頭開始為AI工作負載設計分布式計算,會是什么樣子?總的來說可以歸納為以下三個原則:

1. 異步優(yōu)先設計:傳統(tǒng)參數(shù)服務器假設同步更新以保持一致性,這一原則借鑒自數(shù)據(jù)庫系統(tǒng),在數(shù)據(jù)庫系統(tǒng)中,正確性至關重要。但AI訓練本身對某些不一致性具有魯棒性;即使梯度過時,模型也能收斂。采用有限異步可以顯著降低通信開銷,同時保持訓練效率。這不僅僅關乎最終一致性,而是設計能夠容忍并從受控不一致性中受益的系統(tǒng)。

2. 分層通信模式:AI 原生的分布式系統(tǒng)應該利用 Transformer 架構中自然的層級結構,而非扁平的all-to-all通信。層內(nèi)注意力模式與跨層依賴關系不同,這為多層通信優(yōu)化提供了機會。我們需要能夠理解這些計算依賴關系并相應地優(yōu)化通信的分布式系統(tǒng)。

3. 自適應資源分配:與資源需求可預測的傳統(tǒng)工作負載不同,AI 訓練表現(xiàn)出階段依賴性行為。早期訓練側重于學習基本模式,對通信精度的要求低于后期的微調(diào)階段。分布式系統(tǒng)應該在整個訓練過程中調(diào)整其通信策略和資源分配,而不是將其視為靜態(tài)工作負載。


基礎設施投資悖論

業(yè)界目前應對 AI 擴展挑戰(zhàn)的措施,例如 Stargate 宣布的 5000 億美元基礎設施投資,基本上都遵循著“大同小異”的策略:更大的 GPU 集群、更快的互連速度、更高的內(nèi)存帶寬。雖然有必要,但這種策略治標不治本,就像在高速公路上增加車道,卻不解決交通信號燈的配時問題。

如果目前的趨勢持續(xù)下去,AI訓練可能會在幾十年內(nèi)消耗掉全球相當一部分電力。但能源消耗不僅僅取決于操作次數(shù),它很大程度上受到數(shù)據(jù)移動的影響。在對節(jié)能分布式系統(tǒng)的研究過程中可以觀察到,數(shù)據(jù)移動通常比計算本身消耗的能量高出幾個數(shù)量級。更好的分布式計算架構可以最大限度地減少不必要的通信,從而實現(xiàn)大量的能源節(jié)約,使AI的發(fā)展更具可持續(xù)性。


跨層優(yōu)化:尚未開發(fā)的前沿

最有前景的方法涉及跨層優(yōu)化,而傳統(tǒng)系統(tǒng)在維護抽象邊界時會避免使用這種優(yōu)化。例如,現(xiàn)代 GPU 支持混合精度計算,但分布式系統(tǒng)很少能夠智能地利用這一能力。梯度更新可能不需要與前向傳播相同的精度,這意味著精度感知通信協(xié)議有機會將帶寬需求降低 50% 或更多。

同樣,從谷歌的TPU到新興的神經(jīng)形態(tài)芯片,AI專用硬件的興起也帶來了新的分布式計算挑戰(zhàn)。這些架構通常具有不統(tǒng)一的內(nèi)存層次結構和專用互連,無法清晰地映射到傳統(tǒng)的分布式計算抽象上。我們需要新的分布式系統(tǒng)設計,能夠利用這些硬件特定的優(yōu)化,同時保持可移植性。

31a4497c-6dd7-11f0-9080-92fbcf53809c.png

從傳統(tǒng)的基于網(wǎng)格的分布式計算架構(左)到AI原生的流暢互連系統(tǒng)設計(右)的演變。可視化顯示幾何節(jié)點從僵化的層級模式演變?yōu)獒槍I工作負載通信模式優(yōu)化的自適應、密集連接的類神經(jīng)架構。


展望:后 GPU 時代

或許最重要的是,我們目前以 GPU 為中心的 AI 基礎設施觀念可能只是暫時的。隨著我們越來越接近摩爾定律和登納德縮放定律的極限,未來很可能屬于專用的異構計算架構。量子-經(jīng)典混合系統(tǒng)、神經(jīng)形態(tài)處理器光學計算平臺將需要全新的分布式計算范式。

在這個過渡中成功的組織將不是那些擁有最多GPU的組織,而是那些最理解如何為AI工作負載編排復雜的、異構的分布式系統(tǒng)的組織。DeepSeek的效率突破只是一個開始,它表明,架構創(chuàng)新并非僅僅是原始計算能力,仍然是AI進步的關鍵。

隨著AI行業(yè)日趨成熟,超越了當前“投入更多計算”的階段,分布式系統(tǒng)的基本原則——一致性、可用性、分區(qū)容錯性和效率,將決定哪些方法能夠持續(xù)發(fā)展。未來的道路需要我們摒棄對傳統(tǒng)分布式計算模式的執(zhí)著,擁抱專為 AI 工作負載優(yōu)化的設計。這不僅僅是一個優(yōu)化問題,更是對如何為 AI 優(yōu)先的世界構建分布式系統(tǒng)的根本性反思。

*本文轉自SDNLAB,編譯自 CACM Blog,作者:Akshay Mittal。

原文鏈接:https://cacm.acm.org/blogcacm/rethinking-distributed-computing-for-the-ai-era/


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    39041

    瀏覽量

    299586
  • DeepSeek
    +關注

    關注

    2

    文章

    830

    瀏覽量

    3088
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    剖析AI分布式KVM系統(tǒng)的革新意義

    。AI技術的深度融合,不僅解決了傳統(tǒng)系統(tǒng)在復雜場景下的效率瓶頸,更通過數(shù)據(jù)驅動、場景感知與自主決策能力,重構了人機協(xié)作的底層邏輯。本文將從技術演進、行業(yè)痛點、應用價值三個維度,剖析AI分布式KVM系統(tǒng)的革新意義。
    的頭像 發(fā)表于 11-11 11:28 ?778次閱讀

    如何解決分布式光伏計量難題?

    分布式光伏成增長主力 據(jù)《2025-2030年中國分布式光伏行業(yè)市場前景預測及未來發(fā)展趨勢研究報告》顯示,2024年中國分布式光伏新增裝機118.18GW,同比增長23%,占光伏新增裝機總量的43
    的頭像 發(fā)表于 11-07 14:55 ?237次閱讀
    如何解決<b class='flag-5'>分布式</b>光伏計量難題?

    全新分布式智慧投屏終端開啟智慧教學新時代

    全新分布式智慧教室系統(tǒng)的核心設備是分布式智慧投屏終端,集無線投屏、白板書寫、多機聯(lián)動、信息發(fā)布于一體,為老師學生分組投屏、互動分享提供多屏協(xié)作解決方案。智能書寫功能與方案中多屏互動相輔相成,可隨時以多視窗方式…
    的頭像 發(fā)表于 09-19 11:35 ?686次閱讀
    全新<b class='flag-5'>分布式</b>智慧投屏終端開啟智慧教學新<b class='flag-5'>時代</b>!

    【節(jié)能學院】Acrel-1000DP分布式光伏監(jiān)控系統(tǒng)在奉賢平高食品 4.4MW 分布式光伏中應用

    摘要:在“雙碳”和新型電力系統(tǒng)建設背景下,分布式光伏接入比例不斷提高,對配電網(wǎng)電壓、調(diào)度運行及調(diào)峰等環(huán)節(jié)造成強烈沖擊。本文設計包含平臺層、設備層二層架構體系的分布式光伏管控平臺,以及小容量工商業(yè)
    的頭像 發(fā)表于 08-23 08:04 ?3390次閱讀
    【節(jié)能學院】Acrel-1000DP<b class='flag-5'>分布式</b>光伏監(jiān)控系統(tǒng)在奉賢平高食品 4.4MW <b class='flag-5'>分布式</b>光伏中應用

    分布式光伏發(fā)電監(jiān)測系統(tǒng)技術方案

    分布式光伏發(fā)電監(jiān)測系統(tǒng)技術方案 柏峰【BF-GFQX】一、系統(tǒng)目標 :分布式光伏發(fā)電監(jiān)測系統(tǒng)旨在通過智能化的監(jiān)測手段,實現(xiàn)對分布式光伏電站的全方位、高精度、實時化管理。該系統(tǒng)能
    的頭像 發(fā)表于 08-22 10:51 ?3032次閱讀
    <b class='flag-5'>分布式</b>光伏發(fā)電監(jiān)測系統(tǒng)技術方案

    一鍵部署無損網(wǎng)絡:EasyRoCE助力分布式存儲效能革命

    分布式存儲的性能瓶頸往往在于網(wǎng)絡。如何構建一個高帶寬、超低時延、零丟包的無損網(wǎng)絡,是釋放分布式存儲全部潛力、賦能企業(yè)關鍵業(yè)務(如實時數(shù)據(jù)庫、AI訓練、高性能計算)的關鍵挑戰(zhàn)。
    的頭像 發(fā)表于 08-04 11:34 ?1485次閱讀
    一鍵部署無損網(wǎng)絡:EasyRoCE助力<b class='flag-5'>分布式</b>存儲效能革命

    Ceph分布式存儲系統(tǒng)解析

    在當今數(shù)據(jù)爆炸的時代,企業(yè)對存儲系統(tǒng)的需求日益增長,傳統(tǒng)的集中式存儲已經(jīng)無法滿足大規(guī)模數(shù)據(jù)處理的要求。分布式存儲系統(tǒng)應運而生,而Ceph作為開源分布式存儲系統(tǒng)的佼佼者,以其高可用性、高擴展性和統(tǒng)一存儲架構贏得了眾多企業(yè)的青睞。
    的頭像 發(fā)表于 07-14 11:15 ?866次閱讀

    雙電機分布式驅動汽車高速穩(wěn)定性機電耦合控制

    摘要:為了利用所設計的雙電機防滑差速驅動系統(tǒng)來提高分布式驅動汽車的動力學性能,在前期同軸耦合驅動控制理論研究的基礎上,開展該車的高速穩(wěn)定性機電耦合控制研究。建立并驗證包含所設計驅動系統(tǒng)在內(nèi)的分布式
    發(fā)表于 06-18 16:37

    訊維AI分布式控制系統(tǒng)的核心優(yōu)勢和應用場景

    在數(shù)字化轉型的浪潮中,音視頻技術正從傳統(tǒng)的信號傳輸工具進化為智能交互的核心載體。訊維AI分布式可視化控制系統(tǒng)通過深度融合AI技術與分布式架構,構建了"去中心化節(jié)點+
    的頭像 發(fā)表于 05-26 15:12 ?1010次閱讀

    曙光存儲領跑中國分布式存儲市場

    近日,賽迪顧問發(fā)布《中國分布式存儲市場研究報告(2025)》,指出2024 年中國分布式存儲市場首次超過集中式存儲,規(guī)模達 198.2 億元,增速 43.7%。
    的頭像 發(fā)表于 05-19 16:50 ?1132次閱讀

    訊維AI分布式系統(tǒng)的十大優(yōu)勢

    在數(shù)字化轉型浪潮中,音視頻技術正從傳統(tǒng)的信號傳輸工具演變?yōu)橹悄芙换サ暮诵妮d體。訊維AI分布式系統(tǒng)通過與AI技術的深度融合,構建了"去中心化架構+AI智能引擎"的創(chuàng)新體系,實現(xiàn)了音視頻信
    的頭像 發(fā)表于 04-15 14:53 ?1155次閱讀

    使用VirtualLab Fusion中分布式計算的AR波導測試圖像模擬

    計算時間超過31小時。通過使用一個由8個多核PC組成的網(wǎng)絡,提供35個客戶端分布式計算,將模擬時間減少到1小時5分鐘。基本模擬任務基本任務集合:FOV使用分布式
    發(fā)表于 04-10 08:48

    適用于數(shù)據(jù)中心和AI時代的800G網(wǎng)絡

    和性能隔離能力,以保障不同用戶任務互不干擾。 分布式AI計算與網(wǎng)絡架構設計 分布式計算已成為A
    發(fā)表于 03-25 17:35

    分布式光伏如何實現(xiàn)防逆流?

    分布式光伏如何實現(xiàn)防逆流
    的頭像 發(fā)表于 03-24 13:31 ?698次閱讀
    <b class='flag-5'>分布式</b>光伏如何實現(xiàn)防逆流?

    VirtualLab Fusion應用:基于分布式計算的AR光波導中測試圖像的仿真

    (10201次模擬):大約43小時。 模擬結果:不同視場角的輻射通量*。 *注: 21個×21個方向的結果存儲在參數(shù)連續(xù)變化的光柵的查找表中。 使用分布式計算 參數(shù)運行用于改變當前視場模式的角度,這
    發(fā)表于 02-19 08:51