電子發(fā)燒友網(wǎng)綜合報(bào)道 在最近的Hot Chip2025大會(huì)上,華為進(jìn)行了一場(chǎng)線上分享,提出了一種全新的AI數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)UB-Mesh。
隨著大語(yǔ)言模型(LLM)規(guī)模持續(xù)擴(kuò)張,其訓(xùn)練對(duì)計(jì)算算力與網(wǎng)絡(luò)帶寬的需求呈指數(shù)級(jí)增長(zhǎng)。傳統(tǒng)數(shù)據(jù)中心多采用 Clos 架構(gòu),雖能提供對(duì)稱節(jié)點(diǎn)帶寬,卻因依賴大量高基數(shù)交換機(jī)與光模塊,存在成本高昂、可用性低等問(wèn)題,難以滿足 LLM 訓(xùn)練的大規(guī)模、高帶寬、低成本、高可用四大核心需求(R1-R4)。
那么UB-Mesh是通過(guò)分層本地化 nD-FullMesh 拓?fù)渑c多維度優(yōu)化,實(shí)現(xiàn)性能、成本與可用性的平衡。
UB-Mesh 的設(shè)計(jì)遵循三大核心原則:一是流量驅(qū)動(dòng)拓?fù)洌≒1),利用 LLM 訓(xùn)練中張量并行(TP)、序列并行(SP)占 97% 流量且集中于近距離節(jié)點(diǎn)的特性,構(gòu)建分層網(wǎng)絡(luò);二是拓?fù)涓兄?jì)算通信(P2),將并行策略、路由等與拓?fù)渖疃葏f(xié)同,避免帶寬浪費(fèi);三是自愈容錯(cuò)(P3),通過(guò)硬件備份與快速故障恢復(fù),保障訓(xùn)練連續(xù)性。

UB-Mesh的整體架構(gòu)設(shè)計(jì),展示了從2D-FullMesh(機(jī)柜內(nèi))到4D-FullMesh(Pod內(nèi))再到SuperPod的擴(kuò)展方式。
在核心架構(gòu)設(shè)計(jì)上,UB-Mesh 以nD-FullMesh 拓?fù)錇榛A(chǔ),通過(guò) “維度遞推” 實(shí)現(xiàn)規(guī)模化擴(kuò)展:從板級(jí) 1D 全連接(相鄰 NPU 直接互連),到機(jī)架級(jí) 2D 全連接(1D mesh 間互連),最終形成 Pod 級(jí) 4D-FullMesh(UB-Mesh-Pod),可支持 8K NPU 的高帶寬域。UB-Mesh-Pod是一個(gè)由1024個(gè)NPU組成的4D-FullMesh集群。該集群內(nèi)部,每個(gè)機(jī)柜包含64個(gè)NPU,構(gòu)成一個(gè)2D-FullMesh;16個(gè)這樣的機(jī)柜再構(gòu)成一個(gè)2D-FullMesh,從而形成一個(gè)4D-FullMesh的Pod。
該拓?fù)湟远叹嚯x電連接為主(占比 86.7%),大幅減少對(duì)高成本光模塊與交換機(jī)的依賴,同時(shí)通過(guò)靈活帶寬分配,為近距離通信(TP/SP)提供高帶寬,遠(yuǎn)距離通信(數(shù)據(jù)并行 DP)分配低帶寬,精準(zhǔn)匹配 LLM 流量特征。
硬件層面,UB-Mesh 通過(guò)統(tǒng)一總線(UB) 實(shí)現(xiàn)組件互連,替代傳統(tǒng)混合互連(PCIe/NVLink/IB),支持 Load/Store 等同步操作與 Read/Write 等異步操作,不僅簡(jiǎn)化驅(qū)動(dòng)設(shè)計(jì),還實(shí)現(xiàn) IO 資源靈活分配與硬件資源池化(如 CPU、NPU、DDR 共享)。核心硬件包括支持 72 路 UB 通道的 NPU、32 路 UB 通道的 CPU,以及低基數(shù)交換機(jī)(LRS,用于機(jī)架內(nèi)聚合)、高基數(shù)交換機(jī)(HRS,用于 Pod 間互連)。此外,架構(gòu)采用 “64+1 備份設(shè)計(jì)”,每機(jī)架額外配置 1 個(gè)備用 NPU,節(jié)點(diǎn)故障時(shí)可通過(guò) LRS 快速切換,僅增加少量延遲而不中斷訓(xùn)練。
為解決架構(gòu)落地挑戰(zhàn),UB-Mesh 提出多維度優(yōu)化機(jī)制。路由方面,創(chuàng)新全路徑路由(APR) ,結(jié)合源路由(8 字節(jié)緊湊頭實(shí)現(xiàn)路徑指示)、結(jié)構(gòu)化尋址(按 Pod / 機(jī)架劃分地址段,減少路由表開銷)與拓?fù)涓兄獰o(wú)死鎖流控(TFC 算法,僅用 2 個(gè)虛擬通道實(shí)現(xiàn)無(wú)死鎖),充分利用多路徑帶寬,避免擁塞。故障恢復(fù)方面,采用 “直接通知” 機(jī)制,節(jié)點(diǎn)故障時(shí)直接向通信目標(biāo)節(jié)點(diǎn)發(fā)送信息,相比傳統(tǒng)逐跳通知,大幅縮短收斂時(shí)間。通信優(yōu)化方面,針對(duì) All-Reduce 設(shè)計(jì)多環(huán)算法,通過(guò) idle 鏈路復(fù)用與流量分區(qū)提升帶寬利用率;針對(duì) All-to-All 采用多路徑傳輸與分層廣播 / 歸約,適配 MoE 模型的專家并行需求。
實(shí)驗(yàn)驗(yàn)證顯示,UB-Mesh 相比傳統(tǒng) Clos 架構(gòu)優(yōu)勢(shì)顯著:成本效率提升 2.04 倍,減少 98% 高基數(shù)交換機(jī)與 93% 光模塊使用,網(wǎng)絡(luò)基礎(chǔ)設(shè)施成本占比從 67% 降至 20%;可用性達(dá) 98.8%,較 Clos(91.6%)提升 7.2%,其 Mean Time Between Failure(MTBF)達(dá) 98.5 小時(shí),是 Clos 的 7.14 倍;在 LLAMA-70B、GPT3-175B、MoE-10T 等模型訓(xùn)練中,性能僅下降 7% 以內(nèi),且集群規(guī)模擴(kuò)展至 64 倍時(shí),線性度仍保持 95% 以上,可支持超大規(guī)模 LLM 訓(xùn)練。
UB-Mesh架構(gòu)通過(guò)其創(chuàng)新的nD-FullMesh拓?fù)洹⒔y(tǒng)一總線技術(shù)以及一系列系統(tǒng)級(jí)優(yōu)化,成功地解決了大規(guī)模LLM訓(xùn)練所面臨的“通信墻”問(wèn)題。它不僅在理論上證明了分層局部化網(wǎng)絡(luò)設(shè)計(jì)的優(yōu)越性,更在實(shí)踐中展示了其在成本、性能和可靠性方面的巨大優(yōu)勢(shì)。UB-Mesh為構(gòu)建下一代超大規(guī)模、高性價(jià)比的AI計(jì)算集群提供了一個(gè)強(qiáng)有力的范例,預(yù)示著AI基礎(chǔ)設(shè)施設(shè)計(jì)的一次重要范式轉(zhuǎn)移。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。
舉報(bào)投訴
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
熱點(diǎn)推薦
華為面向拉美地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡(luò)方案
在華為數(shù)據(jù)通信創(chuàng)新峰會(huì)2025拉美站期間,以“星河AI數(shù)據(jù)中心網(wǎng)絡(luò),賦AI時(shí)代新動(dòng)能”為主題的分論壇上,華為面向拉美地區(qū)
華為數(shù)據(jù)中心古井貢酒樣板點(diǎn)重磅發(fā)布
以“安全可靠,醞建未來(lái)”為主題的華為數(shù)據(jù)中心古井貢酒樣板點(diǎn)發(fā)布會(huì)在亳州成功舉行。該樣板點(diǎn)使用華為智能微模塊和UPS5000-H解決方案,助力古井貢酒構(gòu)建安全、高效、智能的現(xiàn)代化
華為數(shù)據(jù)中心自動(dòng)駕駛網(wǎng)絡(luò)通過(guò)EANTC歐洲高級(jí)網(wǎng)絡(luò)測(cè)試中心L4級(jí)自智網(wǎng)絡(luò)測(cè)評(píng)
Networking Test Center,簡(jiǎn)稱“EANTC”)發(fā)布華為數(shù)據(jù)中心自動(dòng)駕駛網(wǎng)絡(luò)的自智網(wǎng)絡(luò)(Autonomous Netwo
華為面向亞太地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡(luò)方案
在華為數(shù)據(jù)通信創(chuàng)新峰會(huì)2025亞太站期間,以“星河AI數(shù)據(jù)中心網(wǎng)絡(luò),賦AI時(shí)代新動(dòng)能”為主題的分論壇上,華為面向亞太地區(qū)
華為面向中東中亞地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡(luò)
近日,在華為數(shù)據(jù)通信創(chuàng)新峰會(huì)2025中東中亞站期間,以“星河AI數(shù)據(jù)中心網(wǎng)絡(luò),賦AI時(shí)代新動(dòng)能”為主題的分論壇上,華為面向中東中亞地區(qū)
華為榮獲數(shù)據(jù)中心自智網(wǎng)絡(luò)基礎(chǔ)能力解決方案檢測(cè)證書
2025年云網(wǎng)智聯(lián)大會(huì)首日,中國(guó)信息通信研究院(簡(jiǎn)稱“信通院”)向華為技術(shù)有限公司(以下簡(jiǎn)稱“華為”)等首批獲得《數(shù)據(jù)中心自智網(wǎng)絡(luò)基礎(chǔ)能力解決方案檢測(cè)證書》的企業(yè)正式頒發(fā)證書。此項(xiàng)認(rèn)證
適用于數(shù)據(jù)中心和AI時(shí)代的800G網(wǎng)絡(luò)
和性能隔離能力,以保障不同用戶任務(wù)互不干擾。
分布式AI計(jì)算與網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)
分布式計(jì)算已成為AI訓(xùn)練的主流方式,通過(guò)將工作負(fù)載分配到多個(gè)GPU節(jié)點(diǎn)并行處理,以加速模型訓(xùn)練。這對(duì)數(shù)據(jù)中心
發(fā)表于 03-25 17:35
華為攜手中控技術(shù)打造全國(guó)數(shù)據(jù)中心網(wǎng)絡(luò)創(chuàng)新示范項(xiàng)目
華為中國(guó)合作伙伴大會(huì)2025期間,華為與中控技術(shù)股份有限公司(以下簡(jiǎn)稱“中控技術(shù)”)聯(lián)合發(fā)布星河AI數(shù)據(jù)中心網(wǎng)絡(luò)優(yōu)秀實(shí)踐樣板點(diǎn)。此次合作旨在
華為全新升級(jí)星河AI數(shù)據(jù)中心網(wǎng)絡(luò)
在華為中國(guó)合作伙伴大會(huì)2025期間,以 “星河AI數(shù)據(jù)中心網(wǎng)絡(luò),賦AI時(shí)代新動(dòng)能”為主題的數(shù)據(jù)中心網(wǎng)絡(luò)分論壇圓滿落幕。本次論壇匯聚了來(lái)自全國(guó)
優(yōu)化800G數(shù)據(jù)中心:高速線纜、有源光纜和光纖跳線解決方案
高速線纜支持熱插拔功能,具有低功耗和小彎曲半徑,便于靈活布線,可實(shí)現(xiàn)高穩(wěn)定性、低成本、節(jié)省空間和高散熱等優(yōu)勢(shì),非常適合數(shù)據(jù)中心布線需求。這些高速線纜能夠與交換機(jī)、路由器和服務(wù)器無(wú)縫集成,確保網(wǎng)絡(luò)
發(fā)表于 03-24 14:20
華為攜手EANTC啟動(dòng)數(shù)據(jù)中心網(wǎng)絡(luò)ADN分級(jí)測(cè)評(píng)認(rèn)證
近日,華為聯(lián)合EANTC(THE EUROPEAN ADVANCED NETWORKING TEST CENTER)正式啟動(dòng)數(shù)據(jù)中心網(wǎng)絡(luò)ADN分級(jí)測(cè)評(píng)認(rèn)證。
華為發(fā)布新一代站點(diǎn)能源架構(gòu)及AI數(shù)據(jù)中心建設(shè)理念
西班牙巴塞羅那2025年3月13日?/美通社/ -- 在MWC25巴塞羅那期間舉辦的產(chǎn)品與解決方案發(fā)布會(huì)上,華為數(shù)據(jù)中心能源及關(guān)鍵供電產(chǎn)品線總裁何波發(fā)布新一代站點(diǎn)能源
華為發(fā)布新一代站點(diǎn)能源架構(gòu)及AI數(shù)據(jù)中心建設(shè)原則
在MWC25巴塞羅那期間舉辦的產(chǎn)品與解決方案發(fā)布會(huì)上,華為數(shù)據(jù)中心能源及關(guān)鍵供電產(chǎn)品線總裁何波發(fā)布新一代站點(diǎn)能源架構(gòu)“Single Site
華為發(fā)布2025數(shù)據(jù)中心能源十大趨勢(shì)
今日,華為舉辦2025數(shù)據(jù)中心能源十大趨勢(shì)發(fā)布會(huì),華為數(shù)據(jù)中心能源領(lǐng)域總裁堯權(quán)全面解讀數(shù)據(jù)中心能
NIDA發(fā)布《智算數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)技術(shù)要求》
Alliance,以下簡(jiǎn)稱 “NIDA”)攜手中國(guó)信息通信研究院等9家組織成員共同發(fā)布了《智算數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)技術(shù)要求》(以下簡(jiǎn)稱 “技術(shù)要求”)。該技術(shù)要求明確了智算場(chǎng)景下數(shù)據(jù)中心

華為發(fā)布數(shù)據(jù)中心新型網(wǎng)絡(luò)架構(gòu)UB-Mesh
評(píng)論