面對人工智能大模型的迅速發(fā)展及其對算力資源的急劇增長需求,單芯片性能提升遭遇瓶頸,同時通過Scale Out策略擴展多機集群以增加算力也遇到了局限性。在此背景下,中國信通院與騰訊攜手GPU、CPU、交換機芯片制造商、服務器供應商、網(wǎng)絡設備廠商及互聯(lián)網(wǎng)企業(yè)等多方力量,共同發(fā)起超大帶寬ETH-X(以太網(wǎng))超節(jié)點計劃,旨在通過技術創(chuàng)新與行業(yè)合作,構建開放可擴展的HBD(高帶寬域)超節(jié)點系統(tǒng)樣機,探索AI算力提升新途徑,為構建ETH-X超節(jié)點互聯(lián)開放協(xié)作產(chǎn)業(yè)生態(tài)提供支撐。同時,將共同編制相關技術規(guī)范,為行業(yè)樹立標準,引導超節(jié)點技術高質(zhì)發(fā)展。
AI大模型發(fā)展與算力需求
AI大模型的發(fā)展依賴于持續(xù)提升算力。根據(jù)Scaling Law(規(guī)模定理),增大模型規(guī)模與增加訓練數(shù)據(jù)量是直接提升AI大模型智能水平與性能的關鍵途徑。但對集群算力需求的將呈指數(shù)級增長。
長序列是AI大模型發(fā)展的另一個重要方向。長序列提高AI大模型回答問題的質(zhì)量、處理復雜任務的能力以及更強的記憶力和個性化能力的同時,也會加大對訓練和推理算力資源的需求1,尤其是對顯存資源的需求。因此滿足AI大模型發(fā)展需求,算力能力的持續(xù)提升成為一個重要基礎。
圖1 長序列帶來的準確率收益以及顯存需求
單芯片算力提升遇阻、
scale out集群算力提升受限
當前,提升集群算力已面臨一些明顯的制約因素。首先,單芯片性能提升受到HBM容量帶寬增長趕不上算力增長速度的限制,內(nèi)存墻問題制約算法發(fā)揮。如在典型模型與并行方式下,Nvidia Hopper一代芯片的有效算力(HFU)明顯低于Ampere一代芯片,如圖2所示。另一種通過Scale out擴展集群規(guī)模提升整體算力的方式也受到GBS(Global Batch Size)不能無限增長的限制,導致在集群規(guī)模增大到一定程度后,HFU出現(xiàn)明顯下降。最后,模型參數(shù)量增大需要更大的模型并行規(guī)模,模型并行中Tensor并行或MOE類型的Expert并行都會在GPU之間產(chǎn)生大量的通信,并且這部分通信很難與計算進行overlap。而當前典型一機八卡服務器限制了Tensor并行的規(guī)模或Expert并行通過機間網(wǎng)絡,這都會導致HFU無法提高。
圖2 不同型號GPU以及不同規(guī)模集群對HFU的影響
通過scale up擴大HBD(超帶寬域)的超節(jié)點成為突破方向
HBD(High Bandwidth Domain)是一組以超帶寬(HB)互聯(lián)GPU-GPU的系統(tǒng)2。HBD內(nèi)GPU-GPU通信帶寬是HBD之間GPU-GPU通信帶寬的數(shù)倍。如Nvidia H100 提供900GBps HB帶寬,HBD間GPU-GPU通信帶寬只有100GBps。因此在模型并行中將數(shù)據(jù)量大、無法overlap的部分限制在一個HBD內(nèi)完成。
當前,HBD限制在一臺服務器內(nèi),典型1機8卡服務器是8張GPU卡之間通過某種HB連接技術實現(xiàn)互聯(lián),構成一個HBD=8的系統(tǒng)。然而更大的參數(shù)規(guī)模、更長的序列長度、更多的MOE專家數(shù)量、更大的集群規(guī)模,都造成了更多的通信數(shù)據(jù)量。HBD=8的情況下,大量的數(shù)據(jù)通信均需經(jīng)過HBD間的scale out網(wǎng)絡,因此通信占比提高、HFU下降的問題凸顯。
通過構建更大的HBD系統(tǒng),以scale up方式提升系統(tǒng)算力是解決上述問題的有效途徑之一。如MIT與Meta的研究論文中,通過建模分析3,論證了擴大HBD對訓練性能的提升效果。另外,Nvidia也實現(xiàn)了不同規(guī)模HBD系統(tǒng)并進行了部署與驗證4。
圖3 HBD超節(jié)點典型代表與業(yè)務收益舉例
Nvidia將HB互聯(lián)不僅用于GPU-GPU之間,而是將其應用到GPU-CPU/Memory的超大帶寬互聯(lián),例如GH200、GB200產(chǎn)品。通過此方式為GPU提供一個超帶寬訪問CPU/Memory的能力。
Nvidia產(chǎn)品具備支持GPU-CPU/Memory的統(tǒng)一內(nèi)存編制以及GPU通過內(nèi)存語義接口read/write直接訪問CPU/Memory的能力,具有更高效、更直接的特點。但其同步操作的方式會對時延進行限制,制約可訪問CPU/Memory的距離與容量。另外,目前的軟件生態(tài)中,未有支持直接通過內(nèi)存語義訪問CPU/Memory的系統(tǒng)。
相反若使用異步的memory offload方式將降低對時延的約束,并發(fā)利用多節(jié)點CPU/Memory,發(fā)揮HB互聯(lián)的帶寬優(yōu)勢。另外,當前memory offload已具備一定軟件生態(tài)上的基礎,例如Zero offload5。
綜上所述,超節(jié)點是一個以超大帶寬(HB)互聯(lián)16卡以上GPU-GPU以及GPU-CPU/Memory的scale up系統(tǒng),以HBD超節(jié)點為單位,通過傳統(tǒng)scale out擴展方式可形成更大規(guī)模、更高效的算力集群。超節(jié)點Scale Up的核心需求是超大帶寬(HB),但規(guī)模不需要很大。Scale Out的核心需求是超大規(guī)模。因此Scale Up網(wǎng)絡與Scale Out網(wǎng)絡更適合是相互獨立共存的兩張網(wǎng)絡。
圖4 Scale Up超大帶寬與Scale Out超大規(guī)模共同構建高算力AI集群
ODCC ETH-X計劃構建開放超節(jié)點產(chǎn)業(yè)生態(tài)
超節(jié)點的核心是HB互聯(lián)技術,當前工業(yè)界已實現(xiàn)的超節(jié)點系統(tǒng)均是采用私有技術與協(xié)議實現(xiàn)HB互聯(lián),例如Nvidia的NVLINK。但此類私有技術與協(xié)議由單一企業(yè)進行維護,無法保證技術長期、高效的發(fā)展。另外,從HBD超節(jié)點產(chǎn)品完善角度也無法保證系統(tǒng)的開放,導致無法形成良性、開放的產(chǎn)業(yè)生態(tài)。
以太網(wǎng)技術憑借開放的生態(tài)、多樣的產(chǎn)業(yè)鏈環(huán)境,為技術的長期演進發(fā)展提供支撐。當前以太網(wǎng)技術上從端口帶寬及交換容量方面已具有較強的競爭基礎。如以太網(wǎng)單端口800G MAC標準已成熟并產(chǎn)業(yè)化,以太網(wǎng)單芯片51.2T交換容量 ETH-switch也已在2023年產(chǎn)品化商用。
目前,以太網(wǎng)HB接口GPU產(chǎn)品的日益豐富,HBD超節(jié)點系統(tǒng)正逐步依托于以太網(wǎng)互聯(lián)技術,實現(xiàn)向更為模塊化、多元化的結構轉型,有效促進了多方廠商的積極參與,各廠商專精于系統(tǒng)內(nèi)的不同組件或子系統(tǒng)開發(fā),顯著提升了HBD超節(jié)點產(chǎn)品化的多樣性和方案的豐富度,為HBD超節(jié)點技術長期演進奠定穩(wěn)固基石,確保其在應對未來挑戰(zhàn)時能夠持續(xù)進化,保持領先的技術競爭力與生態(tài)活力。
圖5 ETH-X超節(jié)點參考架構與預期收益評估
圖6 ETH-X技術規(guī)范構成與項目計劃
為推動算力產(chǎn)業(yè)的發(fā)展,ODCC網(wǎng)絡組啟動了ETH-X超節(jié)點系列項目。該項目由中國信通院、騰訊聯(lián)合快手科技、燧原科技、壁仞科技、華勤技術、銳捷網(wǎng)絡、新華三、云豹智能、云合智網(wǎng)、盛科通信、立訊精密、光迅科技等合作伙伴共同推動,以產(chǎn)品化樣機以及相關技術規(guī)范為目標,打造大型多GPU互聯(lián)算力集群系統(tǒng)。該項目計劃在2025年秋季前完成ETH-X超節(jié)點樣機軟硬件研發(fā)與相關業(yè)務系統(tǒng)驗證測試,同時發(fā)布ETH-X超節(jié)點技術規(guī)范1.0。
-
AI
+關注
關注
88文章
37026瀏覽量
290071 -
人工智能
+關注
關注
1811文章
49498瀏覽量
258218 -
算力
+關注
關注
2文章
1325瀏覽量
16406
原文標題:ETH-X超節(jié)點:探索突破AI算力約束的新途徑
文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
華為發(fā)布全球最強算力超節(jié)點和集群
華為超節(jié)點互聯(lián)技術引領AI基礎設施新范式
中興通訊榮獲2025中國算力大會年度重大突破成果獎
突破傳統(tǒng)桎梏,PPEC Workbench 開啟電源智能化設計新路徑
多達 48 個計算節(jié)點!Firefly 推出 CSC2-N48 AI 算力服務器

中國首條"算力光軌"通車!國內(nèi)首個分布式光互連光交換超節(jié)點發(fā)布

立訊技術解讀ETH-X超節(jié)點高速互連技術的現(xiàn)狀與未來

奇異摩爾邀您相約2025中國AI算力大會
華為云黃瑾:昇騰云CloudMatrix 384超節(jié)點六大科技創(chuàng)新,定義下一代AI基礎設施
華為云超節(jié)點創(chuàng)新算力基礎設施,推動千行萬業(yè)AI應用開發(fā)落地
DeepSeek推動AI算力需求:800G光模塊的關鍵作用
奇異摩爾分享計算芯片Scale Up片間互聯(lián)新途徑

評論