隨著 AI 重新定義計(jì)算格局,網(wǎng)絡(luò)已成為構(gòu)建未來數(shù)據(jù)中心發(fā)展的關(guān)鍵支柱。大語言模型的訓(xùn)練性能不僅取決于計(jì)算資源,更受到底層網(wǎng)絡(luò)敏捷性、容量和智能程度的影響。行業(yè)正從傳統(tǒng)以 CPU 為中心的基礎(chǔ)架構(gòu),邁向緊耦合的、GPU 驅(qū)動(dòng)和網(wǎng)絡(luò)定義的 AI 工廠。
NVIDIA 構(gòu)建了一套全面的網(wǎng)絡(luò)解決方案,以滿足現(xiàn)代大規(guī)模 AI 訓(xùn)練和推理對(duì)急速流量突發(fā)、高帶寬及低延遲的需求。該方案涵蓋Spectrum-X以太網(wǎng)、NVIDIA Quantum InfiniBand和BlueField平臺(tái)。通過將計(jì)算與通信一起進(jìn)行編排,NVIDIA 的網(wǎng)絡(luò)產(chǎn)品組合為構(gòu)建可擴(kuò)展、高效且高可靠的 AI 數(shù)據(jù)中心奠定了基礎(chǔ),成為了推動(dòng) AI 創(chuàng)新的中樞神經(jīng)系統(tǒng)。
在這篇博客中,我們將探討 NVIDIA 的網(wǎng)絡(luò)創(chuàng)新如何通過 CPO 技術(shù),為大型 AI 工廠帶來顯著的能效提升和更強(qiáng)的可靠性。
AI 工廠基礎(chǔ)設(shè)施與傳統(tǒng)企業(yè)數(shù)據(jù)中心有何不同?
在傳統(tǒng)企業(yè)數(shù)據(jù)中心中,Tier 1 交換機(jī)通常部署在每個(gè)服務(wù)器機(jī)架內(nèi),通過銅纜直接連接服務(wù)器,從而降低功耗并簡(jiǎn)化連接。這種架構(gòu)能夠有效滿足以 CPU 為中心的、網(wǎng)絡(luò)需求適中的工作負(fù)載。
相比之下,NVIDIA 開創(chuàng)的現(xiàn)代 AI 工廠配備了超高密的計(jì)算機(jī)架和數(shù)以千計(jì)的 GPU,能面向單一任務(wù)實(shí)現(xiàn)協(xié)同工作。這就需要在整個(gè)數(shù)據(jù)中心內(nèi)實(shí)現(xiàn)最高帶寬和最低的延遲,一種新的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)應(yīng)運(yùn)而生——即將 Tier 1 交換機(jī)部署在獨(dú)立的機(jī)柜。這種布局顯著增加了服務(wù)器與交換機(jī)之間的距離,使得光纖網(wǎng)絡(luò)變得至關(guān)重要。由此帶來的結(jié)果是功耗和光學(xué)組件數(shù)量大幅上升,如今在網(wǎng)卡到交換機(jī)以及交換機(jī)到交換機(jī)的連接中,均需依賴光學(xué)組件來實(shí)現(xiàn)高效傳輸。
如圖 1 所示,這一演變體現(xiàn)了為滿足大規(guī)模 AI 工作負(fù)載對(duì)高帶寬和低延遲的需求,在網(wǎng)絡(luò)拓?fù)浜图夹g(shù)層面所發(fā)生的重大變革,并從根本上重塑了數(shù)據(jù)中心的物理結(jié)構(gòu)與能耗特征。
圖 1:橫向擴(kuò)展能力與 AI 密度取決于光纖連接
如何優(yōu)化 AI 工廠的網(wǎng)絡(luò)可靠性與功耗?
采用可插拔光模塊的傳統(tǒng)網(wǎng)絡(luò)交換機(jī)依賴于多個(gè)電接口。在這些架構(gòu)中,數(shù)據(jù)信號(hào)需經(jīng)過一條較長(zhǎng)的電傳輸路徑:從交換機(jī) ASIC 出發(fā),經(jīng) PCB、連接器,最終到達(dá)外部光收發(fā)器,之后才能轉(zhuǎn)換為光信號(hào)。如圖 2 所示,這種分段式傳輸在每秒 200Gb/s 的通道中可能帶來高達(dá) 22 dB 的電損耗。這顯著增加了對(duì)復(fù)雜數(shù)字信號(hào)處理以及多個(gè)有源組件的需求。

圖 2:Spectrum-X Photonics 可將信號(hào)完整性提升 64 倍
采用可插拔光模塊的結(jié)果就是功耗更高(每個(gè)接口通常為 30W)、發(fā)熱量增加以及潛在故障點(diǎn)顯著增多。大量的獨(dú)立模塊和連接不僅推高了系統(tǒng)功耗和組件數(shù)量,還直接影響了鏈路的可靠性,隨著 AI 部署規(guī)模的不斷擴(kuò)大,這些問題將帶來持續(xù)的運(yùn)營(yíng)挑戰(zhàn)。各組件的典型功耗如圖 3 所示。

圖 3:Spectrum-X Photonics 將功耗降低至 1/3.5
相比之下,采用 CPO 技術(shù)的交換機(jī)將電光轉(zhuǎn)換部分直接集成到交換機(jī)封裝中。光纖直接連接至和 ASIC 封裝在一起的光引擎,使電信號(hào)損耗降低至約 4 dB,全通道功耗降至 9W。通過簡(jiǎn)化信號(hào)路徑并消除不需要的接口,該設(shè)計(jì)顯著提升了信號(hào)完整性、可靠性和能效,正是高密度、高性能 AI 數(shù)據(jù)中心所需的關(guān)鍵技術(shù)。
CPO 封裝為 AI 工廠帶來了哪些優(yōu)勢(shì)?
NVIDIA 推出基于 CPO 技術(shù)的系統(tǒng),正是為了應(yīng)對(duì) AI 工廠前所未有的需求。通過將光引擎直接集成至交換機(jī) ASIC,全新的 NVIDIA Quantum-X Photonics 和 Spectrum-X Photonics(如圖 4 所示)將取代傳統(tǒng)的可插拔光模塊。這一創(chuàng)新簡(jiǎn)化了信號(hào)傳輸路徑,顯著提升了性能、能效和系統(tǒng)可靠性。新產(chǎn)品不僅在帶寬和端口密度方面創(chuàng)下新高,更從根本上重塑了 AI 數(shù)據(jù)中心的經(jīng)濟(jì)模型與物理架構(gòu)。
圖 4:集成共封裝的硅光引擎的 NVIDIA Photonics 交換 ASIC
Quantum-X Photonics如何引領(lǐng)下一代 InfiniBand 網(wǎng)絡(luò)的誕生
隨著 NVIDIA 推出 Quantum-X InfiniBand Photonics 平臺(tái),NVIDIA 將 InfiniBand 交換技術(shù)提升至全新高度。該平臺(tái)具備以下功能:
交換容量達(dá) 115 Tb/s,支持 144 個(gè)端口,每個(gè)端口速率為 800 Gb/s。
借助第四代 NVIDIA SHARP 技術(shù),實(shí)現(xiàn)每秒 14.4 萬億次的網(wǎng)絡(luò)計(jì)算能力。
液冷技術(shù),實(shí)現(xiàn)卓越的散熱管理。
專用 InfiniBand 管理端口,支持強(qiáng)大的帶內(nèi)控制與監(jiān)測(cè)功能。
NVIDIA Quantum-X 采用集成硅光技術(shù),提供無與倫比的帶寬、超低延遲和卓越的運(yùn)營(yíng)可靠性。該 CPO 設(shè)計(jì)不僅降低了功耗、提升了可靠性,還能實(shí)現(xiàn)快速部署,充分滿足大規(guī)模代理式 AI 工作負(fù)載對(duì)互連的嚴(yán)苛需求。
Spectrum-X Photonics如何助力構(gòu)建大規(guī)模以太網(wǎng) AI 工廠
NVIDIA Spectrum-X Photonics 交換機(jī)將 CPO 技術(shù)革命拓展至以太網(wǎng)領(lǐng)域,專為生成式 AI 以及大規(guī)模大語言模型(LLM)的訓(xùn)練與推理任務(wù)而設(shè)計(jì)。全新的 Spectrum-X Photonics 產(chǎn)品包含兩款基于液冷機(jī)箱和 Spectrum-6 ASIC 的系統(tǒng):
Spectrum SN6810:具備 128 個(gè) 800 Gb/s 端口,總帶寬達(dá) 102.4 Tb/s。
Spectrum SN6800:具備 512 個(gè) 800 Gb/s 端口,總帶寬高達(dá) 409.6 Tb/s,性能卓越。
這兩個(gè)平臺(tái)均基于 NVIDIA 硅光技術(shù),大幅減少了離散組件和電接口的數(shù)量。與前代架構(gòu)相比,新架構(gòu)能效提升達(dá) 3.5 倍,同時(shí)通過減少整體易損光學(xué)元件數(shù)量,將系統(tǒng)可靠性提高了 10 倍。技術(shù)人員可享受更高的可維護(hù)性,而 AI 運(yùn)營(yíng)商則能將部署時(shí)間縮短至 1/ 1.3 (約 77%),并顯著縮短第一個(gè) Token 的生成時(shí)間。
NVIDIA 的 CPO 技術(shù)組得益于強(qiáng)大的合作伙伴生態(tài)系統(tǒng)的支持。這種跨行業(yè)協(xié)作不僅保障了技術(shù)性能,更確保了全球大規(guī)模 AI 基礎(chǔ)設(shè)施部署所需的大規(guī)模量產(chǎn)能力與可靠性。
CPO 如何實(shí)現(xiàn)性能、功耗與可靠性的突破
CPO 的優(yōu)勢(shì)顯而易見:
3.5 倍能效提升:通過將光學(xué)器件直接集成到交換機(jī) ASIC 封裝中和減少了可插拔光模塊,即使網(wǎng)絡(luò)密度大幅增加,每個(gè)端口的功耗也顯著降低。
可靠性提升 10 倍:通過減少有源器件和去除了易發(fā)生故障的光模塊,顯著提高了系統(tǒng)正常運(yùn)行時(shí)間和運(yùn)行可靠性。
將運(yùn)營(yíng)時(shí)間縮短至原來的 1/1.3 (約 77%):簡(jiǎn)化的組裝與維護(hù)有助于加快 AI 工廠的部署,并實(shí)現(xiàn)快速擴(kuò)展。
這些交換機(jī)系統(tǒng)具備業(yè)界領(lǐng)先的帶寬性能(高達(dá) 409.6 Tb/s,512 個(gè)端口,單端口速率達(dá) 800 Gb/s),并配備高效的液冷系統(tǒng),能夠應(yīng)對(duì)高密度、高功耗的運(yùn)行環(huán)境。圖 5(下圖)展示了 NVIDIA Quantum-X Photonics Q3450 和 Spectrum-X Photonics 的兩種型號(hào):?jiǎn)?ASIC 的 SN6810,以及集成光纖重組功能的四 ASIC 型號(hào) SN6800。
這些產(chǎn)品共同推動(dòng)了網(wǎng)絡(luò)架構(gòu)的轉(zhuǎn)型,有效滿足了 AI 工作負(fù)載對(duì)高帶寬和超低延遲的嚴(yán)苛需求。通過與先進(jìn)的光學(xué)組件與強(qiáng)大的系統(tǒng)集成伙伴相結(jié)合,構(gòu)建出一個(gè)面向當(dāng)前及未來擴(kuò)展需求高度優(yōu)化的網(wǎng)絡(luò)架構(gòu)。隨著超大規(guī)模數(shù)據(jù)中心對(duì)快速部署和高可靠性的要求不斷提升,CPO 正從一項(xiàng)創(chuàng)新技術(shù)逐步轉(zhuǎn)變?yōu)椴豢苫蛉钡幕A(chǔ)設(shè)施。
圖 5:NVIDIA Quantum-X 與 Spectrum-X Photonics 交換機(jī)系統(tǒng)
如何開啟代理式 AI 的新時(shí)代
NVIDIA Quantum-X 和 Spectrum-X Photonics 交換機(jī)標(biāo)志著網(wǎng)絡(luò)架構(gòu)向?qū)闈M足大規(guī)模 AI 嚴(yán)苛需求而設(shè)計(jì)的全新轉(zhuǎn)變。通過消除傳統(tǒng)的電和可插拔架構(gòu)帶來的瓶頸,CPO 系統(tǒng)能夠提供現(xiàn)代 AI 工廠所需的高性能、高能效與高可靠性。NVIDIA Quantum-X InfiniBand 交換機(jī)預(yù)計(jì)于 2026 年初上市,Spectrum-X 以太網(wǎng)交換機(jī)則將于 2026 年下半年推出。NVIDIA 正以此引領(lǐng)網(wǎng)絡(luò)革新,為代理式 AI 時(shí)代樹立優(yōu)化網(wǎng)絡(luò)的新標(biāo)準(zhǔn)。
敬請(qǐng)關(guān)注本博客的第二部分,我們將深入探討 NVIDIA Quantum-X Photonics 和 Spectrum-X Photonics 平臺(tái)的核心——硅光引擎的架構(gòu)與工作原理,揭示推動(dòng)下一代光連接成為現(xiàn)實(shí)的關(guān)鍵創(chuàng)新與工程突破。從芯片集成的最新進(jìn)展到新型調(diào)制技術(shù),下一篇文章將全面解析這些光電引擎在 AI 網(wǎng)絡(luò)領(lǐng)域中脫穎而出的技術(shù)優(yōu)勢(shì)。
-
以太網(wǎng)
+關(guān)注
關(guān)注
41文章
5967瀏覽量
180204 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5570瀏覽量
109388 -
交換機(jī)
+關(guān)注
關(guān)注
23文章
2889瀏覽量
104163 -
AI
+關(guān)注
關(guān)注
91文章
39126瀏覽量
299771
原文標(biāo)題:利用 CPO 技術(shù)擴(kuò)展 AI 工廠,提高能效
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
NVIDIA Spectrum-X以太網(wǎng)硅光技術(shù)助力AI工廠網(wǎng)絡(luò)創(chuàng)新
國(guó)產(chǎn)AI芯片沖至160億美元:狂歡下的“可靠性”大考
霍爾開關(guān)如何保證自身的可靠性和實(shí)用性
NVIDIA擴(kuò)大與微軟合作推動(dòng)AI超級(jí)工廠建設(shè)
SLM2004SCA-13GTR 200V高壓半橋驅(qū)動(dòng)芯片的可靠性與時(shí)序優(yōu)化設(shè)計(jì)
選PCBA工廠只看設(shè)備?這些“軟實(shí)力”才是可靠性命門!
可靠性設(shè)計(jì)的十個(gè)重點(diǎn)
太誘MLCC電容的可靠性如何?
提供半導(dǎo)體工藝可靠性測(cè)試-WLR晶圓可靠性測(cè)試
電機(jī)微機(jī)控制系統(tǒng)可靠性分析
IGBT的應(yīng)用可靠性與失效分析
電路可靠性設(shè)計(jì)與工程計(jì)算技能概述
適用于數(shù)據(jù)中心和AI時(shí)代的800G網(wǎng)絡(luò)
英偉達(dá)GTC2025亮點(diǎn):NVIDIA認(rèn)證計(jì)劃擴(kuò)展至企業(yè)存儲(chǔ)領(lǐng)域,加速AI工廠部署
一文讀懂芯片可靠性試驗(yàn)項(xiàng)目
NVIDIA如何優(yōu)化AI工廠的網(wǎng)絡(luò)可靠性與功耗
評(píng)論