NVIDIA Spectrum-X 使基于 NVIDIA Hopper 十萬卡 GPU 的巨型系統(tǒng)成為可能
NVIDIA 宣布,xAI 位于田納西州孟菲斯市的Colossus 超級計算機(jī)集群達(dá)到了 10 萬顆 NVIDIA Hopper GPU 的巨大規(guī)模。該集群使用了NVIDIA Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺,該平臺是專為多租戶、超大規(guī)模的 AI 工廠提供卓越性能而設(shè)計的 RDMA(Remote Direct Memory Access)網(wǎng)絡(luò)。
Colossus 是世界上最大的 AI 超級計算機(jī),目前正被用于訓(xùn)練 xAI 的 Grok 系列大語言模型,以及作為 X Premium 用戶功能之一的聊天機(jī)器人(Chatbot)。xAI 正在將 Colossus 的規(guī)模進(jìn)一步擴(kuò)大一倍至 20 萬顆 NVIDIA Hopper GPU。
xAI 和 NVIDIA 僅用了 122 天就建成了所有配套設(shè)施和這臺最先進(jìn)的超級計算機(jī),從第一個機(jī)架落地到開始訓(xùn)練任務(wù),只用了 19 天。而建造這種規(guī)模的系統(tǒng)通常需要數(shù)月乃至數(shù)年的時間。
在訓(xùn)練 Grok 這種超大型模型時,Colossus 實現(xiàn)了空前的網(wǎng)絡(luò)性能,在三層網(wǎng)絡(luò)架構(gòu)下,整個系統(tǒng)未出現(xiàn)任何因流量沖突而造成的應(yīng)用延遲增加或數(shù)據(jù)包丟失的情況。憑借 Spectrum-X 先進(jìn)的擁塞控制功能,系統(tǒng)數(shù)據(jù)吞吐量一直保持在 95%。
這一性能水平是傳統(tǒng)以太網(wǎng)在大規(guī)模的情況下根本無法實現(xiàn)的,傳統(tǒng)以太網(wǎng)在數(shù)千條流發(fā)生沖突時,只能提供 60% 的數(shù)據(jù)吞吐量。
NVIDIA 網(wǎng)絡(luò)高級副總裁 Gilad Shainer表示:“AI 正變得至關(guān)重要,對性能、安全性、可擴(kuò)展性和成本效益提出了更高的要求。NVIDIA Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺專為那些如 xAI 一樣的創(chuàng)新企業(yè)提供更快的處理、分析和執(zhí)行 AI 工作負(fù)載的速度,進(jìn)而加速 AI 解決方案的開發(fā)、部署和上市?!?/p>
埃隆·馬斯克在 X 上表示:“Colossus 是世界上最強(qiáng)大的訓(xùn)練系統(tǒng)。xAI 團(tuán)隊、NVIDIA 和我們的眾多合作伙伴及供應(yīng)商干得漂亮。”
xAI 發(fā)言人表示:“xAI 構(gòu)建了全球規(guī)模最大、性能最強(qiáng)的超級計算機(jī)。借助 NVIDIA Hopper GPU 和 Spectrum-X,我們得以突破大規(guī)模 AI 模型訓(xùn)練的邊界,打造基于以太網(wǎng)標(biāo)準(zhǔn)并經(jīng)過超級加速和優(yōu)化的 AI 工廠。”
Spectrum-X 平臺的核心是 Spectrum SN5600 以太網(wǎng)交換機(jī),它支持高達(dá) 800Gb/s 的端口速度,采用了 Spectrum-4 交換機(jī) ASIC。xAI 采用了Spectrum-X SN5600 交換機(jī)與NVIDIA BlueField-3 SuperNIC的端到端解決方案,實現(xiàn)了前所未有的性能。
專門面向 AI 的 Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)具有先進(jìn)的功能,可在提供高效、可擴(kuò)展的帶寬的同時,實現(xiàn)低延遲和短尾延遲,而這些功能之前是 InfiniBand 網(wǎng)絡(luò)所獨有的。Spectrum-X 的功能包括基于 NVIDIA DDP(Direct Data Placement)技術(shù)的動態(tài)路由、擁塞控制計算,以及增強(qiáng)了 AI 網(wǎng)絡(luò)的可視性和性能隔離,所有這些功能都是多租戶生成式 AI 云和大型企業(yè)應(yīng)用環(huán)境的關(guān)鍵要求。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5496瀏覽量
109091 -
gpu
+關(guān)注
關(guān)注
28文章
5099瀏覽量
134461 -
超級計算機(jī)
+關(guān)注
關(guān)注
2文章
479瀏覽量
43152 -
AI
+關(guān)注
關(guān)注
89文章
38091瀏覽量
296608
原文標(biāo)題:NVIDIA 以太網(wǎng)加速 xAI 構(gòu)建的全球最大 AI 超級計算機(jī)
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
使用NVIDIA技術(shù)驅(qū)動的超級計算機(jī)助力開放科學(xué)研究
NVIDIA DGX Spark桌面AI計算機(jī)開啟預(yù)訂
NVIDIA助力AI超級計算機(jī)Isambard-AI投入使用
NVIDIA驅(qū)動的現(xiàn)代超級計算機(jī)如何突破速度極限并推動科學(xué)發(fā)展
Blue Lion超級計算機(jī)將在NVIDIA Vera Rubin上運行
NVIDIA技術(shù)賦能歐洲最快超級計算機(jī)JUPITER
NVIDIA助力全球最大量子研究超級計算機(jī)
NVIDIA GTC2025 亮點 NVIDIA推出 DGX Spark個人AI計算機(jī)
NVIDIA 宣布推出 DGX Spark 個人 AI 計算機(jī)
MediaTek與NVIDIA攜手打造超級芯片
NVIDIA推出個人AI超級計算機(jī)Project DIGITS
聯(lián)發(fā)科與NVIDIA合作 為NVIDIA 個人AI超級計算機(jī)設(shè)計NVIDIA GB10超級芯片
NVIDIA發(fā)布高性價比生成式AI超級計算機(jī)
NVIDIA 推出高性價比的生成式 AI 超級計算機(jī)

NVIDIA助力xAI打造全球最大AI超級計算機(jī)
評論