CoreWeave 為高性能、安全、多租戶環(huán)境開發(fā)了云規(guī)模加速計算基礎設施
AI 變革正在重塑數(shù)據(jù)中心格局,亟需能夠提供更靈活、高性價比的計算和數(shù)據(jù)能力的平臺。為了滿足這些需求,作為推動 AI 變革的超大規(guī)模云服務提供商,CoreWeave 致力于開發(fā)一種用于加速計算工作負載的云平臺,該云平臺能夠在多租戶環(huán)境中提供高性能、嚴格的租戶隔離和安全性。
CoreWeave 云平臺使用 NVIDIA BlueField DPU,簡化了大規(guī)模先進基礎設施的工程、組裝、運行和監(jiān)測,為 AI 工作負載提供頂尖的性能與效率。
挑戰(zhàn)
為了滿足 AI 的需求,數(shù)據(jù)中心需要具有靈活、高性能、高性價比的計算與數(shù)據(jù)能力的平臺。CoreWeave 致力于開發(fā)一個云規(guī)模的加速計算基礎設施,以便在多租戶環(huán)境中提供高性能、嚴格的租戶隔離和安全性。
CoreWeave 的基礎設施需要支持外部網(wǎng)絡訪問和內(nèi)部網(wǎng)絡計算,還必須能夠管理數(shù)十萬顆 NVIDIA GPU 之間的網(wǎng)絡流量,并在高負載下保持性能。此外,該基礎設施還需要卸載并加速網(wǎng)絡和存儲任務,以釋放 CPU 資源,從而使處理器能夠?qū)W⒂谔幚碛嬎忝芗凸ぷ髫撦d,并加快存儲訪問速度,從而實現(xiàn)更高效的AI計算。CoreWeave 的另一個主要目標是開發(fā)一個能夠滿足 AI 應用日益增長需求的基礎設施,并確保其可擴展性,以便在未來更好的處理日益復雜的計算密集型大規(guī)模工作負載。CoreWeave 借助NVIDIA BlueField 網(wǎng)絡平臺和 NVIDIA DOCA 軟件框架的強大功能來滿足這些需求。
解決方案
CoreWeave 借助 NVIDIA BlueField-3 DPU 來提高其 AI 云基礎設施的效率,提供可擴展性并優(yōu)化其性能。他們使用 DPU 來卸載并加速網(wǎng)絡、管理、存儲和安全服務,并釋放 CPU 資源。
CoreWeave 使用 NVIDIA DOCA 軟件框架在應用程序域和基礎設施服務域進行開發(fā)。
CoreWeave 使用 BlueField DPU 和 DOCA 開發(fā)了一個具有強大、高性價比且快速擴展的平臺,使任何規(guī)模的客戶都能夠創(chuàng)建、訓練和微調(diào)為其特定業(yè)務挑戰(zhàn)而定制的模型。
CoreWeave 將其管理和存儲基礎設施與運行 NVIDIA Cumulus Linux 的NVIDIA Spectrum 以太網(wǎng)交換機連接起來,以實現(xiàn) API 為中心的網(wǎng)絡運營。
CoreWeave 使用 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡平臺作為其 GPU 到 GPU 的 AI 計算網(wǎng)絡,不僅實現(xiàn)了低延遲、高帶寬、高效數(shù)據(jù)傳輸和性能隔離,還確保為要求苛刻的 AI 工作負載提供極佳的性能和可擴展性。
借助 BlueField DPU 和 DOCA增強網(wǎng)絡功能
CoreWeave 使用NVIDIA DOCA 軟件框架中的組件—特別是基于 OVS-DOCA 和DOCA FLOW 的 DOCA基 于主機的網(wǎng)絡(DOCA HBN)服務,加速了云網(wǎng)絡服務和 API。DOCA HBN 利用與 NVIDIA Cumulus Linux 網(wǎng)絡操作系統(tǒng)相同的核心組件,如 FRRouting 和 NVIDIA User Experience(NVUE),并將它們打包到在 BlueField DPU 上運行的容器中。此設置使 CoreWeave 能夠以可擴展、分布式的方式管理復雜的網(wǎng)絡功能,支持多租戶環(huán)境中的租戶隔離、負載均衡和流量引導。這確保每個云租戶只能訪問自己的數(shù)據(jù)和計算任務,并確保這些任務在不影響性能的情況下得到高效管理,從而實現(xiàn)可擴展且安全的網(wǎng)絡。通過卸載和加速這些任務,DOCA HBN 減輕了 CPU 負載,使其能夠處理計算密集型進程,并提高整體系統(tǒng)性能。
借助 DOCA HBN,CoreWeave 將網(wǎng)絡隔離功能遷移至BlueField DPU,并采用 EVPN VXLAN 為每個租戶創(chuàng)建了獨立的虛擬網(wǎng)絡,通過 VXLAN 網(wǎng)絡標識符處理路由流量,以確保實現(xiàn)完全隔離。由于嚴格的網(wǎng)絡隔離對于安全性與合規(guī)性在多租戶環(huán)境中至關重要。CoreWeave 還通過在 BlueField 上部署互聯(lián)網(wǎng)網(wǎng)關實現(xiàn)了去中心化架構,并使用 OVS-DOCA 進行流量引導和網(wǎng)絡地址轉(zhuǎn)換(NAT)。BlueField 還通過托管網(wǎng)關和 BGP 路由,在網(wǎng)絡流量管理方面發(fā)揮至關重要的作用,從而實現(xiàn)高效的網(wǎng)絡管理。
通過 BlueField 集成實現(xiàn)系統(tǒng)級優(yōu)化
為了構建下一代 AI 存儲服務,即 CoreWeave AI 對象存儲,CoreWeave 與 VAST Data 合作,充分利用雙方與 NVIDIA 技術的深度集成。VAST 將 BlueField DPU 作為控制數(shù)據(jù)節(jié)點(DNode),通過 NVIDIA DOCA API 將數(shù)據(jù)服務直接卸載到 BlueField DPU,從而消除了對傳統(tǒng) x86 CPU 的需求。
該架構重新定義了數(shù)據(jù)層的控制和策略執(zhí)行方式,更加接近數(shù)據(jù)流向且效率更高。CoreWeave 最初使用的 NVIDIA DPU 是 BlueField-1,現(xiàn)已發(fā)展至 BlueField-3,并持續(xù)致力于將 BlueField 部署到計算相鄰節(jié)點(CNode)。這實現(xiàn)了基礎設施級的多租戶,其中每個 CoreWeave AI 對象存儲租戶都能在一個隔離且安全的網(wǎng)絡域中運行。實時遙測和細粒度策略執(zhí)行直接在 DPU 層完成。該平臺對多協(xié)議訪問的支持進一步簡化了復雜性,并實現(xiàn)了跨不同計算和數(shù)據(jù)環(huán)境的無縫互操作性。
這種靈活性使 CoreWeave 能夠在不影響性能或犧牲租戶隔離性的情況下擴展 AI 對象存儲。將控制服務卸載到 BlueField DPU 徹底重塑了基礎設施的經(jīng)濟學,因其優(yōu)化了性能、安全性和可擴展性。性能基準測試顯示了該架構演進的優(yōu)點:與基于 x86 架構、配備 DRAM 和傳統(tǒng) NVIDIA ConnectX 網(wǎng)卡的 DNode 相比,基于 BlueField 的 DNode 在連續(xù)吞吐量方面提高了 60%,從 40GB/s 增加至 64GB/s,同時功耗降低了 58%,從 1200 W 下降至 500 W。這相當于每瓦性能提高了 3.84 倍。該設計為現(xiàn)代 AI 基礎設施提供了藍圖,展示了基礎設施層的軟硬件協(xié)同設計如何為 CoreWeave 等云服務提供商帶來效率、可擴展性和性能的巨大提升。
新系統(tǒng)還通過采用四塊 BlueField DPU 和八個 100GbE 端口,將線路帶寬提高至原來的兩倍。雖然部分功耗節(jié)省歸因于采用了更大、更高效的固態(tài)硬盤(SSD),但其整體效率提升主要歸功于 DPU 的集成。此次測試展現(xiàn)了 BlueField DPU 變革數(shù)據(jù)中心架構的潛力,為像 CoreWeave 這樣尋求提升 AI 基礎設施性能和能效的公司提供了夢寐以求的解決方案。

x86 CPU 與 BlueField DPU 的對比
上圖通過對比,顯示出運行在 x86 CPU 和運行在 NVIDIA BlueField DPU 之間的差異。
借助 NVIDIA Spectrum 以太網(wǎng)交換機和 Cumulus Linux 實現(xiàn)云規(guī)模效率
除了利用 BlueField DPU 來卸載、加速和隔離工作負載外,CoreWeave 還通過運行 NVIDIA Cumulus Linux 的 NVIDIA Spectrum 以太網(wǎng)交換機來連接存儲和管理基礎設施。Cumulus Linux 旨在通過軟件驅(qū)動的自動化來簡化網(wǎng)絡管理。通過將純?nèi)龑?EVPN VXLAN 與 NVUE 對象模型的 API 相結合,CoreWeave 即使在大規(guī)模情況下也能輕松管理網(wǎng)絡的自動化、運營和更新。
利用 NVIDIA Quantum-2 InfiniBand實現(xiàn)極高的 AI 性能
CoreWeave 利用 BlueField DPU 和 Spectrum 以太網(wǎng)交換機構建存儲與管理網(wǎng)絡,同時使用 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡平臺構建 GPU 到 GPU 的 AI 計算網(wǎng)絡。InfiniBand 是 AI 網(wǎng)絡的黃金標準,可為高負載和大規(guī)模 AI 訓練工作負載提供極高的有效帶寬和超低的延遲。InfiniBand 的功能,如動態(tài)路由和基于遙測的擁塞控制,對于多租戶 AI 云環(huán)境至關重要,能夠?qū)崿F(xiàn)性能隔離,并確保所有 CoreWeave 用戶都能獲得所需的全部網(wǎng)絡帶寬。CoreWeave 還使用 Quantum InfiniBand 的 NVIDIA 可擴展分層聚合和歸約協(xié)議(SHARP)進行 AI 集合操作網(wǎng)絡計算,卸載 GPU 的通信操作,簡化網(wǎng)絡流量模式,并加快任務完成時間。
總結
CoreWeave 使用 NVIDIA DOCA 部署 NVIDIA BlueField DPU,從而變革了其 AI 云基礎設施,并在技術、運營和業(yè)務層面帶來了顯著的價值。通過集成 BlueField DPU,CoreWeave 構建出一個高效、可擴展、安全的平臺,滿足了現(xiàn)代 AI 工作負載和云端運營的嚴苛要求。憑借將 VAST Data 的存儲解決方案與NVIDIA BlueField DPU相結合這一創(chuàng)新方法,CoreWeave 已躋身領先的 AI 云服務提供商之列,并通過對創(chuàng)新技術的不懈追求來滿足未來的客戶需求,同時應對日益復雜的 AI 工作負載。
戰(zhàn)略性的部署 NVIDIA BlueField DPU 和 NVIDIA DOCA 軟件框架等先進技術,可以徹底改變 AI 應用的云基礎設施。CoreWeave 成功利用 BlueField DPU 構建了可擴展、高效且安全的 AI 云平臺,彰顯了 BlueField DPU 在優(yōu)化 AI 和高性能計算基礎設施方面的顯著優(yōu)勢。
-
NVIDIA
+關注
關注
14文章
5597瀏覽量
109796 -
數(shù)據(jù)中心
+關注
關注
18文章
5654瀏覽量
75039 -
AI
+關注
關注
91文章
39844瀏覽量
301505 -
DPU
+關注
關注
0文章
414瀏覽量
27001
原文標題:CoreWeave 借助 NVIDIA BlueField DPU 開創(chuàng)數(shù)據(jù)中心新范式
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
NVIDIA DRIVE AV軟件平臺與Halos架構助力梅賽德斯奔馳CLA車型獲得最高安全評分
NVIDIA攜手Mistral AI發(fā)布全新開源大語言模型系列
云途MCU助力BCM控制器智能升級
NVIDIA Spectrum-X 以太網(wǎng)交換機助力 Meta 和 Oracle 加速網(wǎng)絡性能
使用RTT的維護云進行遠程固件升級(OTA),怎么沒有網(wǎng)絡升級的方式?
睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級
信捷視覺平臺全新升級
NVIDIA Dynamo新增對亞馬遜云科技服務的支持
NVIDIA助力CoreWeave云平臺性能升級
評論