CoreWeave 為高性能、安全、多租戶(hù)環(huán)境開(kāi)發(fā)了云規(guī)模加速計(jì)算基礎(chǔ)設(shè)施
AI 變革正在重塑數(shù)據(jù)中心格局,亟需能夠提供更靈活、高性?xún)r(jià)比的計(jì)算和數(shù)據(jù)能力的平臺(tái)。為了滿足這些需求,作為推動(dòng) AI 變革的超大規(guī)模云服務(wù)提供商,CoreWeave 致力于開(kāi)發(fā)一種用于加速計(jì)算工作負(fù)載的云平臺(tái),該云平臺(tái)能夠在多租戶(hù)環(huán)境中提供高性能、嚴(yán)格的租戶(hù)隔離和安全性。
CoreWeave 云平臺(tái)使用 NVIDIA BlueField DPU,簡(jiǎn)化了大規(guī)模先進(jìn)基礎(chǔ)設(shè)施的工程、組裝、運(yùn)行和監(jiān)測(cè),為 AI 工作負(fù)載提供頂尖的性能與效率。
挑戰(zhàn)
為了滿足 AI 的需求,數(shù)據(jù)中心需要具有靈活、高性能、高性?xún)r(jià)比的計(jì)算與數(shù)據(jù)能力的平臺(tái)。CoreWeave 致力于開(kāi)發(fā)一個(gè)云規(guī)模的加速計(jì)算基礎(chǔ)設(shè)施,以便在多租戶(hù)環(huán)境中提供高性能、嚴(yán)格的租戶(hù)隔離和安全性。
CoreWeave 的基礎(chǔ)設(shè)施需要支持外部網(wǎng)絡(luò)訪問(wèn)和內(nèi)部網(wǎng)絡(luò)計(jì)算,還必須能夠管理數(shù)十萬(wàn)顆 NVIDIA GPU 之間的網(wǎng)絡(luò)流量,并在高負(fù)載下保持性能。此外,該基礎(chǔ)設(shè)施還需要卸載并加速網(wǎng)絡(luò)和存儲(chǔ)任務(wù),以釋放 CPU 資源,從而使處理器能夠?qū)W⒂谔幚碛?jì)算密集型工作負(fù)載,并加快存儲(chǔ)訪問(wèn)速度,從而實(shí)現(xiàn)更高效的AI計(jì)算。CoreWeave 的另一個(gè)主要目標(biāo)是開(kāi)發(fā)一個(gè)能夠滿足 AI 應(yīng)用日益增長(zhǎng)需求的基礎(chǔ)設(shè)施,并確保其可擴(kuò)展性,以便在未來(lái)更好的處理日益復(fù)雜的計(jì)算密集型大規(guī)模工作負(fù)載。CoreWeave 借助NVIDIA BlueField 網(wǎng)絡(luò)平臺(tái)和 NVIDIA DOCA 軟件框架的強(qiáng)大功能來(lái)滿足這些需求。
解決方案
CoreWeave 借助 NVIDIA BlueField-3 DPU 來(lái)提高其 AI 云基礎(chǔ)設(shè)施的效率,提供可擴(kuò)展性并優(yōu)化其性能。他們使用 DPU 來(lái)卸載并加速網(wǎng)絡(luò)、管理、存儲(chǔ)和安全服務(wù),并釋放 CPU 資源。
CoreWeave 使用 NVIDIA DOCA 軟件框架在應(yīng)用程序域和基礎(chǔ)設(shè)施服務(wù)域進(jìn)行開(kāi)發(fā)。
CoreWeave 使用 BlueField DPU 和 DOCA 開(kāi)發(fā)了一個(gè)具有強(qiáng)大、高性?xún)r(jià)比且快速擴(kuò)展的平臺(tái),使任何規(guī)模的客戶(hù)都能夠創(chuàng)建、訓(xùn)練和微調(diào)為其特定業(yè)務(wù)挑戰(zhàn)而定制的模型。
CoreWeave 將其管理和存儲(chǔ)基礎(chǔ)設(shè)施與運(yùn)行 NVIDIA Cumulus Linux 的NVIDIA Spectrum 以太網(wǎng)交換機(jī)連接起來(lái),以實(shí)現(xiàn) API 為中心的網(wǎng)絡(luò)運(yùn)營(yíng)。
CoreWeave 使用 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡(luò)平臺(tái)作為其 GPU 到 GPU 的 AI 計(jì)算網(wǎng)絡(luò),不僅實(shí)現(xiàn)了低延遲、高帶寬、高效數(shù)據(jù)傳輸和性能隔離,還確保為要求苛刻的 AI 工作負(fù)載提供極佳的性能和可擴(kuò)展性。
借助 BlueField DPU 和 DOCA增強(qiáng)網(wǎng)絡(luò)功能
CoreWeave 使用NVIDIA DOCA 軟件框架中的組件—特別是基于 OVS-DOCA 和DOCA FLOW 的 DOCA基 于主機(jī)的網(wǎng)絡(luò)(DOCA HBN)服務(wù),加速了云網(wǎng)絡(luò)服務(wù)和 API。DOCA HBN 利用與 NVIDIA Cumulus Linux 網(wǎng)絡(luò)操作系統(tǒng)相同的核心組件,如 FRRouting 和 NVIDIA User Experience(NVUE),并將它們打包到在 BlueField DPU 上運(yùn)行的容器中。此設(shè)置使 CoreWeave 能夠以可擴(kuò)展、分布式的方式管理復(fù)雜的網(wǎng)絡(luò)功能,支持多租戶(hù)環(huán)境中的租戶(hù)隔離、負(fù)載均衡和流量引導(dǎo)。這確保每個(gè)云租戶(hù)只能訪問(wèn)自己的數(shù)據(jù)和計(jì)算任務(wù),并確保這些任務(wù)在不影響性能的情況下得到高效管理,從而實(shí)現(xiàn)可擴(kuò)展且安全的網(wǎng)絡(luò)。通過(guò)卸載和加速這些任務(wù),DOCA HBN 減輕了 CPU 負(fù)載,使其能夠處理計(jì)算密集型進(jìn)程,并提高整體系統(tǒng)性能。
借助 DOCA HBN,CoreWeave 將網(wǎng)絡(luò)隔離功能遷移至BlueField DPU,并采用 EVPN VXLAN 為每個(gè)租戶(hù)創(chuàng)建了獨(dú)立的虛擬網(wǎng)絡(luò),通過(guò) VXLAN 網(wǎng)絡(luò)標(biāo)識(shí)符處理路由流量,以確保實(shí)現(xiàn)完全隔離。由于嚴(yán)格的網(wǎng)絡(luò)隔離對(duì)于安全性與合規(guī)性在多租戶(hù)環(huán)境中至關(guān)重要。CoreWeave 還通過(guò)在 BlueField 上部署互聯(lián)網(wǎng)網(wǎng)關(guān)實(shí)現(xiàn)了去中心化架構(gòu),并使用 OVS-DOCA 進(jìn)行流量引導(dǎo)和網(wǎng)絡(luò)地址轉(zhuǎn)換(NAT)。BlueField 還通過(guò)托管網(wǎng)關(guān)和 BGP 路由,在網(wǎng)絡(luò)流量管理方面發(fā)揮至關(guān)重要的作用,從而實(shí)現(xiàn)高效的網(wǎng)絡(luò)管理。
通過(guò) BlueField 集成實(shí)現(xiàn)系統(tǒng)級(jí)優(yōu)化
為了構(gòu)建下一代 AI 存儲(chǔ)服務(wù),即 CoreWeave AI 對(duì)象存儲(chǔ),CoreWeave 與 VAST Data 合作,充分利用雙方與 NVIDIA 技術(shù)的深度集成。VAST 將 BlueField DPU 作為控制數(shù)據(jù)節(jié)點(diǎn)(DNode),通過(guò) NVIDIA DOCA API 將數(shù)據(jù)服務(wù)直接卸載到 BlueField DPU,從而消除了對(duì)傳統(tǒng) x86 CPU 的需求。
該架構(gòu)重新定義了數(shù)據(jù)層的控制和策略執(zhí)行方式,更加接近數(shù)據(jù)流向且效率更高。CoreWeave 最初使用的 NVIDIA DPU 是 BlueField-1,現(xiàn)已發(fā)展至 BlueField-3,并持續(xù)致力于將 BlueField 部署到計(jì)算相鄰節(jié)點(diǎn)(CNode)。這實(shí)現(xiàn)了基礎(chǔ)設(shè)施級(jí)的多租戶(hù),其中每個(gè) CoreWeave AI 對(duì)象存儲(chǔ)租戶(hù)都能在一個(gè)隔離且安全的網(wǎng)絡(luò)域中運(yùn)行。實(shí)時(shí)遙測(cè)和細(xì)粒度策略執(zhí)行直接在 DPU 層完成。該平臺(tái)對(duì)多協(xié)議訪問(wèn)的支持進(jìn)一步簡(jiǎn)化了復(fù)雜性,并實(shí)現(xiàn)了跨不同計(jì)算和數(shù)據(jù)環(huán)境的無(wú)縫互操作性。
這種靈活性使 CoreWeave 能夠在不影響性能或犧牲租戶(hù)隔離性的情況下擴(kuò)展 AI 對(duì)象存儲(chǔ)。將控制服務(wù)卸載到 BlueField DPU 徹底重塑了基礎(chǔ)設(shè)施的經(jīng)濟(jì)學(xué),因其優(yōu)化了性能、安全性和可擴(kuò)展性。性能基準(zhǔn)測(cè)試顯示了該架構(gòu)演進(jìn)的優(yōu)點(diǎn):與基于 x86 架構(gòu)、配備 DRAM 和傳統(tǒng) NVIDIA ConnectX 網(wǎng)卡的 DNode 相比,基于 BlueField 的 DNode 在連續(xù)吞吐量方面提高了 60%,從 40GB/s 增加至 64GB/s,同時(shí)功耗降低了 58%,從 1200 W 下降至 500 W。這相當(dāng)于每瓦性能提高了 3.84 倍。該設(shè)計(jì)為現(xiàn)代 AI 基礎(chǔ)設(shè)施提供了藍(lán)圖,展示了基礎(chǔ)設(shè)施層的軟硬件協(xié)同設(shè)計(jì)如何為 CoreWeave 等云服務(wù)提供商帶來(lái)效率、可擴(kuò)展性和性能的巨大提升。
新系統(tǒng)還通過(guò)采用四塊 BlueField DPU 和八個(gè) 100GbE 端口,將線路帶寬提高至原來(lái)的兩倍。雖然部分功耗節(jié)省歸因于采用了更大、更高效的固態(tài)硬盤(pán)(SSD),但其整體效率提升主要?dú)w功于 DPU 的集成。此次測(cè)試展現(xiàn)了 BlueField DPU 變革數(shù)據(jù)中心架構(gòu)的潛力,為像 CoreWeave 這樣尋求提升 AI 基礎(chǔ)設(shè)施性能和能效的公司提供了夢(mèng)寐以求的解決方案。

x86 CPU 與 BlueField DPU 的對(duì)比
上圖通過(guò)對(duì)比,顯示出運(yùn)行在 x86 CPU 和運(yùn)行在 NVIDIA BlueField DPU 之間的差異。
借助 NVIDIA Spectrum 以太網(wǎng)交換機(jī)和 Cumulus Linux 實(shí)現(xiàn)云規(guī)模效率
除了利用 BlueField DPU 來(lái)卸載、加速和隔離工作負(fù)載外,CoreWeave 還通過(guò)運(yùn)行 NVIDIA Cumulus Linux 的 NVIDIA Spectrum 以太網(wǎng)交換機(jī)來(lái)連接存儲(chǔ)和管理基礎(chǔ)設(shè)施。Cumulus Linux 旨在通過(guò)軟件驅(qū)動(dòng)的自動(dòng)化來(lái)簡(jiǎn)化網(wǎng)絡(luò)管理。通過(guò)將純?nèi)龑?EVPN VXLAN 與 NVUE 對(duì)象模型的 API 相結(jié)合,CoreWeave 即使在大規(guī)模情況下也能輕松管理網(wǎng)絡(luò)的自動(dòng)化、運(yùn)營(yíng)和更新。
利用 NVIDIA Quantum-2 InfiniBand實(shí)現(xiàn)極高的 AI 性能
CoreWeave 利用 BlueField DPU 和 Spectrum 以太網(wǎng)交換機(jī)構(gòu)建存儲(chǔ)與管理網(wǎng)絡(luò),同時(shí)使用 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡(luò)平臺(tái)構(gòu)建 GPU 到 GPU 的 AI 計(jì)算網(wǎng)絡(luò)。InfiniBand 是 AI 網(wǎng)絡(luò)的黃金標(biāo)準(zhǔn),可為高負(fù)載和大規(guī)模 AI 訓(xùn)練工作負(fù)載提供極高的有效帶寬和超低的延遲。InfiniBand 的功能,如動(dòng)態(tài)路由和基于遙測(cè)的擁塞控制,對(duì)于多租戶(hù) AI 云環(huán)境至關(guān)重要,能夠?qū)崿F(xiàn)性能隔離,并確保所有 CoreWeave 用戶(hù)都能獲得所需的全部網(wǎng)絡(luò)帶寬。CoreWeave 還使用 Quantum InfiniBand 的 NVIDIA 可擴(kuò)展分層聚合和歸約協(xié)議(SHARP)進(jìn)行 AI 集合操作網(wǎng)絡(luò)計(jì)算,卸載 GPU 的通信操作,簡(jiǎn)化網(wǎng)絡(luò)流量模式,并加快任務(wù)完成時(shí)間。
總結(jié)
CoreWeave 使用 NVIDIA DOCA 部署 NVIDIA BlueField DPU,從而變革了其 AI 云基礎(chǔ)設(shè)施,并在技術(shù)、運(yùn)營(yíng)和業(yè)務(wù)層面帶來(lái)了顯著的價(jià)值。通過(guò)集成 BlueField DPU,CoreWeave 構(gòu)建出一個(gè)高效、可擴(kuò)展、安全的平臺(tái),滿足了現(xiàn)代 AI 工作負(fù)載和云端運(yùn)營(yíng)的嚴(yán)苛要求。憑借將 VAST Data 的存儲(chǔ)解決方案與NVIDIA BlueField DPU相結(jié)合這一創(chuàng)新方法,CoreWeave 已躋身領(lǐng)先的 AI 云服務(wù)提供商之列,并通過(guò)對(duì)創(chuàng)新技術(shù)的不懈追求來(lái)滿足未來(lái)的客戶(hù)需求,同時(shí)應(yīng)對(duì)日益復(fù)雜的 AI 工作負(fù)載。
戰(zhàn)略性的部署 NVIDIA BlueField DPU 和 NVIDIA DOCA 軟件框架等先進(jìn)技術(shù),可以徹底改變 AI 應(yīng)用的云基礎(chǔ)設(shè)施。CoreWeave 成功利用 BlueField DPU 構(gòu)建了可擴(kuò)展、高效且安全的 AI 云平臺(tái),彰顯了 BlueField DPU 在優(yōu)化 AI 和高性能計(jì)算基礎(chǔ)設(shè)施方面的顯著優(yōu)勢(shì)。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5494瀏覽量
109016 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
5504瀏覽量
74620 -
AI
+關(guān)注
關(guān)注
89文章
37998瀏覽量
295909 -
DPU
+關(guān)注
關(guān)注
0文章
406瀏覽量
26138
原文標(biāo)題:CoreWeave 借助 NVIDIA BlueField DPU 開(kāi)創(chuàng)數(shù)據(jù)中心新范式
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
云途MCU助力BCM控制器智能升級(jí)
NVIDIA Spectrum-X 以太網(wǎng)交換機(jī)助力 Meta 和 Oracle 加速網(wǎng)絡(luò)性能
睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級(jí)
信捷視覺(jué)平臺(tái)全新升級(jí)
NVIDIA計(jì)劃打造全球首個(gè)工業(yè)AI云平臺(tái)
NVIDIA技術(shù)助力歐洲廠商推出機(jī)器人系統(tǒng)與平臺(tái)
NVIDIA推出AI平臺(tái)DGX Cloud Lepton
NVIDIA攜手谷歌云助力企業(yè)引入代理式AI
NVIDIA助力解決量子計(jì)算領(lǐng)域重大挑戰(zhàn)
云驥智行借助NVIDIA Jetson打造“域腦”通用計(jì)算平臺(tái)
華為云Stack助力統(tǒng)計(jì)信息化智能升級(jí)
利用NVIDIA DPF引領(lǐng)DPU加速云計(jì)算的未來(lái)

NVIDIA助力CoreWeave云平臺(tái)性能升級(jí)
評(píng)論