NVIDIA DOCA 框架已發(fā)展成為新一代 AI 基礎設施的重要組成部分。從初始版本到備受期待的NVIDIA DOCA 3.0發(fā)布,每個版本都擴展了NVIDIA BlueField DPU和ConnectX SuperNIC的功能,從而實現(xiàn)了前所未有的 AI 平臺可擴展性和性能。
通過豐富的庫和服務生態(tài)系統(tǒng),DOCA 充分利用 BlueField DPU 和 SuperNIC,實現(xiàn)了在超過 10 萬個 GPU 上的超大規(guī)模部署,同時保持嚴格的租戶隔離并優(yōu)化資源利用率。DOCA 的安全功能可為容器化 AI 工作負載提供硬件級威脅檢測,而不會對性能造成影響。DOCA 的智能數(shù)據(jù)加速功能解決了 AI 數(shù)據(jù)流水線中的關鍵瓶頸,而其編排功能則簡化了復雜的 DPU 加速服務部署。
本文將介紹 DOCA 3.0,它代表了這些進步的最終成果。DOCA 3.0 為 AI 工廠提供全新升級的基礎設施服務,并為 AI 數(shù)據(jù)中心基礎設施提供優(yōu)化的框架,為開發(fā)者提供構建安全、高效的 AI 基礎設施所需的必要工具,其規(guī)模之大前所未有。如今,一個廣泛且蓬勃發(fā)展的開發(fā)者社區(qū)正在使用 DOCA,這項技術將繼續(xù)改變企業(yè)部署、管理和編排基礎設施的方式,為未來的 AI 創(chuàng)新提供支持。
DOCA 3.0 簡介
在當今快速發(fā)展的 AI 領域中,支持大規(guī)模 AI 部署的基礎設施與模型本身同樣重要。隨著企業(yè)從實驗性 AI 項目擴展到生產(chǎn)就緒型部署,底層計算、網(wǎng)絡和存儲基礎設施必須不斷發(fā)展,以滿足前所未有的需求。DOCA 正是這一發(fā)展的核心,它正在徹底改變開發(fā)者構建、部署和管理下一代 AI 平臺的方式。
最新版本的 DOCA 3.0 為開發(fā)者提供了豐富的庫、驅(qū)動和 API,幫助他們?yōu)?NVIDIA BlueField DPU 和 Connect-X SuperNIC 創(chuàng)建高性能應用程序和服務。這一創(chuàng)新框架可將資源密集型任務從 CPU 卸載到專用硬件加速器,從而顯著提高 AI 工作負載的性能、安全性和效率。
DOCA 3.0 的亮點包括:
DOCA 支持 InfiniBand Quantum-X800 和 ConnectX-8 SuperNIC (GA)
用于 NIM 容器威脅檢測的全新 DOCA Argus 服務
DOCA 平臺框架(DPF)可信主機用例(GA)
使用 BlueField-3 的 DOCA SNAP Virtio-fs(測試版)文件系統(tǒng)仿真
適用于 AI 計算集群的 DOCA Perftest(GA)RDMA 基準工具
圖 1:NVIDIA DOCA 3.0 堆棧
超大規(guī)模 GPU 計算:擴展多租戶 AI 工廠
構建具有更多參數(shù)和訓練數(shù)據(jù)的更大規(guī)模 AI 模型的競賽,將計算需求推向了前所未有的高度。現(xiàn)代 AI 工廠必須支持涵蓋數(shù)萬個 GPU 的大規(guī)模部署,同時保持租戶之間嚴格的性能隔離。
DOCA 通過其網(wǎng)絡庫解決這一挑戰(zhàn),這些庫在多租戶環(huán)境中實現(xiàn)高效的資源利用和工作負載隔離。具體而言,DOCA RDMA 庫提供了對大規(guī)模分布式 AI 訓練至關重要的高性能、低延遲通信功能。該庫支持節(jié)點之間的直接內(nèi)存訪問,無需 CPU 參與,從而顯著降低多 GPU 系統(tǒng)中的通信開銷。
DOCA GPUNetIO 庫通過 GPUDirect Async Kernal-initiated 通信(GDAKI),在網(wǎng)絡中提供 GPU 之間的直接數(shù)據(jù)路徑,進一步增強 GPU 之間的通信,從而實現(xiàn)對分布式訓練算法至關重要的高效集合操作。這些庫與 DOCA 以太網(wǎng)、DOCA RDMA 或 DOCA DMA 協(xié)同工作,構建了一個高性能網(wǎng)絡基礎,可以擴展到支持超過 10 萬個 GPU 的部署。
傳統(tǒng)的軟件定義數(shù)據(jù)中心方法可能會消耗 30% 甚至更多的服務器 CPU 核心。通過DOCA Flow等庫將這些功能卸載到 BlueField DPU,DOCA 可以釋放寶貴的 CPU 資源用于 AI 計算,這相當于 30 多個 CPU 核心的性能。DOCA Flow 庫支持復雜的數(shù)據(jù)包處理和流管理,支持大規(guī)模 AI 工廠中復雜的流量模式。
適用于 AI 工作負載的多租戶隔離
DOCA 架構通過其基于主機的網(wǎng)絡服務提供強大的隔離機制,確保來自不同租戶的工作負載保持安全隔離。該服務在租戶環(huán)境之間實施硬件強制隔離,防止未經(jīng)授權的訪問,同時實現(xiàn) AI 的無縫執(zhí)行。對于將敏感 AI 工作負載與其他應用程序一同運行的云服務提供商和企業(yè)而言,此功能至關重要。
強大的威脅檢測:實時保護 AI 工作負載
隨著 AI 系統(tǒng)對業(yè)務運營的重要性與日俱增,保護其免受威脅也變得至關重要。DOCA 釋放了 BlueField DPU 和 SuperNIC 的網(wǎng)絡安全潛力,支持快速創(chuàng)建和集成應用程序,從而卸載和加速加密、分布式防火墻、入侵檢測和網(wǎng)絡微分段等安全任務。
通過結合使用 DOCA 庫,NVIDIA 網(wǎng)絡安全 AI 平臺利用硬件級檢測提供對網(wǎng)絡流量和系統(tǒng)行為的深度可視性。與依賴軟件代理的傳統(tǒng)安全解決方案不同,BlueField DPU 充當嵌入式安全處理器,可將關鍵的網(wǎng)絡安全任務從傳統(tǒng) CPU 上卸載。這種方法可以在不影響系統(tǒng)性能的情況下實現(xiàn)實時監(jiān)測和保護。
DOCA 支持的安全應用程序可以:
持續(xù)分析遙測數(shù)據(jù),識別潛在威脅的模式和異常
通過 AI 驅(qū)動的異常檢測提供實時威脅檢測
在風險升級為重大安全事件之前主動降低風險
在 AI 組件之間實施強大的加密和安全通信通道
對于 AI 工作負載,這種安全架構具有顯著優(yōu)勢。AI 模型和訓練數(shù)據(jù)通常代表著寶貴的知識產(chǎn)權,因此成為攻擊的主要目標。DOCA 支持機密計算功能,可保護部署在 NVIDIA Blackwell 和 NVIDIA Hopper GPU 上的 AI 模型、算法和數(shù)據(jù)的機密性和完整性。
此外,DOCA 的安全功能能夠應對 AI 驅(qū)動環(huán)境中 IT 和 OT 系統(tǒng)融合所帶來的復雜威脅形勢。通過提供硬件加速的安全功能,DOCA 可確保安全措施不會成為 AI 應用的性能瓶頸。
加速下一代 AI 的數(shù)據(jù)處理
數(shù)據(jù)處理是現(xiàn)代 AI 工作流中最重大的挑戰(zhàn)之一。最新一代的 AI 模型需要前所未有的海量訓練數(shù)據(jù),這給存儲和網(wǎng)絡基礎設施帶來了巨大壓力。
DOCA 通過其全面的數(shù)據(jù)加速功能來解決這一挑戰(zhàn)。該框架的數(shù)據(jù)路徑加速器利用 BlueField-3 DPA 編程子系統(tǒng)提供一種編程模型,可將以通信為中心的用戶代碼卸載到專用的 DPA 處理器上運行。這種卸載功能可顯著降低 CPU 開銷,同時通過 DPU 加速來提高性能。
此外,為了優(yōu)化 AI 流水線中的數(shù)據(jù)壓縮,DOCA 壓縮庫提供了硬件加速的壓縮和解壓縮功能。此功能可在不增加 CPU 或 GPU 計算負載的情況下減少數(shù)據(jù)傳輸時間和存儲需求。同樣,DOCA Erasure Coding 庫提供了彈性數(shù)據(jù)存儲功能,這對于保護寶貴的 AI 數(shù)據(jù)集至關重要。
為了應對現(xiàn)代 AI 工作流帶來的挑戰(zhàn),DOCA Flow 庫實現(xiàn)了 AI 數(shù)據(jù)流水線的高性能網(wǎng)絡,它提供了先進的數(shù)據(jù)包處理功能,可優(yōu)化整個網(wǎng)絡中的數(shù)據(jù)移動。DOCA Rivermax 庫通過提供高級功能來簡化存儲系統(tǒng)和計算節(jié)點之間的數(shù)據(jù)傳輸,從而進一步提高網(wǎng)絡性能。
優(yōu)化 AI 數(shù)據(jù)流水線的網(wǎng)絡性能
DOCA 基于主機的網(wǎng)絡(HBN)3.0 為無控制器 VPC 網(wǎng)絡提供了顯著的可擴展性改進,支持高達八千個 VTEP 和八萬個 Type-5 路由,并計劃增加對一萬六千甚至更多個 VTEP 的支持。此外,DOCA 3.0 還為 HBN 引入了兩項附加功能:雙向轉(zhuǎn)發(fā)檢測(BFD)支持[GA],通過主動鏈路監(jiān)測實現(xiàn)快速路由收斂,以及 ECMP 故障轉(zhuǎn)移增強功能,通過更快的故障轉(zhuǎn)移確保最大限度的減少停機時間。
總的來說,這些功能使 HBN 成為裸金屬部署的理想選擇,并使 AI 平臺能夠處理存儲系統(tǒng)、計算節(jié)點和外部數(shù)據(jù)源之間的海量數(shù)據(jù)流。
對于 AI 開發(fā)者來說,DOCA 智能數(shù)據(jù)平臺功能可轉(zhuǎn)化為:
降低訓練和推理流水線的數(shù)據(jù)處理延遲
提高數(shù)據(jù)密集型 AI 操作的吞吐量
提高計算和存儲基礎設施的資源利用效率
支持 IPMX 等新興視聽 AI 應用標準
增強的 DOCA FireFly 服務通過硬件加速帶來了先進的時間同步功能,提供分布式 AI 訓練工作負載所必需的高精度同步能力。此功能可實現(xiàn)跨 GPU 集群的更高效協(xié)調(diào),這對于大規(guī)模訓練和模型并行等技術尤為重要。
DPU 驅(qū)動的基礎設施服務無縫管理
現(xiàn)代 AI 基礎設施的復雜性要求具備先進的編排能力。DOCA 3.0 針對可信主機的 DOCA 平臺框架(DPF)已正式發(fā)布,它將 Kubernetes 控制平面功能擴展到 DPU,使管理員能夠部署和編排 NVIDIA DOCA 服務和第三方應用程序。
DOCA 服務是基于 DOCA 的容器化產(chǎn)品,采用容器封裝,可在 BlueField DPU 上便捷部署。這些服務利用 DPU 功能來提供遙測、時間同步、網(wǎng)絡解決方案等功能,所有這些功能都可以通過 NGC 目錄獲取。
圖 2:DOCA 平臺框架堆棧(GA)
通過引入專用的輔助 Kubernetes 控制平面,DPF 使管理員能夠高效管理部署在 BlueField DPU 上的 DOCA 服務。該框架簡化了 DPU 管理的復雜性,使管理員能夠與熟悉的 Kubernetes 結構進行交互。這種方法顯著簡化了 AI 基礎設施服務的部署和運維。
DPF 服務的功能鏈功能可在單個 DPU 上集成加速網(wǎng)絡、高性能數(shù)據(jù)服務、安全功能等多種服務。這種編排功能創(chuàng)建了一個靈活的多供應商生態(tài)系統(tǒng),從而為 AI 應用提供加速網(wǎng)絡服務。
實際部署展示了這種方法的切實優(yōu)勢。NVIDIA DOCA 平臺框架與 Red Hat OpenShift 的集成已顯示出顯著的性能提升,RDMA 測試的平均帶寬達到 383.72Gb/s。這種網(wǎng)絡性能水平對于 LLM 等數(shù)據(jù)密集型 AI 工作負載至關重要。
對于 AI 平臺運營商,DOCA 基礎設施服務編排功能提供:
簡化復雜 AI 優(yōu)化基礎設施的部署和管理
強大的生命周期管理,實現(xiàn)無縫的服務更新、擴展和回滾
部署前驗證,確保兼容性和需求得到滿足
實時監(jiān)測和可調(diào)試性,確保高可靠性
加速并保護 NVIDIA NIM 微服務和 AI 工作負載
利用 DOCA 平臺框架的先進編排功能、DOCA HBN、OVS-DOCA、DOCA SNAP Virtio-fs 以及最新服務NVIDIA DOCA Argus相結合,加速和保護 NVIDIA NIM 微服務和 AI 工作負載。這凸顯了 DOCA 不斷發(fā)展的價值,并讓我們一窺未來解決方案將如何從框架中不斷涌現(xiàn)。
DOCA Argus 是一個網(wǎng)絡安全框架,旨在通過在 BlueField DPU 上提供無代理實時威脅檢測來保護 AI 工廠。Argus 獨立于主機系統(tǒng)運行,其攻擊檢測和響應速度比傳統(tǒng)解決方案快 1000 倍,且不會影響性能。
它與企業(yè)安全系統(tǒng)無縫集成,提供持續(xù)監(jiān)測和自動威脅緩解。Augus 利用先進的內(nèi)存取證和可操作情報,經(jīng)過優(yōu)化,可大規(guī)模保護容器化和多租戶 AI 工作負載。
DOCA Argus 與 OVS-DOCA 和 DOCA SNAP Virtio-fs 相結合,為 NVIDIA BlueField DPU 上的 AI 工作負載形成了創(chuàng)新的安全解決方案,解決了不同的基礎設施層問題,同時實現(xiàn)了跨組件威脅緩解。
圖 3:使用 DOCA 3.0 加速并保護
NIM 微服務和 AI 工作負載
DOCA Argus(計算層)通過 DPU 級內(nèi)存和進程分析監(jiān)測 AI 工作負載,并依賴 OVS-DOCA 卸載和隔離網(wǎng)絡流量(網(wǎng)絡層)。同時,DOCA SNAP Virtio-fs(存儲層)通過 DPU 模擬的 Virtio 設備虛擬化文件系統(tǒng)訪問,將存儲 IO 與主機內(nèi)核隔離開來,并為 Argus 提供異常訪問模式的審計日志。
該集成框架將安全性嵌入到計算層、網(wǎng)絡層和存儲層中,為 NIM 微服務實現(xiàn)亞毫秒級威脅響應,同時保持容器化 AI 流水線的可擴展性。
開始使用 DOCA 3.0
隨著 AI 持續(xù)變革各行各業(yè),支撐其發(fā)展的基礎設施必須隨之發(fā)展。NVIDIA DOCA 框架代表著開發(fā)者構建和部署 AI 平臺方式的根本性轉(zhuǎn)變,并通過其全面的庫和服務提供前所未有的性能、安全性和效率。
DOCA SDK 圍繞不同的 DOCA 庫構建,旨在充分利用 BlueField DPU 的功能。借助 20 多個專用庫,開發(fā)者可以通過強大的工具包來構建優(yōu)化的 AI 基礎設施。
DOCA 服務通過為特定用例提供容器化解決方案來補充這些庫。您可以通過NGC 目錄(例如 DOCA 和 DPU)來找到它們。這種容器化方法可以快速部署并簡化對 AI 運營至關重要的基礎設施組件的管理。
DOCA 還在持續(xù)演進,定期更新框架并推出新功能,確保開發(fā)者能夠始終處于 AI 基礎設施創(chuàng)新的前沿。目前已有成千上萬的開發(fā)者在使用 DOCA,其生態(tài)系統(tǒng)繼續(xù)發(fā)展壯大,為 AI 應用開發(fā)帶來了新的可能。
對于希望構建下一代 AI 平臺的開發(fā)者,NVIDIA DOCA 提供了全面的工具包,幫助他們充分發(fā)揮 BlueField DPU 和 Connect-X SuperNIC 的潛力,以創(chuàng)建可以擴展的基礎設施來滿足未來 AI 工作負載需求。通過采用 DOCA,企業(yè)站在 AI 基礎設施創(chuàng)新的前沿,為 AI 發(fā)展的新紀元做好準備。
NVIDIA DOCA 3.0 標志著 AI 計算網(wǎng)絡架構和云計算基礎設施的重大進步。
開啟您的開發(fā)之旅,享受 DOCA 提供的一切優(yōu)勢。
-
NVIDIA
+關注
關注
14文章
5309瀏覽量
106414 -
gpu
+關注
關注
28文章
4948瀏覽量
131250 -
網(wǎng)絡
+關注
關注
14文章
7815瀏覽量
90968 -
AI
+關注
關注
88文章
35164瀏覽量
279989
原文標題:NVIDIA DOCA 3.0 助力 AI 平臺開啟網(wǎng)絡新紀元
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
transcosmos在中國發(fā)布全渠道智能客服平臺"transCxLink"3.0版本

NVIDIA虛擬GPU 18.0版本的亮點
NVIDIA Blackwell數(shù)據(jù)手冊與NVIDIA Blackwell架構技術解析
英偉達GTC25亮點:NVIDIA Blackwell Ultra 開啟 AI 推理新時代
motorBench 2.45.0版本說明

OurBMC 24.12版本正式上線
豆神AI Windows PC端1.0版本登陸微軟商城
NVIDIA DOCA 2.9版本的亮點解析

NVIDIA DOCA-OFED的主要特性
NVIDIA Parabricks v4.3.1版本的新功能

NVIDIA JetPack 6.0版本的關鍵功能

IB Verbs和NVIDIA DOCA GPUNetIO性能測試

OpenVINO 2024.2版本亮點解析
機器視覺 歡創(chuàng)播報 華為高階智能駕駛3.0版本8月上市

評論