NVIDIA GPU 運營商允許企業(yè)在 Kubernetes 上輕松擴展 NVIDIA GPU 。
通過使用 Kubernetes 簡化 GPU 的部署和管理, GPU 運營商使基礎(chǔ)設(shè)施團隊能夠在幾分鐘內(nèi)自動無誤地擴展 GPU 應(yīng)用程序。
GPU Operator 1.9 現(xiàn)已推出,其中包括幾個關(guān)鍵功能,以及其他更新,使用戶可以更快地開始使用并保持不間斷服務(wù)。
GPU 操作員 1.9 包括:
支持使用 DGX 操作系統(tǒng)的 NVIDIA DGX A100 系統(tǒng)
簡化的安裝過程
使用 DGX 操作系統(tǒng)支持 DGX A100
對于 1.9 , GPU 操作員自動在 NVIDIA NVSwitch 系統(tǒng)上部署初始化結(jié)構(gòu)所需的軟件,包括與 DGX OS 一起使用時的 DGX A100 。一旦初始化,所有 GPU 都可以在全 NVLink 帶寬下相互通信,以創(chuàng)建端到端可擴展計算平臺。
DGX A100 配備了世界上最先進的加速器,使企業(yè)能夠?qū)⑴嘤?xùn)、推理和分析整合到統(tǒng)一、易于部署的 AI 基礎(chǔ)設(shè)施中?,F(xiàn)在,有了 GPU 運營商的支持,企業(yè)可以將其應(yīng)用程序從培訓(xùn)擴展到與世界上最先進的系統(tǒng)相匹配。
簡化的安裝過程
對于 GPU 運營商的早期版本,使用 GPU 運營商和 OpenShift 的組織需要從 Red Hat 申請額外的權(quán)利,以便成功使用 GPU 運營商。由于授權(quán)密鑰過期,用戶需要重新應(yīng)用這些密鑰,以確保其工作流程不會中斷。
GPU Operator 1.9 現(xiàn)在支持 OpenShift 的免授權(quán)驅(qū)動程序容器。這是通過利用 RedHat 提供的 Driver-Toolkit 映像以及為構(gòu)建 NVIDIA 內(nèi)核模塊而預(yù)先安裝的必要內(nèi)核包來實現(xiàn)的。用戶不再需要確保運行 GPU 運算符時始終應(yīng)用具有 RHEL 訂閱的有效證書。更重要的是,對于斷開連接的集群,它消除了對私有包存儲庫的依賴。
版本 1.9 還包括對帶有 MIG Manager 的預(yù)裝驅(qū)動程序的支持,對預(yù)裝 MOFED 使用 GPUDirect RDMA 的支持,對容器運行時的自動檢測,以及對 NOUVEAU 的自動禁用–所有這些都旨在讓用戶更容易開始并繼續(xù)使用 GPU 加速的 Kubernetes 。
此外, GPU Operator 1.9 會自動檢測工作節(jié)點上安裝的容器運行時。無需在安裝時指定容器運行時。
GPU 操作員 1.9 :
helm install --wait --generate-name nvidia/gpu-operator
GPU 操作員 1.8 及更早版本:
helm install --wait --generate-name nvidia/gpu-operator --set operator.defaultRuntime=containerd
GPU 操作員要求禁用 Nouveau 。在以前的 GPU 操作員版本中, K8s 管理員必須按照文檔 禁用 Nouveau 。 GPU 操作員 1.9 會自動檢測 Nouveau 是否已啟用并為您禁用。
GPU 操作員資源
以下資源可用于使用 NVIDIA GPU 運營商:
GPU 操作員 1.9 發(fā)行說明
入門指南
GPU NGC 上的操作員舵圖
GitHub 上的 GPU 運算符
關(guān)于作者
Erik Bohnhorst 是 NVIDIA 的高級產(chǎn)品經(jīng)理,專注于云本地技術(shù),為 edge 和數(shù)據(jù)中心構(gòu)建一流的解決方案。 Erik 于 2014 年加入 NVIDIA ,以解決方案架構(gòu)師的身份幫助客戶構(gòu)建世界一流的虛擬化遠程工作站。埃里克領(lǐng)導(dǎo)技術(shù)營銷團隊,直到他加入了 EGX 團隊。
Troy Estes 是 NVIDIA Edge 和企業(yè)計算解決方案的產(chǎn)品營銷經(jīng)理。在加入 Edge & Enterprise 業(yè)務(wù)部門之前,特洛伊曾在自主汽車業(yè)務(wù)部門和 NVIDIA 電網(wǎng)產(chǎn)品集團從事營銷活動和支持產(chǎn)品 GTM 。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5513瀏覽量
109200 -
gpu
+關(guān)注
關(guān)注
28文章
5118瀏覽量
134556
發(fā)布評論請先 登錄
在Python中借助NVIDIA CUDA Tile簡化GPU編程
NVIDIA RTX PRO 2000 Blackwell GPU性能測試
NVIDIA RTX PRO 4500 Blackwell GPU測試分析
NVIDIA桌面GPU系列擴展新產(chǎn)品
NVIDIA Jetson AGX Thor開發(fā)者套件概述
NVIDIA Dynamo新增對亞馬遜云科技服務(wù)的支持
生產(chǎn)環(huán)境中Kubernetes容器安全的最佳實踐
NVIDIA技術(shù)助力企業(yè)創(chuàng)建主權(quán)AI智能體
如何在Ubuntu上安裝NVIDIA顯卡驅(qū)動?
NVIDIA虛擬GPU 18.0版本的亮點
使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)
英偉達GTC2025亮點:NVIDIA認證計劃擴展至企業(yè)存儲領(lǐng)域,加速AI工廠部署
英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型
解鎖新應(yīng)用:探索GPU擴展是如何提升渲染農(nóng)場的工作效率

企業(yè)可在Kubernetes上輕松擴展NVIDIA GPU
評論