chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Isaac Lab多GPU多節(jié)點訓(xùn)練指南

麗臺科技 ? 來源:麗臺科技 ? 2025-09-23 17:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NVIDIA Isaac Lab是一個適用于機器人學(xué)習(xí)的開源統(tǒng)一框架,基于 NVIDIA Isaac Sim 開發(fā),其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,可提供各種物理 AI 功能和由 GPU 驅(qū)動的物理仿真,縮小仿真與現(xiàn)實世界之間的差距。

Isaac Lab 主要通過 NVIDIA GPU 加速高度逼真的物理模擬、實時渲染、深度強化學(xué)習(xí)(RL)模仿學(xué)習(xí)(IL)集成等先進(jìn)技術(shù),然而對于復(fù)雜的強化學(xué)習(xí)環(huán)境,可能需要在多個 GPU 上擴大訓(xùn)練規(guī)模。Isaac Lab 支持多 GPU 和多節(jié)點功能,與在單個 GPU 上進(jìn)行訓(xùn)練相比,可以更快地加速訓(xùn)練過程并達(dá)到更高的性能水平。

在之前的機器人仿真教程里,我們分別介紹了Isaac Lab 的安裝教程以及Isaac Lab 的可用環(huán)境與強化學(xué)習(xí)腳本使用指南,本篇教程將帶大家了解如何通過多 GPU 和多節(jié)點進(jìn)行擴展訓(xùn)練。

核心要點

Isaac Lab 支持多 GPU 和多節(jié)點強化學(xué)習(xí)。但是此功能目前僅可用于 RL-Games、RSL-RL 和 skrl 庫。多 GPU 和多節(jié)點訓(xùn)練僅支持 Linux 系統(tǒng),因 NCCL 庫限制,暫不支持 Windows 系統(tǒng)。

一、多 GPU

Isaac Lab 支持以下兩種多 GPU 訓(xùn)練框架。

1. 通過 PyTorch Torchrun 進(jìn)行分布式訓(xùn)練

Torchrun 通過以下方式管理分布式訓(xùn)練:

進(jìn)程管理:為每個 GPU 創(chuàng)建一個獨立進(jìn)程,并將每個進(jìn)程分配至指定的 GPU。

腳本執(zhí)行:在每個進(jìn)程上運行相同的訓(xùn)練腳本(例如 RL Games)。

環(huán)境實例:每個進(jìn)程都會創(chuàng)建獨立的 Isaac Lab 環(huán)境實例。

梯度同步:收集并同步所有進(jìn)程的梯度,在每個訓(xùn)練步驟結(jié)束后將更新后的梯度廣播回各進(jìn)程。

此流程中的關(guān)鍵組件是:

Torchrun:處理進(jìn)程生成、通信和梯度同步。

RL 庫:運行實際訓(xùn)練算法的強化學(xué)習(xí)庫。

Isaac Lab:提供每個進(jìn)程獨立實例化的模擬環(huán)境。

Torchrun 在底層使用 DistributedDataParallel 模塊來管理分布式訓(xùn)練。當(dāng)使用多個 GPU 進(jìn)行訓(xùn)練時,會發(fā)生以下情況:

每個 GPU 運行一個獨立的進(jìn)程

每個進(jìn)程執(zhí)行完整的訓(xùn)練腳本

每個進(jìn)程都獨立擁有:

① Isaac Lab 環(huán)境實例(含 n 個并行環(huán)境)

② 策略網(wǎng)絡(luò)副本

③ 用于收集訓(xùn)練經(jīng)驗的緩沖區(qū)

所有進(jìn)程僅針對梯度更新進(jìn)行同步

2. 通過 JAX 進(jìn)行分布式訓(xùn)練

在使用 JAX 時,我們借助skrl.utils.distributed.jax模塊來實現(xiàn)分布式訓(xùn)練。由于 JAX 等機器學(xué)習(xí)框架通常不會在單個程序調(diào)用中自動啟動多個進(jìn)程,因此 skrl 庫提供了該模塊,用于負(fù)責(zé)進(jìn)程的啟動與管理。

*注:僅 skrl 庫支持 JAX。

二、多節(jié)點

除了將訓(xùn)練規(guī)模擴展到單臺機器上的多個 GPU 之外,還可以跨多個節(jié)點進(jìn)行訓(xùn)練。要跨多個節(jié)點/機器進(jìn)行訓(xùn)練,需要在每個節(jié)點上啟動單獨的進(jìn)程。

運行訓(xùn)練

接下來,我們來演示下多 GPU 多節(jié)點訓(xùn)練操作步驟。本期教程以 NVIDIA RTX 5880 Ada GPU 為底層硬件支持。

一、訓(xùn)練環(huán)境

1. CUDA 安裝:

1.1使用 nvidia-smi 查看當(dāng)前驅(qū)動支持的最高 cuda 版本。如下圖所示,可以看到當(dāng)前顯示最高版本為 CUDA Version:12.8。

c45d8ea8-8f98-11f0-8c8f-92fbcf53809c.jpg

圖1

1.2訪問官網(wǎng)(https://developer.nvidia.com/cuda-toolkit-archive),下載并安裝 CUDA 12.8 及以下版本。

c4c04f98-8f98-11f0-8c8f-92fbcf53809c.png

根據(jù)提示,選擇對應(yīng)系統(tǒng)版本,獲取 CUDA 工具包安裝程序下載鏈接以及安裝方式。

c51dfb16-8f98-11f0-8c8f-92fbcf53809c.png

1.3運行以下命令:

sudosh cuda_12.8.0_570.86.10_linux.run

2. Pytorch安裝

2.1訪問https://pytorch.org/,根據(jù)提示選擇對應(yīng)系統(tǒng)、CUDA版本等下載安裝即可。

c57ba52c-8f98-11f0-8c8f-92fbcf53809c.png

2.2如果提示沒有 pip,按照要求 apt 安裝。

c5da7890-8f98-11f0-8c8f-92fbcf53809c.png

2.3執(zhí)行pip3 install torch torchvision。

c63596d0-8f98-11f0-8c8f-92fbcf53809c.png

2.4安裝完成后,查看 pytorch 版本。

c6980ad6-8f98-11f0-8c8f-92fbcf53809c.png

二、運行結(jié)果(多節(jié)點訓(xùn)練)

1. 在窗口中再次確認(rèn)環(huán)境變量

exportISAACSIM_PATH="${HOME}/isaacsim"
exportISAACSIM_PYTHON_EXE="${ISAACSIM_PATH}/python.sh"

2. 節(jié)點運行

在節(jié)點 1 運行:

${ISAACSIM_PYTHON_EXE}-m torch.distributed.run --nproc_per_node=1 --nnodes=2 --node_rank=0 --rdzv_id=123 --rdzv_backend=c10d --rdzv_endpoint=192.168.150.161:5555 scripts/reinforcement_learning/rl_games/train.py --task=Isaac-Cartpole-v0 --headless –distributed

在節(jié)點 2 運行:

${ISAACSIM_PYTHON_EXE}-m torch.distributed.run --nproc_per_node=1 --nnodes=2 --node_rank=1 --rdzv_id=123 --rdzv_backend=c10d --rdzv_endpoint=192.168.150.161:5555 scripts/reinforcement_learning/rl_games/train.py --task=Isaac-Cartpole-v0 --headless –distributed

注意,需要調(diào)整的參數(shù)主要是:

--nproc_per_node

每個節(jié)點(機器)上啟動的進(jìn)程數(shù),通常設(shè)置為該節(jié)點的 GPU 數(shù)量。例如,若單機有 8 塊 GPU,--nproc_per_node=8。

--nnodes

參與訓(xùn)練的物理節(jié)點總數(shù)。例如,--nnodes=4表示使用 4 臺機器組成集群進(jìn)行訓(xùn)練。

--rdzv_endpoint

主節(jié)點的 IP 地址和端口號,格式為host:port。所有節(jié)點通過此端點進(jìn)行通信協(xié)調(diào),例如--rdzv_endpoint=192.168.1.100:29500。

*如需了解詳細(xì)步驟,可參考官方文檔:

https://isaac-sim.github.io/IsaacLab/main/source/features/multi_gpu.html

推薦硬件配置

以下是麗臺針對個人開發(fā)者/研究人員的機器人仿真及訓(xùn)練環(huán)境推薦配置,能流暢運行 Isaac Lab 以及機器人訓(xùn)練和仿真所需的算力,同時可再與企業(yè)級多卡集群方案形成互補,能夠完全滿足中小規(guī)模的實驗需求。

LEADTEK WS3008

LEADTEK WS3008 產(chǎn)品特性

支持選配 2 張 NVIDIA RTX 5880 Ada GPU

支持單 Intel Xeon W-3400、W-2400 系列處理器

Intel W790 芯片組

支持最高至 350W CPU TDP

支持最多 DDR5-4800MHz x8 內(nèi)存

支持 4 PCIe 5.0 x16 插槽

支持 1 M.2 NVMe PCI-E 4.0 x4

支持 2 個 10GbE BaseT、1 個 2.5GbE BaseT 和 1 個 1GbE BaseT 網(wǎng)口

支持 1 個 IPMI 管理口

支持 2 個 USB-A

支持 1 個 VGA 口,1 個 COM 口

支持 1 個 1200W/1300W 鉑金電源

機箱體積:400.0×278.0×167.6 mm

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    213

    文章

    30240

    瀏覽量

    217705
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5430

    瀏覽量

    108210
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5035

    瀏覽量

    133686

原文標(biāo)題:突破算力限制!Isaac Lab 多 GPU 多節(jié)點訓(xùn)練指南

文章出處:【微信號:Leadtek,微信公眾號:麗臺科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    NVIDIA Isaac Lab可用環(huán)境與強化學(xué)習(xí)腳本使用指南

    Lab 是一個適用于機器人學(xué)習(xí)的開源模塊化框架,其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,Isaac Lab 同時支持模仿學(xué)習(xí)(模仿人類)和強化學(xué)習(xí)(在嘗試和錯誤中進(jìn)行學(xué)習(xí)),為所有機器
    的頭像 發(fā)表于 07-14 15:29 ?1429次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Isaac</b> <b class='flag-5'>Lab</b>可用環(huán)境與強化學(xué)習(xí)腳本使用<b class='flag-5'>指南</b>

    《CST Studio Suite 2024 GPU加速計算指南

    的各個方面,包括硬件支持、操作系統(tǒng)支持、許可證、GPU計算的啟用、NVIDIA和AMD GPU的詳細(xì)信息以及相關(guān)的使用指南和故障排除等內(nèi)容。 1. 硬件支持 -
    發(fā)表于 12-16 14:25

    Nvidia GPU風(fēng)扇和電源顯示ERR怎么解決

    問題最近在Ubuntu上使用Nvidia GPU訓(xùn)練模型的時候,如果機器鎖屏一段時間再打開的時候鼠標(biāo)非??D,或者說顯示界面非??D,使用nvidia-smi查看發(fā)現(xiàn),
    發(fā)表于 12-30 06:44

    在Ubuntu上使用Nvidia GPU訓(xùn)練模型

    問題最近在Ubuntu上使用Nvidia GPU訓(xùn)練模型的時候,沒有問題,過一會再訓(xùn)練出現(xiàn)非??D,使用nvidia-smi查看發(fā)現(xiàn),顯示
    發(fā)表于 01-03 08:24

    NVIDIA GPU加快深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推斷

    深度學(xué)習(xí)是推動當(dāng)前人工智能大趨勢的關(guān)鍵技術(shù)。在 MATLAB 中可以實現(xiàn)深度學(xué)習(xí)的數(shù)據(jù)準(zhǔn)備、網(wǎng)絡(luò)設(shè)計、訓(xùn)練和部署全流程開發(fā)和應(yīng)用。聯(lián)合高性能 NVIDIA GPU 加快深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練
    的頭像 發(fā)表于 02-18 13:31 ?2484次閱讀

    NVIDIA Modulus為數(shù)字雙胞胎開發(fā)ML模型框架

      訓(xùn)練引擎 Modulus 接受所有輸入,并利用 PyTorch 和 TensorFlow 來訓(xùn)練生成的模型 cuDNN 進(jìn)行 GPU 加速,利用 Magnum IO 進(jìn)行
    的頭像 發(fā)表于 04-14 14:58 ?1557次閱讀

    NVIDIA 集合通信庫加快深度學(xué)習(xí)訓(xùn)練速度

    NVIDIA 集合通信庫(NCCL)可實現(xiàn)針對 NVIDIA GPU 和網(wǎng)絡(luò)進(jìn)行性能優(yōu)化的 GPU
    的頭像 發(fā)表于 07-30 09:02 ?2816次閱讀

    NVIDIA AI機器人開發(fā)— NVIDIA Isaac Sim入門

    NVIDIA 最新公開課來了,本次將圍繞用于開發(fā)和訓(xùn)練智能機器人的模擬平臺—— NVIDIA Isaac Sim 。 NVIDIA
    的頭像 發(fā)表于 10-19 15:58 ?2483次閱讀

    堅米智能借助NVIDIA Isaac Lab加速四足機器人開發(fā)

    堅米智能(中堅科技)借助NVIDIA Isaac Lab平臺,通過NVIDIA Isaac Sim的 3D 生成與建模技術(shù)構(gòu)建高度逼真的虛擬
    的頭像 發(fā)表于 12-29 14:01 ?1854次閱讀

    NVIDIA技術(shù)助力Pantheon Lab數(shù)字人實時交互解決方案

    本案例中,Pantheon Lab(萬想科技)專注于數(shù)字人技術(shù)解決方案,通過 NVIDIA 技術(shù)實現(xiàn)數(shù)字人實時對話與客戶互動交流。借助 NVIDIA GPU
    的頭像 發(fā)表于 01-14 11:19 ?819次閱讀

    簡述NVIDIA Isaac的重要更新

    在 2025 CES,NVIDIA 宣布了對NVIDIA Isaac的重要更新。NVIDIA Isaac 是一個由加速庫、應(yīng)用框架和 AI
    的頭像 發(fā)表于 01-17 09:57 ?1539次閱讀
    簡述<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Isaac</b>的重要更新

    NVIDIA技術(shù)驅(qū)動帕西尼觸覺感知與人形機器人智能突破

    本案例中通過在 NVIDIA Isaac 平臺集成觸覺仿真器,借助 NVIDIA Isaac Sim 平臺的 3D 場景生成技術(shù)和 NVIDIA
    的頭像 發(fā)表于 04-21 09:15 ?974次閱讀

    NVIDIA Isaac Sim與NVIDIA Isaac Lab的更新

    在 COMPUTEX 2025 上,NVIDIA 宣布了機器人仿真參考應(yīng)用 NVIDIA Isaac Sim 和機器人學(xué)習(xí)框架 NVIDIA Isa
    的頭像 發(fā)表于 05-28 10:06 ?1531次閱讀

    NVIDIA Isaac Sim 4.5.0與lsaac Lab 2.0的安裝教程

    Isaac Sim 和 Isaac Lab 目前開放下載的版本是 Isaac Sim 4.5.0 以及 Isaac
    的頭像 發(fā)表于 06-19 15:00 ?1536次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Isaac</b> Sim 4.5.0與lsaac <b class='flag-5'>Lab</b> 2.0的安裝教程

    NVIDIA Isaac Sim和Isaac Lab現(xiàn)已推出早期開發(fā)者預(yù)覽版

    NVIDIA 發(fā)布了機器人仿真參考應(yīng)用 Isaac Sim 和機器人學(xué)習(xí)框架 Isaac Lab 的開發(fā)者預(yù)覽版。開發(fā)者現(xiàn)在可以通過 GitHub 訪問早期版本,搶先體驗先進(jìn)功能,用于
    的頭像 發(fā)表于 07-04 14:23 ?1242次閱讀