chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

借助NVIDIA Cosmos模型提升機(jī)器人訓(xùn)練效率

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2025-09-23 15:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著物理 AI 系統(tǒng)的不斷發(fā)展,對豐富標(biāo)記數(shù)據(jù)集的需求正在急速增長,已經(jīng)超出了在現(xiàn)實(shí)世界中通過人工采集所能滿足的范圍。世界基礎(chǔ)模型(WFMs)是經(jīng)過訓(xùn)練的生成式 AI 模型,能夠根據(jù)現(xiàn)實(shí)世界環(huán)境的動態(tài),對未來的世界狀態(tài)進(jìn)行仿真、預(yù)測和推理,這類模型有望幫助突破這一數(shù)據(jù)難題。

NVIDIA Cosmos是面向機(jī)器人智能汽車等物理 AI 系統(tǒng)的世界基礎(chǔ)模型開發(fā)平臺。Cosmos 世界基礎(chǔ)模型包含三種可針對特定應(yīng)用進(jìn)行后訓(xùn)練的模型類型:Cosmos Predict、Cosmos Transfer和Cosmos Reason。

Cosmos Predict 可根據(jù)圖像、視頻和文本提示生成關(guān)于“未來世界狀態(tài)”的視頻。Cosmos Transfer 使開發(fā)者能夠根據(jù) 2D 輸入和文本提示實(shí)現(xiàn)逼真的風(fēng)格轉(zhuǎn)換。Cosmos Reason 作為視覺語言推理模型,可以對生成的數(shù)據(jù)進(jìn)行篩選和標(biāo)注,也可以通過后訓(xùn)練,轉(zhuǎn)化為機(jī)器人視覺-語言-動作(VLA)模型。這些生成數(shù)據(jù)可用于訓(xùn)練物理 AI 和工業(yè)視覺 AI,使其具備空間感知理解、運(yùn)動軌跡規(guī)劃以及執(zhí)行復(fù)雜任務(wù)的能力。

本期 NVIDIA 機(jī)器人研究與開發(fā)摘要(R2D2)探討了 NVIDIA 研究中心推出的 Cosmos 世界基礎(chǔ)模型及工作流。本文將深入探討以下模型在物理 AI 應(yīng)用的合成數(shù)據(jù)生成(SDG)與數(shù)據(jù)管理過程中發(fā)揮的關(guān)鍵作用:

1. Cosmos Predict:

適用于輔助駕駛的 Single2MultiView

Cosmos-Drive-Dreams

NVIDIA Isaac GR00T-Dreams

DiffusionRenderder

加速視頻生成

2. Cosmos Transfer:

適用于輔助駕駛的 Cosmos Transfer

邊緣模型蒸餾

3. Cosmos Reason

Cosmos Predict:

NVIDIA 研究中心為機(jī)器人打造的未來仿真模型

Cosmos Predict 模型可以針對機(jī)器人和智能汽車等物理 AI 應(yīng)用進(jìn)行后訓(xùn)練。該模型以文本、圖像或視頻的形式輸入,并生成連貫且物理準(zhǔn)確的未來幀。這項(xiàng)技術(shù)顯著加速了合成數(shù)據(jù)生成(SDG)的進(jìn)程,為后訓(xùn)練 AI 模型執(zhí)行復(fù)雜物理任務(wù)提供支持。下面分享后訓(xùn)練的應(yīng)用實(shí)例。

Single2MultiView

適用于輔助駕駛的 Single2MultiView,經(jīng)過 Cosmos Predict 模型的后訓(xùn)練,可從單一的前視輔助駕駛視頻生成多個連貫的攝像頭視角。該系統(tǒng)可為輔助駕駛開發(fā)提供同步的多視角攝像頭影像數(shù)據(jù)。

單視角輸入視頻的推理示例:

CUDA_HOME=$CONDA_PREFIXPYTHONPATH=$(pwd) python cosmos_predict1/diffusion/inference/video2world_view_extend_multiview.py 
  --checkpoint_dir checkpoints 
  --diffusion_transformer_dir
Cosmos-Predict1-7B-Video2World-Sample-AV-Single2MultiView/t2w_model.pt 
  --view_condition_video assets/diffusion/sv2mv_input_view.mp4 
  --num_input_frames 1 
  --condition_location"first_cam"
  --prompt"${PROMPT}"
  --prompt_left"${PROMPT_LEFT}"
  --prompt_right"${PROMPT_RIGHT}"
  --prompt_back"${PROMPT_BACK}"
  --prompt_back_left"${PROMPT_BACK_LEFT}"
  --prompt_back_right"${PROMPT_BACK_RIGHT}"
  --video_save_name diffusion-single2multiview-text2world

Cosmos-Drive-Dreams

Cosmos-Drive-Dreams 為輔助駕駛生成復(fù)雜駕駛場景的工作流。Cosmos Drive 模型經(jīng)過駕駛領(lǐng)域的后訓(xùn)練,可生成多視圖、高保真、時空一致的駕駛數(shù)據(jù)。使用經(jīng)過后訓(xùn)練的 Cosmos Transfer 模型對生成的多視角數(shù)據(jù)進(jìn)行增強(qiáng),以提高在低能見度條件下的泛化能力(如霧天、雨天),從而完成 3D 車道檢測、3D 物體檢測和駕駛策略學(xué)習(xí)等任務(wù)。

Isaac GR00T-Dreams

基于 DreamGen 的 Isaac GR00T-Dreams,是用于生成大規(guī)模人形機(jī)器人合成軌跡數(shù)據(jù)的藍(lán)圖,實(shí)現(xiàn)了從真實(shí)數(shù)據(jù)到真實(shí)數(shù)據(jù)的完整工作流。該架構(gòu)使用 Cosmos Predict 技術(shù),通過圖像和文本提示生成多樣化、逼真的機(jī)器人任務(wù)執(zhí)行視頻,并從中提取被稱為“神經(jīng)軌跡”的動作數(shù)據(jù)用于機(jī)器人策略訓(xùn)練。這種方法能夠幫助機(jī)器人在最少人類參與的情況下學(xué)習(xí)新技能并適應(yīng)不同環(huán)境。

在 GR1 數(shù)據(jù)集上對 GR00T 模型進(jìn)行后訓(xùn)練的示例如下:

EXP=predict2_video2world_training_2b_groot_gr1_480


torchrun--nproc_per_node=8--master_port=12341-m scripts.train --config=cosmos_predict2/configs/base/config.py -- experiment=${EXP}

DiffusionRenderer

DiffusionRenderer 是一款神經(jīng)渲染框架,僅需單段視頻輸入,無需依賴顯式的 3D 幾何結(jié)構(gòu)或光照數(shù)據(jù),就能實(shí)現(xiàn)逼真的重新打光、材質(zhì)編輯與物體植入功能。該框架借助視頻擴(kuò)散模型估算場景屬性,進(jìn)而生成真實(shí)感極強(qiáng)的新圖像。引入 Cosmos Predict 的擴(kuò)散模型后,DiffusionRenderer 的光照處理能力得到顯著提升,能夠輸出精度更高、時間維度上更連貫的渲染結(jié)果。這一技術(shù)對物理 AI 仿真具有重要價值,能夠使場景編輯具備更高的效率與可控性。

7a9273f2-9541-11f0-8c8f-92fbcf53809c.jpg

圖 . DiffusionRenderer 方法概述

以下是視頻重新打光的示例命令。該命令通過逆向渲染器對幀序列應(yīng)用新光照,并生成重新打光后的視頻幀:

CUDA_HOME=$CONDA_PREFIX PYTHONPATH=$(pwd) python cosmos_predict1/diffusion/inference/inference_forward_renderer.py 
 --checkpoint_dir checkpoints 
 --diffusion_transformer_dir Diffusion_Renderer_Forward_Cosmos_7B 
 --dataset_path=asset/example_results/video_delighting/gbuffer_frames 
 --num_video_frames 57 
 --envlight_ind 0123 
 --use_custom_envmap=True 
 --video_save_folder=asset/example_results/video_relighting/

加速視頻生成

加速視頻生成模型 Cosmos-Predict2 現(xiàn)在通過鄰域注意力機(jī)制(NATTEN),提高了對相關(guān)視頻區(qū)域的聚焦能力。該注意力系統(tǒng)具有層級自適應(yīng)性,可動態(tài)平衡全局和局部上下文,以實(shí)現(xiàn)速度和質(zhì)量的最佳平衡。通過在模型層中實(shí)現(xiàn)稀疏注意力,可以最大限度地減少視頻生成過程中的冗余計(jì)算。鄰域注意力機(jī)制通過針對 NVIDIA 硬件優(yōu)化的后端代碼進(jìn)一步提升了效率。因此,在部分 NVIDIA GPU 上,視頻推理速度可提升 2 到 2.5 倍。

Cosmos Transfer:

用于機(jī)器人和智能汽車的可控合成數(shù)據(jù)生成方案

Cosmos Transfer 模型基于多種控制輸入生成世界仿真場景,包括分割圖、深度圖、邊緣圖、激光雷達(dá)掃描、關(guān)鍵點(diǎn)和高精地圖等。這些多模態(tài)控制方式使用戶在通過文本提示生成多樣化視覺特征的同時,能夠精準(zhǔn)控制場景構(gòu)成。該技術(shù)旨在增強(qiáng)合成數(shù)據(jù)集的視覺多樣性,全面提升機(jī)器人與智能汽車應(yīng)用中從仿真到現(xiàn)實(shí)的遷移效果。

Cosmos Transfer 應(yīng)用

現(xiàn)在,讓我們來看看使用 Cosmos Transfer 的一些工作流。

CosmosTransfer for AVs

Cosmos Transfer for AVs 能夠通過多樣化文本提示,從單一駕駛場景生成新的環(huán)境條件(如天氣、光照和地形)。該技術(shù)采用多模態(tài)控制作為輸入來增強(qiáng)數(shù)據(jù)多樣性,例如在 Cosmos Drive Dreams 應(yīng)用場景中所示。這項(xiàng)技術(shù)對創(chuàng)建輔助駕駛訓(xùn)練數(shù)據(jù)集具有重要意義,因?yàn)樗芨鶕?jù)用戶文本提示,基于單一視頻實(shí)現(xiàn)大規(guī)模數(shù)據(jù)生成。

Cosmos Transfer 通過輸入同一段視頻并結(jié)合不同的文本提示(如“雪天”或“夜間場景”)生成各種條件和邊緣情況。

基于文本提示和高精地圖條件視頻,使用 Cosmos Transfer 生成 RGB 視頻的示例命令如下:

exportCUDA_VISIBLE_DEVICES="${CUDA_VISIBLE_DEVICES:=0}"
exportCHECKPOINT_DIR="${CHECKPOINT_DIR:=./checkpoints}"
exportNUM_GPU="${NUM_GPU:=1}"
PYTHONPATH=$(pwd) torchrun --nproc_per_node=$NUM_GPU--nnodes=1 --node_rank=0 cosmos_transfer1/diffusion/inference/transfer.py 
  --checkpoint_dir$CHECKPOINT_DIR
  --video_save_folder outputs/example1_single_control_edge_distilled 
  --controlnet_specs assets/inference_cosmos_transfer1_single_control_edge.json 
  --offload_text_encoder_model 
  --offload_guardrail_models 
  --num_gpus$NUM_GPU
  --use_distilled

邊緣模型蒸餾

邊緣模型蒸餾是 Cosmos Transfer 的改進(jìn)版本。原始的 Cosmos Transfer 模型需要經(jīng)過 70 次處理才能生成視頻,計(jì)算成本高昂。針對邊緣模式的模型蒸餾技術(shù)能夠產(chǎn)出更輕量的學(xué)生模型,該模型能夠在單一步驟中執(zhí)行相同的任務(wù),且生成質(zhì)量與原始模型高度一致。其他控制模式(如深度圖、分割圖、高清地圖和激光雷達(dá))也可以通過類似的方式進(jìn)行性能提升。通過減少視頻生成所需的計(jì)算工作量,可實(shí)現(xiàn)更快、更經(jīng)濟(jì)的部署。可以通過--use_distilled 參數(shù)啟用蒸餾版本。

Cosmos Reason:

面向物理 AI 的長時推理框架

Cosmos Reason 是專注于物理 AI 推理的世界基礎(chǔ)模型,能夠理解物理常識,并通過長鏈?zhǔn)剿季S推理生成適當(dāng)?shù)木唧w決策。該模型能深度理解動作序列與現(xiàn)實(shí)世界約束,因此在合成數(shù)據(jù)生成(SDG)過程中可作為評估器來篩選高質(zhì)量訓(xùn)練數(shù)據(jù)。該模型分兩個階段進(jìn)行訓(xùn)練:監(jiān)督式微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)。

7b5e6a52-9541-11f0-8c8f-92fbcf53809c.jpg

圖 . Cosmos Reason 架構(gòu)概述

監(jiān)督微調(diào)(SFT)訓(xùn)練可以提高CosmosReason 模型在特定任務(wù)上的性能。例如,使用 robovqa 數(shù)據(jù)集進(jìn)行訓(xùn)練可以提高機(jī)器人在視覺問答應(yīng)用場景中的表現(xiàn)。以下是啟動監(jiān)督微調(diào)訓(xùn)練的示例命令:

cosmos-rl --config configs/cosmos-reason1-7b-fsdp2-sft.toml
./tools/dataset/cosmos_sft.py

本文是“NVIDIA 機(jī)器人研究與開發(fā)摘要(R2D2)”的一部分,旨在讓開發(fā)者更深入地了解 NVIDIA 研究中心在物理 AI 和機(jī)器人應(yīng)用方面的最新突破。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    30244

    瀏覽量

    217749
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5431

    瀏覽量

    108232
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3609

    瀏覽量

    51418

原文標(biāo)題:R2D2:利用 NVIDIA 研究中心的世界基礎(chǔ)模型和工作流提升機(jī)器人訓(xùn)練效率

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    借助NVIDIA技術(shù)提升機(jī)器人的移動和全身控制能力

    我們通過在自身平臺上經(jīng)過驗(yàn)證的先進(jìn)研究來應(yīng)對這些挑戰(zhàn)。我們的方法將前沿研究與工程工作流相結(jié)合,并在我們的 AI 和機(jī)器人平臺(包括 NVIDIA Omniverse、Cosmos、Isaac Sim
    的頭像 發(fā)表于 04-27 15:14 ?947次閱讀
    <b class='flag-5'>借助</b><b class='flag-5'>NVIDIA</b>技術(shù)<b class='flag-5'>提升機(jī)器人</b>的移動和全身控制能力

    Al大模型機(jī)器人

    理解能力強(qiáng)大: AI大模型機(jī)器人可以理解和生成自然語言,能夠進(jìn)行復(fù)雜的對話和語言任務(wù)。它們能夠識別語言中的語義、語境和情感,并據(jù)此作出適當(dāng)?shù)幕貞?yīng)。廣泛的知識儲備: 這些模型基于大規(guī)模的數(shù)據(jù)集進(jìn)行
    發(fā)表于 07-05 08:52

    《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型

    研讀《具身智能機(jī)器人系統(tǒng)》第7-9章,我被書中對大模型機(jī)器人技術(shù)融合的深入分析所吸引。第7章詳細(xì)闡述了ChatGPT for Robotics的核心技術(shù)創(chuàng)新:它摒棄了傳統(tǒng)的分層控制架構(gòu),創(chuàng)造性地
    發(fā)表于 12-24 15:03

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人模型

    近年來,人工智能領(lǐng)域的大模型技術(shù)在多個方向上取得了突破性的進(jìn)展,特別是在機(jī)器人控制領(lǐng)域展現(xiàn)出了巨大的潛力。在“具身智能機(jī)器人模型”部分,作者研究并探討了大
    發(fā)表于 12-29 23:04

    在Ubuntu上使用Nvidia GPU訓(xùn)練模型

    問題最近在Ubuntu上使用Nvidia GPU訓(xùn)練模型的時候,沒有問題,過一會再訓(xùn)練出現(xiàn)非??D,使用nvidia-smi查看發(fā)現(xiàn),顯示G
    發(fā)表于 01-03 08:24

    CES | 用 NVIDIA Isaac Sim 2022.2 模擬未來智能機(jī)器人

    智能機(jī)器人的開發(fā)、測試、培訓(xùn)和部署。 使用 NVIDIA Isaac Sim ,您可以輕松導(dǎo)入您選擇的機(jī)器人模型。使用它來構(gòu)建真實(shí)的環(huán)境以驗(yàn)證機(jī)器人
    的頭像 發(fā)表于 01-06 22:30 ?1613次閱讀

    谷歌借助Gemini AI系統(tǒng)深化對機(jī)器人訓(xùn)練

    7月12日,國際科技界傳來新動態(tài),谷歌正借助其先進(jìn)的Gemini AI系統(tǒng),深化對旗下機(jī)器人訓(xùn)練,旨在顯著提升它們的導(dǎo)航能力和任務(wù)執(zhí)行能力。DeepMind
    的頭像 發(fā)表于 07-12 16:29 ?1188次閱讀

    NVIDIA Cosmos世界基礎(chǔ)模型平臺發(fā)布

    NVIDIA 宣布推出NVIDIA Cosmos,該平臺由先進(jìn)的生成式世界基礎(chǔ)模型、高級 tokenizer、護(hù)欄和加速視頻處理管線組成,將推動自動駕駛汽車(AV)和
    的頭像 發(fā)表于 01-08 10:39 ?850次閱讀

    NVIDIA發(fā)布Cosmos?平臺,助力物理AI系統(tǒng)發(fā)展

    NVIDIA近日宣布推出全新的NVIDIA Cosmos?平臺,該平臺專為自動駕駛汽車(AV)和機(jī)器人等物理AI系統(tǒng)而設(shè)計(jì),旨在推動這些領(lǐng)域的快速發(fā)展。
    的頭像 發(fā)表于 01-08 15:36 ?780次閱讀

    英偉達(dá)推出基石世界模型Cosmos,解決智駕與機(jī)器人具身智能訓(xùn)練數(shù)據(jù)問題

    。Cosmos 世界基礎(chǔ)模型(WFM)使開發(fā)者能夠輕松生成大量基于物理學(xué)的逼真合成數(shù)據(jù),以用于訓(xùn)練和評估其現(xiàn)有的模型。開發(fā)者還可以通過微調(diào) Cosm
    的頭像 發(fā)表于 01-14 11:04 ?1835次閱讀
    英偉達(dá)推出基石世界<b class='flag-5'>模型</b><b class='flag-5'>Cosmos</b>,解決智駕與<b class='flag-5'>機(jī)器人</b>具身智能<b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)問題

    通過NVIDIA Cosmos模型增強(qiáng)機(jī)器人學(xué)習(xí)

    通用機(jī)器人的時代已經(jīng)到來,這得益于機(jī)械電子技術(shù)和機(jī)器人 AI 基礎(chǔ)模型的進(jìn)步。但目前機(jī)器人技術(shù)的發(fā)展仍面臨一個關(guān)鍵挑戰(zhàn):機(jī)器人需要大量的
    的頭像 發(fā)表于 07-14 11:49 ?565次閱讀
    通過<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Cosmos</b><b class='flag-5'>模型</b>增強(qiáng)<b class='flag-5'>機(jī)器人</b>學(xué)習(xí)

    利用NVIDIA Cosmos模型訓(xùn)練通用機(jī)器人

    機(jī)器人領(lǐng)域的一大核心挑戰(zhàn)在于如何讓機(jī)器人掌握新任務(wù),而無需針對每個新任務(wù)和環(huán)境耗費(fèi)大量精力收集和標(biāo)注數(shù)據(jù)集。NVIDIA 的最新研究方案通過生成式 AI、世界基礎(chǔ)模型(如
    的頭像 發(fā)表于 08-05 16:22 ?1464次閱讀
    利用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Cosmos</b><b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>通用<b class='flag-5'>機(jī)器人</b>

    NVIDIA通過全新 Omniverse庫、Cosmos物理AI模型及AI計(jì)算基礎(chǔ)設(shè)施,為機(jī)器人領(lǐng)域開啟新篇章

    NVIDIA 通過全新 Omniverse 庫、Cosmos 物理 AI 模型及 AI 計(jì)算基礎(chǔ)設(shè)施,為機(jī)器人領(lǐng)域開啟新篇章 ? ·?全新 NVID
    的頭像 發(fā)表于 08-12 11:29 ?1211次閱讀
    <b class='flag-5'>NVIDIA</b>通過全新 Omniverse庫、<b class='flag-5'>Cosmos</b>物理AI<b class='flag-5'>模型</b>及AI計(jì)算基礎(chǔ)設(shè)施,為<b class='flag-5'>機(jī)器人</b>領(lǐng)域開啟新篇章

    NVIDIA三臺計(jì)算機(jī)解決方案如何協(xié)同助力機(jī)器人技術(shù)

    NVIDIA DGX、基于 NVIDIA RTX PRO 服務(wù)器的 Omniverse 和 Cosmos,以及 Jetson AGX Thor,正全面加速從人形機(jī)器人
    的頭像 發(fā)表于 08-27 11:48 ?1783次閱讀

    NVIDIA 利用全新開源模型與仿真庫加速機(jī)器人研發(fā)進(jìn)程

    科研人員及開發(fā)者打造功能更強(qiáng)大、適應(yīng)性更強(qiáng)的機(jī)器人。 ? 全新的 NVIDIA Isaac GR00T 開源基礎(chǔ)模型將為機(jī)器人賦予接近人類的推理能力,使其能夠拆解復(fù)雜指令,并
    的頭像 發(fā)表于 09-30 09:52 ?2114次閱讀
    <b class='flag-5'>NVIDIA</b> 利用全新開源<b class='flag-5'>模型</b>與仿真庫加速<b class='flag-5'>機(jī)器人</b>研發(fā)進(jìn)程