這一全新開放模型系列引入了開放的混合 Mamba-Transformer MoE 架構(gòu),使多智能體系統(tǒng)能夠進(jìn)行快速長上下文推理。
代理式AI系統(tǒng)日益依賴協(xié)同運(yùn)行的智能體集合,包含檢索器、規(guī)劃器、工具執(zhí)行器、驗(yàn)證器等,它們需在大規(guī)模上下文上長時(shí)間協(xié)同工作。這類系統(tǒng)需要能夠提供快速吞吐、高推理精度及大規(guī)模輸入持續(xù)一致性的模型。它們也需要一定的開放性,使開發(fā)者能夠在任意運(yùn)行環(huán)境定制、擴(kuò)展和部署模型。
NVIDIANemotron3系列開放模型(Nano、Super、Ultra)、數(shù)據(jù)集和技術(shù)專為在新時(shí)代構(gòu)建專業(yè)代理式AI而設(shè)計(jì)。
該系列引入了異構(gòu)Mamba-Transformer混合專家(mixture-of-experts,MoE)架構(gòu)、交互式環(huán)境強(qiáng)化學(xué)習(xí)(reinforcement learning,RL),以及原生100萬token上下文窗口,可為多智能體應(yīng)用提供高吞吐量、長時(shí)推理能力。
Nemotron3的新特性
Nemotron3引入了多項(xiàng)創(chuàng)新技術(shù),可精準(zhǔn)滿足代理式系統(tǒng)需求:
混合Mamba-TransformerMoE主干提供出色的測試時(shí)效率與長程推理能力。
圍繞真實(shí)世界代理式任務(wù)設(shè)計(jì)的多環(huán)境強(qiáng)化學(xué)習(xí)。
100萬token上下文長度支持深度多文檔推理與長時(shí)間智能體記憶。
開放透明的訓(xùn)練管道,包含數(shù)據(jù)、權(quán)重及方案。
Nemotron3 Nano現(xiàn)已推出并附帶現(xiàn)成使用指南。Super與Ultra將于稍晚發(fā)布。
簡單提示示例
Nemotron3模型的核心技術(shù)
混合Mamba-TransformerMoE架構(gòu)
Nemotron3將三種架構(gòu)整合成一個(gè)主干:
Mamba層:實(shí)現(xiàn)高效序列建模
Transformer層:保障推理精度
MoE路由:實(shí)現(xiàn)可擴(kuò)展計(jì)算效率
Mamba層擅長以極低顯存開銷追蹤長程依賴,即使處理數(shù)十萬token仍能保持穩(wěn)定的性能。Transformer層通過精細(xì)注意力機(jī)制對此進(jìn)行了補(bǔ)充,捕捉例如代碼操作、數(shù)學(xué)推理或復(fù)雜規(guī)劃等任務(wù)所需的結(jié)構(gòu)與邏輯關(guān)聯(lián)。
MoE組件在不增加密集計(jì)算開銷的前提下提升了有效參數(shù)數(shù)量。每個(gè)token僅激活一部分專家,從而降低了延遲并提高了吞吐量。該架構(gòu)特別適合需要同時(shí)運(yùn)行大量輕量級智能體的集群場景,每個(gè)智能體都生成計(jì)劃、檢查上下文或執(zhí)行基于工具的工作流。

圖1:Nemotron3混合架構(gòu)。該模型通過交錯(cuò)部署Mamba-2與MoE層,輔以少量自注意力層,在保持領(lǐng)先精度的同時(shí)實(shí)現(xiàn)推理吞吐量最大化。
多環(huán)境強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練
為使Nemotron3契合真實(shí)代理式行為,該模型在NeMoGym(一個(gè)用于構(gòu)建和擴(kuò)展RL環(huán)境的開源庫)中通過跨多種環(huán)境的強(qiáng)化學(xué)習(xí)進(jìn)行后訓(xùn)練。這些環(huán)境評估模型執(zhí)行連續(xù)動作序列的能力(不僅是單次響應(yīng)),例如生成正確的工具調(diào)用、編寫功能性代碼,或生成滿足可驗(yàn)證標(biāo)準(zhǔn)的多步驟計(jì)劃。
這種基于軌跡的強(qiáng)化學(xué)習(xí)帶來了在多步驟工作流中表現(xiàn)穩(wěn)定的模型,減少推理漂移,并能處理代理式管道中常見的結(jié)構(gòu)化操作。由于NeMoGym是開源的,開發(fā)者可在為特定領(lǐng)域任務(wù)定制模型時(shí)復(fù)用、擴(kuò)展甚至創(chuàng)建自己的環(huán)境。
這些環(huán)境和RL數(shù)據(jù)集連同NeMoGym一起上線,供有意使用這些環(huán)境訓(xùn)練自己模型的用戶使用。

圖2:Nemotron3 Nano通過混合MoE架構(gòu)實(shí)現(xiàn)極高的吞吐效率,并借助NeMoGym的先進(jìn)強(qiáng)化學(xué)習(xí)技術(shù)達(dá)到領(lǐng)先精度
100萬token上下文長度
Nemotron3的100萬token上下文使其能夠在大型代碼庫、長文檔、擴(kuò)展對話及聚合檢索內(nèi)容中進(jìn)行持續(xù)推理。智能體無需依賴碎片化的分塊啟發(fā)式方法,就可以在單個(gè)上下文窗口中完整保留證據(jù)集、歷史緩沖及多階段計(jì)劃。
這種長上下文窗口得益于Nemotron3的混合Mamba-Transformer架構(gòu),它能夠高效處理超大規(guī)模的序列。MoE路由也能保持較低的單個(gè)token計(jì)算成本,使得在推理時(shí)處理這些大型序列成為可能。
對于企業(yè)級檢索增強(qiáng)生成、合規(guī)性分析、多小時(shí)智能體會話或整體存儲庫理解等場景,100萬token窗口可顯著加固事實(shí)基礎(chǔ)并減少上下文碎片化。
Nemotron3 Super與Ultra的核心技術(shù)
潛在MoE
Nemotron3 Super與Ultra引入了潛在MoE,其中專家先在共享潛在表示中運(yùn)行,然后再將輸出結(jié)果投影回token空間。該方法使模型能夠在相同推理成本下調(diào)用多達(dá)4倍的專家,從而更好地圍繞微妙語義結(jié)構(gòu)、領(lǐng)域抽象或多跳推理模式實(shí)現(xiàn)專業(yè)化。

圖3:標(biāo)準(zhǔn)MoE與潛在MoE架構(gòu)對比。在潛在MoE中,token被投影至更小的潛在維度進(jìn)行專家路由與計(jì)算,在降低通信成本的同時(shí)支持更多專家參與,并提高每字節(jié)精度。
多token預(yù)測(MTP)
MTP使模型能夠在一次前向傳播中預(yù)測多個(gè)未來token,從而顯著提高長推理序列和結(jié)構(gòu)化輸出的吞吐量。對于規(guī)劃、軌跡生成、擴(kuò)展思維鏈或代碼生成,MTP可降低延遲并提高智能體的響應(yīng)速度。

圖4:多token預(yù)測(源自論文《通過多token預(yù)測實(shí)現(xiàn)更優(yōu)更快的大語言模型》)可同時(shí)預(yù)測多個(gè)未來token,在訓(xùn)練階段將精度提高約2.4%,在推理階段實(shí)現(xiàn)了推測性解碼加速。
NVFP4訓(xùn)練
Super與Ultra模型采用NVFP4精度進(jìn)行預(yù)訓(xùn)練,NVIDIA的4位浮點(diǎn)格式可為訓(xùn)練與推理提供業(yè)界領(lǐng)先的成本精度比。我們?yōu)镹emotron3設(shè)計(jì)了更新版NVFP4方案,確保在25萬億token預(yù)訓(xùn)練數(shù)據(jù)集上能夠?qū)崿F(xiàn)精準(zhǔn)且穩(wěn)定的預(yù)訓(xùn)練。預(yù)訓(xùn)練過程中的大部分浮點(diǎn)乘加運(yùn)算均采用NVFP4格式。
持續(xù)致力于開放模型
Nemotron3彰顯了NVIDIA對透明度與開發(fā)者賦能的承諾。該模型的權(quán)重已根據(jù)NVIDIA開放模型許可協(xié)議(NVIDIA Open Model License)公開發(fā)布。NVIDIA的合成預(yù)訓(xùn)練語料庫(近10萬億token)可以被查閱或重用。開發(fā)者還可獲取NemotronGitHub庫中的詳細(xì)訓(xùn)練與后訓(xùn)練方案,實(shí)現(xiàn)完全的可復(fù)現(xiàn)性與定制化。
Nemotron3 Nano已發(fā)布,為高吞吐量、長上下文代理式系統(tǒng)奠定了基礎(chǔ)。Super與Ultra將于2026年上半年發(fā)布,將在此基礎(chǔ)上進(jìn)一步深化推理能力和提高架構(gòu)效率。
Nemotron3 Nano現(xiàn)已發(fā)布
系列首款模型Nemotron3 Nano已于近日發(fā)布。這個(gè)總參數(shù)300億、激活參數(shù)30億的模型專為DGX Spark、Hopper GPU及Blackwell GPU設(shè)計(jì),讓用戶能夠使用Nemotron3系列中較高效的模型進(jìn)行開發(fā)。
如果您想要了解更多關(guān)于Nemotron3 Nano的技術(shù)細(xì)節(jié),可訪問Hugging Face博客,或閱讀技術(shù)報(bào)告。
該模型可達(dá)到極高的吞吐量效率,在Artificial Analysis Intelligence Index上成績領(lǐng)先,并且在Artificial AnalysisOpenness Index上保持了與NVIDIANemotronNano V2相同的分?jǐn)?shù)。這充分展現(xiàn)了其在多智能體任務(wù)中的高效性,同時(shí)兼具透明度與可定制性。

圖5:在Artificial AnalysisIntelligence Indexv3.0上,Nemotron3 Nano的精度(52)領(lǐng)先于同等規(guī)模模型。
開發(fā)者現(xiàn)可在多種部署與開發(fā)工作流中使用Nemotron3 Nano:
通過NVIDIA使用指南啟動模型
我們?yōu)槎鄠€(gè)主流推理引擎提供現(xiàn)成使用指南:
vLLM使用指南:通過高吞吐量連續(xù)批處理和流式輸出部署Nemotron3 Nano。
SGLang使用指南:運(yùn)行專為多智能體工具調(diào)用工作負(fù)載優(yōu)化的快速、輕量級推理。
TRT LLM使用指南:部署專為低延遲生產(chǎn)級環(huán)境完全優(yōu)化的TensorRTLLM引擎。
每套使用指南均包含配置模板、性能優(yōu)化建議及參考腳本,助您在數(shù)分鐘內(nèi)啟動Nemotron3 Nano。
此外,從GeForce RTX臺式電腦/筆記本電腦、RTX Pro工作站到DGX Spark,您可以立即在任意NVIDIA GPU上使用Nemotron,并借助Llama.cpp、LM Studio和Unsloth等頂級框架與工具上手。
使用Nemotron開放訓(xùn)練數(shù)據(jù)集進(jìn)行開發(fā)
NVIDIA同時(shí)發(fā)布了在整個(gè)模型開發(fā)期間使用的開放數(shù)據(jù)集,為高性能、可信模型的構(gòu)建帶來了空前的透明度。
新數(shù)據(jù)集的特點(diǎn)包括:
Nemotron預(yù)訓(xùn)練:新的3萬億token數(shù)據(jù)集,通過合成增強(qiáng)與標(biāo)注管道進(jìn)行增強(qiáng),更加全面地覆蓋代碼、數(shù)學(xué)及推理場景。
Nemotron后訓(xùn)練3.0:1,300萬樣本語料庫,用于監(jiān)督式微調(diào)與強(qiáng)化學(xué)習(xí),為Nemotron3 Nano的對齊與推理能力提供支持。
Nemotron強(qiáng)化學(xué)習(xí)數(shù)據(jù)集:精選的強(qiáng)化學(xué)習(xí)數(shù)據(jù)集與環(huán)境集合,涵蓋工具使用、規(guī)劃及多步驟推理。
Nemotron智能體安全數(shù)據(jù)集:近1.1萬條AI智能體工作流軌跡集合,幫助研究人員評估和減輕代理式系統(tǒng)中的新型安全風(fēng)險(xiǎn)。
配合NVIDIANeMoGym、RL、Data Designer及Evaluator開放庫,這些開放數(shù)據(jù)集使開發(fā)者能夠訓(xùn)練、增強(qiáng)和評估他們自己的Nemotron模型。
探索NemotronGitHub:預(yù)訓(xùn)練與強(qiáng)化學(xué)習(xí)方案
NVIDIA維護(hù)著一個(gè)開放的NemotronGitHub庫,其中包含:
預(yù)訓(xùn)練方案(已發(fā)布),展示Nemotron3 Nano的訓(xùn)練過程
用于多環(huán)境優(yōu)化的強(qiáng)化學(xué)習(xí)對齊方案
數(shù)據(jù)處理管道、分詞器配置及長上下文設(shè)置
后續(xù)更新將加入更多后訓(xùn)練與微調(diào)方案
如果您想訓(xùn)練自己的Nemotron、擴(kuò)展Nano或創(chuàng)建特定領(lǐng)域的變體,GitHub庫提供了文檔、配置及工具,可從頭至尾重現(xiàn)關(guān)鍵步驟。
這種開放性實(shí)現(xiàn)了完整閉環(huán):您可以運(yùn)行、部署模型,查驗(yàn)?zāi)P偷臉?gòu)建方式,甚至訓(xùn)練您自己的模型,全程僅需使用NVIDIA開放資源。
Nemotron3 Nano現(xiàn)已上線。即刻開始使用NVIDIA開放模型、開放工具、開放數(shù)據(jù)及開放訓(xùn)練基礎(chǔ)設(shè)施,構(gòu)建長上下文、高吞吐量的代理式系統(tǒng)。
Nemotron模型推理挑戰(zhàn)賽
加速開放研究是Nemotron團(tuán)隊(duì)的核心使命。為此,我們十分高興地宣布一項(xiàng)新的社區(qū)競賽,其內(nèi)容是使用Nemotron的開放模型與數(shù)據(jù)集提高Nemotron的推理性能。
關(guān)于作者
Chris Alexiuk 是 NVIDIA 的深度學(xué)習(xí)開發(fā)者倡導(dǎo)者,負(fù)責(zé)創(chuàng)建技術(shù)資源,幫助開發(fā)者使用 NVIDIA 提供的一整套強(qiáng)大 AI 工具。Chris 擁有機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)背景,對大型語言模型的一切充滿熱情。
Shashank Verma 是 NVIDIA 的一名深入學(xué)習(xí)的技術(shù)營銷工程師。他負(fù)責(zé)開發(fā)和展示各種深度學(xué)習(xí)框架中以開發(fā)人員為中心的內(nèi)容。他從威斯康星大學(xué)麥迪遜分校獲得電氣工程碩士學(xué)位,在那里他專注于計(jì)算機(jī)視覺、數(shù)據(jù)科學(xué)的安全方面和 HPC 。
Chintan Patel是NVIDIA的高級產(chǎn)品經(jīng)理,致力于將GPU加速的解決方案引入HPC社區(qū)。 他負(fù)責(zé)NVIDIA GPU Cloud注冊表中HPC應(yīng)用程序容器的管理和提供。 在加入NVIDIA之前,他曾在Micrel,Inc.擔(dān)任產(chǎn)品管理,市場營銷和工程職位。他擁有圣塔克拉拉大學(xué)的MBA學(xué)位以及UC Berkeley的電氣工程和計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5594瀏覽量
109758 -
AI
+關(guān)注
關(guān)注
91文章
39793瀏覽量
301454 -
模型
+關(guān)注
關(guān)注
1文章
3752瀏覽量
52112
原文標(biāo)題:深入解析 NVIDIA Nemotron 3:使其高效精準(zhǔn)的技術(shù)、工具與數(shù)據(jù)
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
面向科學(xué)仿真的開放模型系列NVIDIA Apollo正式發(fā)布
英偉達(dá)開源Nemotron-4 340B系列模型,助力大型語言模型訓(xùn)練
NVIDIA Nemotron-4 340B模型幫助開發(fā)者生成合成訓(xùn)練數(shù)據(jù)
NVIDIA推出開放式Llama Nemotron系列模型
NVIDIA 推出開放推理 AI 模型系列,助力開發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺
ServiceNow攜手NVIDIA構(gòu)建150億參數(shù)超級助手
歐洲借助NVIDIA Nemotron優(yōu)化主權(quán)大語言模型
NVIDIA Nemotron Nano 2推理模型發(fā)布
NVIDIA Nemotron模型如何推動AI發(fā)展
利用NVIDIA Cosmos開放世界基礎(chǔ)模型加速物理AI開發(fā)
使用NVIDIA Nemotron RAG和Microsoft SQL Server 2025構(gòu)建高性能AI應(yīng)用
NVIDIA推動面向數(shù)字與物理AI的開源模型發(fā)展
NVIDIA 推出 Nemotron 3 系列開放模型
深入解析NVIDIA Nemotron 3系列開放模型
評論