一级绝黄免在线观看,久久玖玖玖XXXX,恨锁金瓶

這一全新開放模型系列引入了開放的混合 Mamba-Transformer MoE 架構(gòu)，使多智能體系統(tǒng)能夠進(jìn)行快速長上下文推理。

代理式AI系統(tǒng)日益依賴協(xié)同運(yùn)行的智能體集合，包含檢索器、規(guī)劃器、工具執(zhí)行器、驗(yàn)證器等，它們需在大規(guī)模上下文上長時(shí)間協(xié)同工作。這類系統(tǒng)需要能夠提供快速吞吐、高推理精度及大規(guī)模輸入持續(xù)一致性的模型。它們也需要一定的開放性，使開發(fā)者能夠在任意運(yùn)行環(huán)境定制、擴(kuò)展和部署模型。

NVIDIANemotron3系列開放模型(Nano、Super、Ultra)、數(shù)據(jù)集和技術(shù)專為在新時(shí)代構(gòu)建專業(yè)代理式AI而設(shè)計(jì)。

該系列引入了異構(gòu)Mamba-Transformer混合專家(mixture-of-experts,MoE)架構(gòu)、交互式環(huán)境強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)，以及原生100萬token上下文窗口，可為多智能體應(yīng)用提供高吞吐量、長時(shí)推理能力。

Nemotron3的新特性

Nemotron3引入了多項(xiàng)創(chuàng)新技術(shù)，可精準(zhǔn)滿足代理式系統(tǒng)需求：

混合Mamba-TransformerMoE主干提供出色的測試時(shí)效率與長程推理能力。

圍繞真實(shí)世界代理式任務(wù)設(shè)計(jì)的多環(huán)境強(qiáng)化學(xué)習(xí)。

100萬token上下文長度支持深度多文檔推理與長時(shí)間智能體記憶。

開放透明的訓(xùn)練管道，包含數(shù)據(jù)、權(quán)重及方案。

Nemotron3 Nano現(xiàn)已推出并附帶現(xiàn)成使用指南。Super與Ultra將于稍晚發(fā)布。

簡單提示示例

Nemotron3模型的核心技術(shù)

混合Mamba-TransformerMoE架構(gòu)

Nemotron3將三種架構(gòu)整合成一個(gè)主干：

Mamba層：實(shí)現(xiàn)高效序列建模

Transformer層：保障推理精度

MoE路由：實(shí)現(xiàn)可擴(kuò)展計(jì)算效率

Mamba層擅長以極低顯存開銷追蹤長程依賴，即使處理數(shù)十萬token仍能保持穩(wěn)定的性能。Transformer層通過精細(xì)注意力機(jī)制對此進(jìn)行了補(bǔ)充，捕捉例如代碼操作、數(shù)學(xué)推理或復(fù)雜規(guī)劃等任務(wù)所需的結(jié)構(gòu)與邏輯關(guān)聯(lián)。

MoE組件在不增加密集計(jì)算開銷的前提下提升了有效參數(shù)數(shù)量。每個(gè)token僅激活一部分專家，從而降低了延遲并提高了吞吐量。該架構(gòu)特別適合需要同時(shí)運(yùn)行大量輕量級智能體的集群場景，每個(gè)智能體都生成計(jì)劃、檢查上下文或執(zhí)行基于工具的工作流。

圖1：Nemotron3混合架構(gòu)。該模型通過交錯(cuò)部署Mamba-2與MoE層，輔以少量自注意力層，在保持領(lǐng)先精度的同時(shí)實(shí)現(xiàn)推理吞吐量最大化。

多環(huán)境強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練

為使Nemotron3契合真實(shí)代理式行為，該模型在NeMoGym（一個(gè)用于構(gòu)建和擴(kuò)展RL環(huán)境的開源庫）中通過跨多種環(huán)境的強(qiáng)化學(xué)習(xí)進(jìn)行后訓(xùn)練。這些環(huán)境評估模型執(zhí)行連續(xù)動作序列的能力（不僅是單次響應(yīng)），例如生成正確的工具調(diào)用、編寫功能性代碼，或生成滿足可驗(yàn)證標(biāo)準(zhǔn)的多步驟計(jì)劃。

這種基于軌跡的強(qiáng)化學(xué)習(xí)帶來了在多步驟工作流中表現(xiàn)穩(wěn)定的模型，減少推理漂移，并能處理代理式管道中常見的結(jié)構(gòu)化操作。由于NeMoGym是開源的，開發(fā)者可在為特定領(lǐng)域任務(wù)定制模型時(shí)復(fù)用、擴(kuò)展甚至創(chuàng)建自己的環(huán)境。

這些環(huán)境和RL數(shù)據(jù)集連同NeMoGym一起上線，供有意使用這些環(huán)境訓(xùn)練自己模型的用戶使用。

圖2：Nemotron3 Nano通過混合MoE架構(gòu)實(shí)現(xiàn)極高的吞吐效率，并借助NeMoGym的先進(jìn)強(qiáng)化學(xué)習(xí)技術(shù)達(dá)到領(lǐng)先精度

100萬token上下文長度

Nemotron3的100萬token上下文使其能夠在大型代碼庫、長文檔、擴(kuò)展對話及聚合檢索內(nèi)容中進(jìn)行持續(xù)推理。智能體無需依賴碎片化的分塊啟發(fā)式方法，就可以在單個(gè)上下文窗口中完整保留證據(jù)集、歷史緩沖及多階段計(jì)劃。

這種長上下文窗口得益于Nemotron3的混合Mamba-Transformer架構(gòu)，它能夠高效處理超大規(guī)模的序列。MoE路由也能保持較低的單個(gè)token計(jì)算成本，使得在推理時(shí)處理這些大型序列成為可能。

對于企業(yè)級檢索增強(qiáng)生成、合規(guī)性分析、多小時(shí)智能體會話或整體存儲庫理解等場景，100萬token窗口可顯著加固事實(shí)基礎(chǔ)并減少上下文碎片化。

Nemotron3 Super與Ultra的核心技術(shù)

潛在MoE

Nemotron3 Super與Ultra引入了潛在MoE，其中專家先在共享潛在表示中運(yùn)行，然后再將輸出結(jié)果投影回token空間。該方法使模型能夠在相同推理成本下調(diào)用多達(dá)4倍的專家，從而更好地圍繞微妙語義結(jié)構(gòu)、領(lǐng)域抽象或多跳推理模式實(shí)現(xiàn)專業(yè)化。

圖3：標(biāo)準(zhǔn)MoE與潛在MoE架構(gòu)對比。在潛在MoE中，token被投影至更小的潛在維度進(jìn)行專家路由與計(jì)算，在降低通信成本的同時(shí)支持更多專家參與，并提高每字節(jié)精度。

多token預(yù)測(MTP)

MTP使模型能夠在一次前向傳播中預(yù)測多個(gè)未來token，從而顯著提高長推理序列和結(jié)構(gòu)化輸出的吞吐量。對于規(guī)劃、軌跡生成、擴(kuò)展思維鏈或代碼生成，MTP可降低延遲并提高智能體的響應(yīng)速度。

圖4：多token預(yù)測（源自論文《通過多token預(yù)測實(shí)現(xiàn)更優(yōu)更快的大語言模型》）可同時(shí)預(yù)測多個(gè)未來token，在訓(xùn)練階段將精度提高約2.4%，在推理階段實(shí)現(xiàn)了推測性解碼加速。

NVFP4訓(xùn)練

Super與Ultra模型采用NVFP4精度進(jìn)行預(yù)訓(xùn)練，NVIDIA的4位浮點(diǎn)格式可為訓(xùn)練與推理提供業(yè)界領(lǐng)先的成本精度比。我們?yōu)镹emotron3設(shè)計(jì)了更新版NVFP4方案，確保在25萬億token預(yù)訓(xùn)練數(shù)據(jù)集上能夠?qū)崿F(xiàn)精準(zhǔn)且穩(wěn)定的預(yù)訓(xùn)練。預(yù)訓(xùn)練過程中的大部分浮點(diǎn)乘加運(yùn)算均采用NVFP4格式。

持續(xù)致力于開放模型

Nemotron3彰顯了NVIDIA對透明度與開發(fā)者賦能的承諾。該模型的權(quán)重已根據(jù)NVIDIA開放模型許可協(xié)議(NVIDIA Open Model License)公開發(fā)布。NVIDIA的合成預(yù)訓(xùn)練語料庫（近10萬億token）可以被查閱或重用。開發(fā)者還可獲取NemotronGitHub庫中的詳細(xì)訓(xùn)練與后訓(xùn)練方案，實(shí)現(xiàn)完全的可復(fù)現(xiàn)性與定制化。

Nemotron3 Nano已發(fā)布，為高吞吐量、長上下文代理式系統(tǒng)奠定了基礎(chǔ)。Super與Ultra將于2026年上半年發(fā)布，將在此基礎(chǔ)上進(jìn)一步深化推理能力和提高架構(gòu)效率。

Nemotron3 Nano現(xiàn)已發(fā)布

系列首款模型Nemotron3 Nano已于近日發(fā)布。這個(gè)總參數(shù)300億、激活參數(shù)30億的模型專為DGX Spark、Hopper GPU及Blackwell GPU設(shè)計(jì)，讓用戶能夠使用Nemotron3系列中較高效的模型進(jìn)行開發(fā)。

如果您想要了解更多關(guān)于Nemotron3 Nano的技術(shù)細(xì)節(jié)，可訪問Hugging Face博客，或閱讀技術(shù)報(bào)告。

該模型可達(dá)到極高的吞吐量效率，在Artificial Analysis Intelligence Index上成績領(lǐng)先，并且在Artificial AnalysisOpenness Index上保持了與NVIDIANemotronNano V2相同的分?jǐn)?shù)。這充分展現(xiàn)了其在多智能體任務(wù)中的高效性，同時(shí)兼具透明度與可定制性。

圖5：在Artificial AnalysisIntelligence Indexv3.0上，Nemotron3 Nano的精度（52）領(lǐng)先于同等規(guī)模模型。

開發(fā)者現(xiàn)可在多種部署與開發(fā)工作流中使用Nemotron3 Nano：

通過NVIDIA使用指南啟動模型

我們?yōu)槎鄠€(gè)主流推理引擎提供現(xiàn)成使用指南：

vLLM使用指南：通過高吞吐量連續(xù)批處理和流式輸出部署Nemotron3 Nano。

SGLang使用指南：運(yùn)行專為多智能體工具調(diào)用工作負(fù)載優(yōu)化的快速、輕量級推理。

TRT LLM使用指南：部署專為低延遲生產(chǎn)級環(huán)境完全優(yōu)化的TensorRTLLM引擎。

每套使用指南均包含配置模板、性能優(yōu)化建議及參考腳本，助您在數(shù)分鐘內(nèi)啟動Nemotron3 Nano。

此外，從GeForce RTX臺式電腦/筆記本電腦、RTX Pro工作站到DGX Spark，您可以立即在任意NVIDIA GPU上使用Nemotron，并借助Llama.cpp、LM Studio和Unsloth等頂級框架與工具上手。

使用Nemotron開放訓(xùn)練數(shù)據(jù)集進(jìn)行開發(fā)

NVIDIA同時(shí)發(fā)布了在整個(gè)模型開發(fā)期間使用的開放數(shù)據(jù)集，為高性能、可信模型的構(gòu)建帶來了空前的透明度。

新數(shù)據(jù)集的特點(diǎn)包括：

Nemotron預(yù)訓(xùn)練：新的3萬億token數(shù)據(jù)集，通過合成增強(qiáng)與標(biāo)注管道進(jìn)行增強(qiáng)，更加全面地覆蓋代碼、數(shù)學(xué)及推理場景。

Nemotron后訓(xùn)練3.0：1,300萬樣本語料庫，用于監(jiān)督式微調(diào)與強(qiáng)化學(xué)習(xí)，為Nemotron3 Nano的對齊與推理能力提供支持。

Nemotron強(qiáng)化學(xué)習(xí)數(shù)據(jù)集：精選的強(qiáng)化學(xué)習(xí)數(shù)據(jù)集與環(huán)境集合，涵蓋工具使用、規(guī)劃及多步驟推理。

Nemotron智能體安全數(shù)據(jù)集：近1.1萬條AI智能體工作流軌跡集合，幫助研究人員評估和減輕代理式系統(tǒng)中的新型安全風(fēng)險(xiǎn)。

配合NVIDIANeMoGym、RL、Data Designer及Evaluator開放庫，這些開放數(shù)據(jù)集使開發(fā)者能夠訓(xùn)練、增強(qiáng)和評估他們自己的Nemotron模型。

探索NemotronGitHub：預(yù)訓(xùn)練與強(qiáng)化學(xué)習(xí)方案

NVIDIA維護(hù)著一個(gè)開放的NemotronGitHub庫，其中包含：

預(yù)訓(xùn)練方案（已發(fā)布），展示Nemotron3 Nano的訓(xùn)練過程

用于多環(huán)境優(yōu)化的強(qiáng)化學(xué)習(xí)對齊方案

數(shù)據(jù)處理管道、分詞器配置及長上下文設(shè)置

后續(xù)更新將加入更多后訓(xùn)練與微調(diào)方案

如果您想訓(xùn)練自己的Nemotron、擴(kuò)展Nano或創(chuàng)建特定領(lǐng)域的變體，GitHub庫提供了文檔、配置及工具，可從頭至尾重現(xiàn)關(guān)鍵步驟。

這種開放性實(shí)現(xiàn)了完整閉環(huán)：您可以運(yùn)行、部署模型，查驗(yàn)?zāi)Ｐ偷臉?gòu)建方式，甚至訓(xùn)練您自己的模型，全程僅需使用NVIDIA開放資源。

Nemotron3 Nano現(xiàn)已上線。即刻開始使用NVIDIA開放模型、開放工具、開放數(shù)據(jù)及開放訓(xùn)練基礎(chǔ)設(shè)施，構(gòu)建長上下文、高吞吐量的代理式系統(tǒng)。

Nemotron模型推理挑戰(zhàn)賽

加速開放研究是Nemotron團(tuán)隊(duì)的核心使命。為此，我們十分高興地宣布一項(xiàng)新的社區(qū)競賽，其內(nèi)容是使用Nemotron的開放模型與數(shù)據(jù)集提高Nemotron的推理性能。

關(guān)于作者

Chris Alexiuk 是 NVIDIA 的深度學(xué)習(xí)開發(fā)者倡導(dǎo)者，負(fù)責(zé)創(chuàng)建技術(shù)資源，幫助開發(fā)者使用 NVIDIA 提供的一整套強(qiáng)大 AI 工具。Chris 擁有機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)背景，對大型語言模型的一切充滿熱情。

Shashank Verma 是 NVIDIA 的一名深入學(xué)習(xí)的技術(shù)營銷工程師。他負(fù)責(zé)開發(fā)和展示各種深度學(xué)習(xí)框架中以開發(fā)人員為中心的內(nèi)容。他從威斯康星大學(xué)麥迪遜分校獲得電氣工程碩士學(xué)位，在那里他專注于計(jì)算機(jī)視覺、數(shù)據(jù)科學(xué)的安全方面和 HPC 。

Chintan Patel是NVIDIA的高級產(chǎn)品經(jīng)理，致力于將GPU加速的解決方案引入HPC社區(qū)。他負(fù)責(zé)NVIDIA GPU Cloud注冊表中HPC應(yīng)用程序容器的管理和提供。在加入NVIDIA之前，他曾在Micrel，Inc.擔(dān)任產(chǎn)品管理，市場營銷和工程職位。他擁有圣塔克拉拉大學(xué)的MBA學(xué)位以及UC Berkeley的電氣工程和計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5594

瀏覽量
109758
AI

AI

+關(guān)注

關(guān)注
91

文章
39793

瀏覽量
301454
模型

模型

+關(guān)注

關(guān)注
1

文章
3752

瀏覽量
52112

原文標(biāo)題：深入解析 NVIDIA Nemotron 3：使其高效精準(zhǔn)的技術(shù)、工具與數(shù)據(jù)

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

深入解析NVIDIA Nemotron 3系列開放模型

評論