chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA Nemotron Nano 2推理模型發(fā)布

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 2025-08-27 12:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列NVIDIA Nemotron Nano 2。

aa2d7d4a-824b-11f0-a18e-92fbcf53809c.png

*圖中,ISL 與 OSL 分別代表輸入和輸出序列長度,吞吐量數(shù)據(jù)均在單顆 NVIDIA GPU 上以 bfloat16 精度測得。

如“NVIDIA Nemotron Nano 2:準確、高效的混合 Mamba-Transformer 推理模型”技術報告所示,推理模型 NVIDIA-Nemotron-Nano-v2-9B 在復雜推理基準測試中,實現(xiàn)了與領先的同規(guī)模開源模型 Qwen3-8B 相當乃至更佳的準確率,吞吐量較后者至高提升6倍。

我們在 Hugging Face 上發(fā)布了以下三個模型,它們均支持 128K 上下文長度:

NVIDIA-Nemotron-Nano-9B-v2:經過對齊和剪枝的推理模型

NVIDIA-Nemotron-Nano-9B-v2-Base:經過剪枝的基礎模型

NVIDIA-Nemotron-Nano-12B-v2-Base:未經過對齊或剪枝的基礎模型

數(shù)據(jù)集

此外,作為行業(yè)領先開源模型的首次嘗試,我們公開了在預訓練中使用的大部分數(shù)據(jù)。

Nemotron-Pre-Training-Dataset-v1 數(shù)據(jù)集包含6.6萬億個 Token,涵蓋高質量網(wǎng)絡爬取、數(shù)學、代碼、SFT 和多語言問答數(shù)據(jù),分為以下四個類別:

Nemotron-CC-v2:基于 Nemotron-CC(Su 等人,2025 年)的后續(xù)版本,新增了 2024 至 2025 年間的八個 Common Crawl 快照數(shù)據(jù)集。數(shù)據(jù)集經過整體去重處理,并使用 Qwen3-30B-A3B 對其進行了合成重述。此外,該數(shù)據(jù)集還包含15 種語言的合成多樣化問答,可支持強大的多語言邏輯推理和通用知識預訓練。

Nemotron-CC-Math-v1:一個以數(shù)學為重點的數(shù)據(jù)集,包含1,330 億個 Token。該數(shù)據(jù)集使用NVIDIALynx + LLM 管線從 Common Crawl 中提取數(shù)據(jù),在保留方程和代碼格式的同時,將數(shù)學內容統(tǒng)一標準化為 LaTex 的編輯形式,確保了關鍵數(shù)學內容和代碼片段完整無損,生成的預訓練數(shù)據(jù)在基準測試中顯著優(yōu)于現(xiàn)有數(shù)學數(shù)據(jù)集。

Nemotron-Pretraining-Code-v1:基于 GitHub 構建的大規(guī)模精選代碼數(shù)據(jù)集。該數(shù)據(jù)集經過多階段去重、許可證強制執(zhí)行和啟發(fā)式質量檢查過濾,包含11 種編程語言的 LLM 生成代碼問答對。

Nemotron-Pretraining-SFT-v1:覆蓋STEM、學術、邏輯推理和多語言領域的合成生成數(shù)據(jù)集。該數(shù)據(jù)集包含復雜的多選題和解析題,這些問題源自高質量數(shù)學和科學素材、研究生級的學術文本以及經過指令微調的 SFT 數(shù)據(jù)(涵蓋數(shù)學、代碼、通用問答和邏輯推理任務)。

Nemotron-Pretraining-Dataset-sample:數(shù)據(jù)集的精簡采樣版本,包含10 個代表性子集,內容涵蓋高質量問答數(shù)據(jù)、專注于數(shù)學領域的提取內容、代碼元數(shù)據(jù)及 SFT 風格指令數(shù)據(jù)。

技術亮點

數(shù)據(jù)集的亮點包括:

Nemotron-CC-Math:通過文本瀏覽器 (Lynx) 渲染網(wǎng)頁并結合大語言模型 (phi-4) 進行后處理,首次實現(xiàn)在大規(guī)模網(wǎng)頁下正確保留各種數(shù)學格式的方程和代碼的處理流程(包括長尾格式)。相較于過去基于啟發(fā)式的方法,這是一次突破性改進。內部預訓練實驗表明,使用 Nemotron-CC-Math 數(shù)據(jù)集訓練的模型在 MATH 測試上較最強基線提升了 4.8 至 12.6 分,在 MBPP+ 代碼生成任務上提升了 4.6 至 14.3 分。

Nemotron-CC-v2:此前研究表明,從高質量英文網(wǎng)頁爬取數(shù)據(jù)生成的合成多樣化問答數(shù)據(jù),能顯著提升大語言模型 (LLM) 通用能力(如 MMLU 等基準測試顯示)。在此基礎上,我們通過將此數(shù)據(jù)集翻譯成 15 種語言,把這一發(fā)現(xiàn)擴展到更多語言。消融實驗顯示,加入翻譯過的多樣化問答數(shù)據(jù)后,Global-MMLU 平均準確率比僅使用多語言 Common Crawl 數(shù)據(jù)提升了 10.0 分。

Nemotron-Pretraining-Code:除 1,751 億個高質量合成代碼數(shù)據(jù) Token 外,我們還發(fā)布了元數(shù)據(jù),使用戶能夠復現(xiàn)一個精心整理、寬松授權的代碼數(shù)據(jù)集(規(guī)模達 7,474 億 Token)。

模型的亮點包括:

預訓練階段:Nemotron-Nano-12B-v2-Base 采用Warmup-Stable-Decay 學習率調度器在 20 萬億個 Token 上以 FP8 精度進行預訓練。隨后,通過持續(xù)的預訓練長上下文擴展階段,可在不降低其他基準性能的情況下支持 128k 上下文長度。

后訓練階段:Nemotron Nano 2 通過監(jiān)督式微調 (SFT)、組相對策略優(yōu)化 (GRPO)、直接偏好優(yōu)化 (DPO) 和基于人類反饋的強化學習 (RLHF) 進行后訓練。其中約 5% 的數(shù)據(jù)包含故意截斷的邏輯推演,使推理時能夠精細控制思考預算。

壓縮:最后,我們對基礎模型和對齊后的模型進行了壓縮,使其能夠在單顆 NVIDIA GPU(22 GiB 內存,bfloat16 精度)上實現(xiàn) 128k Token 上下文長度的推理。此結果通過擴展基于 Minitron 的壓縮策略以壓縮受約束的邏輯推理模型實現(xiàn)。

數(shù)據(jù)示例

aa4f5924-824b-11f0-a18e-92fbcf53809c.png

示例 1:我們的處理流程能夠同時保留數(shù)學公式和代碼,而之前的預訓練數(shù)據(jù)集通常會丟失或損壞數(shù)學公式。

引用

@misc{nvidia2025nvidianemotronnano2,
   title={NVIDIA Nemotron Nano2: An AccurateandEfficient Hybrid Mamba-Transformer Reasoning Model},
   author={NVIDIA},
   year={2025},
   eprint={2508.14444},
   archivePrefix={arXiv},
   primaryClass={cs.CL},
   url={https://arxiv.org/abs/2508.14444},

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5432

    瀏覽量

    108362
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5039

    瀏覽量

    133851
  • 模型
    +關注

    關注

    1

    文章

    3612

    瀏覽量

    51456
  • 數(shù)據(jù)集

    關注

    4

    文章

    1229

    瀏覽量

    25929

原文標題:NVIDIA Nemotron Nano 2 及 Nemotron 預訓練數(shù)據(jù)集 v1

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NVIDIA Nemotron模型如何推動AI發(fā)展

    Nemotron 開源技術能夠幫助開發(fā)者與企業(yè)構建強大的通用和專用智能系統(tǒng)。
    的頭像 發(fā)表于 10-13 11:12 ?384次閱讀

    什么是AI模型推理能力

    NVIDIA 的數(shù)據(jù)工廠團隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎,該模型近日在 Hugging Face 的物理
    的頭像 發(fā)表于 09-23 15:19 ?572次閱讀

    澎峰科技完成OpenAI最新開源推理模型適配

    澎峰科技現(xiàn)已完成 OpenAI 最新開源推理模型 gpt-oss-20b 在 DeepFusion 大模型一體機上的原生適配與優(yōu)化,用戶可一鍵啟用這顆“小而強悍”的新引擎,在本地享受企業(yè)級 AI 生產力!
    的頭像 發(fā)表于 08-14 11:34 ?995次閱讀

    利用NVIDIA推理模型構建AI智能體

    開放式推理模型能夠更快、更廣泛地進行思考,為客戶服務、網(wǎng)絡安全、制造、物流和機器人等領域的 AI 智能體生成更明智的結果。
    的頭像 發(fā)表于 08-13 14:32 ?1104次閱讀
    利用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理模型</b>構建AI智能體

    企業(yè)使用NVIDIA NeMo微服務構建AI智能體平臺

    發(fā)布的 NeMo 微服務可與合作伙伴平臺集成,作為創(chuàng)建 AI 智能體的構建模塊,使用商業(yè)智能與強大的邏輯推理模型 (包括 NVIDIA Llama Nemotron) 處理更多任務。
    的頭像 發(fā)表于 04-27 15:05 ?847次閱讀

    詳解 LLM 推理模型的現(xiàn)狀

    領域的最新研究進展,特別是自DeepSeekR1發(fā)布后興起的推理時間計算擴展相關內容。在LLM中實施和改進推理簡單來說,基于LLM的推理模型是一種旨在通過生成中間
    的頭像 發(fā)表于 04-03 12:09 ?954次閱讀
    詳解 LLM <b class='flag-5'>推理模型</b>的現(xiàn)狀

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    DeepSeek-R1 上的吞吐量提高了 30 倍 NVIDIA 發(fā)布了開源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴展 AI 工廠中的 AI
    的頭像 發(fā)表于 03-20 15:03 ?920次閱讀

    NVIDIA 推出開放推理 AI 模型系列,助力開發(fā)者和企業(yè)構建代理式 AI 平臺

    NVIDIA 后訓練的全新 Llama Nemotron 推理模型,為代理式 AI 提供業(yè)務就緒型基礎 埃森哲、Amdocs、Atlassian、Box、Cadence、CrowdStrike
    發(fā)表于 03-19 09:31 ?301次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開放<b class='flag-5'>推理</b> AI <b class='flag-5'>模型</b>系列,助力開發(fā)者和企業(yè)構建代理式 AI 平臺

    科大訊飛發(fā)布星火深度推理模型X1

    今天,科大訊飛正式發(fā)布星火深度推理模型X1,星火4.0 Turbo底座全面升級,首發(fā)星火語音同傳大模型。
    的頭像 發(fā)表于 01-15 15:54 ?950次閱讀

    NVIDIA推出開放式Llama Nemotron系列模型

    作為 NVIDIA NIM 微服務,開放式 Llama Nemotron 大語言模型和 Cosmos Nemotron 視覺語言模型可在任何
    的頭像 發(fā)表于 01-09 11:11 ?1034次閱讀

    科大訊飛即將發(fā)布訊飛星火深度推理模型X1

    近日,科大訊飛在1月7日成功舉辦的辦公智能體產品升級發(fā)布會上,宣布了一項令人振奮的新進展。據(jù)科大訊飛官方透露,公司將于1月15日正式對外發(fā)布其最新的“訊飛星火深度推理模型X1”。 這一新模型
    的頭像 發(fā)表于 01-08 10:30 ?921次閱讀

    智譜推出深度推理模型GLM-Zero預覽版

    近日,智譜公司正式發(fā)布了其深度推理模型GLM-Zero的預覽版——GLM-Zero-Preview。這款模型標志著智譜在擴展強化學習技術訓練推理模型方面的重大突破,成為其首個專注于增強
    的頭像 發(fā)表于 01-03 10:42 ?691次閱讀

    智譜GLM-Zero深度推理模型預覽版正式上線

    近日,智譜公司宣布其深度推理模型GLM-Zero的初代版本——GLM-Zero-Preview已正式上線。這款模型是智譜首個基于擴展強化學習技術訓練的推理模型,標志著智譜在AI推理領域
    的頭像 發(fā)表于 01-02 10:55 ?694次閱讀

    阿里云發(fā)布開源多模態(tài)推理模型QVQ-72B-Preview

    近日,阿里云宣布了一項重大技術突破,正式發(fā)布了業(yè)界首個開源多模態(tài)推理模型——QVQ-72B-Preview。這一模型的問世,標志著阿里云在AI技術領域的又一次重要飛躍
    的頭像 發(fā)表于 12-27 10:28 ?778次閱讀

    OpenAI發(fā)布新一代推理模型o3及o3-mini

    近日,OpenAI在為期12天的發(fā)布會上宣布了新一代推理模型o3及其精簡版o3-mini。這兩款模型被專門設計用于在回答問題之前進行更深入的思考,以期提高答案的準確性。 據(jù)悉,o3模型
    的頭像 發(fā)表于 12-24 09:29 ?1050次閱讀