chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實(shí)現(xiàn)150萬TPS推理

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA ? 2025-08-15 20:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

自 2016 年推出 NVIDIA DGX 以來,NVIDIA 與 OpenAI 便開始共同推動 AI 技術(shù)的邊界。此次 OpenAI gpt-oss-20b 和 gpt-oss-120b 模型的發(fā)布持續(xù)深化了雙方的 AI 創(chuàng)新合作。NVIDIA 在 NVIDIA Blackwell 架構(gòu)上優(yōu)化了這兩款全新的開放權(quán)重模型并實(shí)現(xiàn)了推理性能加速,在 NVIDIA 系統(tǒng)上至高達(dá)到每秒 150 萬個(gè) Token (TPS)。

這兩個(gè) gpt-oss 模型是具有鏈?zhǔn)剿季S和工具調(diào)用能力的文本推理大語言模型 (LLM),采用了廣受歡迎的混合專家模型 (MoE) 架構(gòu)和 SwigGLU 激活函數(shù)。其注意力層使用 RoPE 技術(shù),上下文規(guī)模為 128k,交替使用完整上下文和長度為 128 個(gè) Token 的滑動窗口。兩個(gè)模型的精度為 FP4,可運(yùn)行在單個(gè) 80GB 數(shù)據(jù)中心 GPU 上,并由 Blackwell 架構(gòu)提供原生支持。

aa412ec8-79bb-11f0-a18e-92fbcf53809c.jpg

這兩個(gè)模型在 NVIDIA Hopper 架構(gòu) Tensor Core GPU 上訓(xùn)練而成,gpt-oss-120b 模型訓(xùn)練耗時(shí)超過 210 萬小時(shí),而 gpt-oss-20b 模型訓(xùn)練耗時(shí)約為前者的十分之一。除了NVIDIA TensorRT-LLM外,NVIDIA 還與 Hugging Face Transformers、Ollama、vLLM 等多個(gè)頂級開源框架合作,提供優(yōu)化內(nèi)核和模型增強(qiáng)。本文將介紹 NVIDIA 如何將 gpt-oss 集成到軟件平臺以滿足開發(fā)者需求。

aa49f9f4-79bb-11f0-a18e-92fbcf53809c.png

表 1. OpenAI gpt-oss-20b 和 gpt-oss-120b 模型規(guī)格,包括總參數(shù)量、活躍參數(shù)量、專家模型數(shù)和輸入上下文長度

NVIDIA 還與 OpenAI 和社區(qū)一同對性能進(jìn)行優(yōu)化,增加了以下功能:

Blackwell 上用于注意力預(yù)填充 (prefill)、注意力解碼 (decode) 和 MoE 低延遲的 TensorRT-LLM Gen 內(nèi)核。

Blackwell 上的 CUTLASS MoE 內(nèi)核。

Hopper 上用于專用注意力機(jī)制的 XQA 內(nèi)核。

通過適用于 LLM 的 FlashInfer 內(nèi)核服務(wù)庫提供優(yōu)化的注意力與 MoE 路由內(nèi)核。

支持 MoE 的 OpenAI Triton 內(nèi)核,適用于 TensorRT-LLM 和 vLLM。

使用 vLLM 進(jìn)行部署

NVIDIA 與 vLLM 合作,在共同驗(yàn)證準(zhǔn)確性的同時(shí),分析并提升了 Hopper 和 Blackwell 架構(gòu)的性能。數(shù)據(jù)中心開發(fā)者可通過 FlashInfer LLM 內(nèi)核服務(wù)庫使用經(jīng) NVIDIA 優(yōu)化的內(nèi)核。

vLLM 建議使用 uv 進(jìn)行 Python 依賴項(xiàng)管理。用戶可以使用 vLLM 啟動一個(gè)與 OpenAI API 兼容的 Web 服務(wù)器。以下命令將自動下載模型并啟動服務(wù)器。更多詳細(xì)信息參見文檔和 vLLM Cookbook 指南。

uv run--with vllm vllm serve openai/gpt-oss-20b

使用 TensorRT-LLM 進(jìn)行部署

上述優(yōu)化已包含在 NVIDIA / TensorRT-LLM GitHub 庫中,開發(fā)者可根據(jù)庫中的部署指南啟動其高性能服務(wù)器,并按照指南從 Hugging Face 下載模型 checkpoint。NVIDIA 與 Transformers 庫合作,提升了新模型的開發(fā)者體驗(yàn)。指南還提供 Docker 容器以及低延遲和最大吞吐量場景下性能配置的指導(dǎo)。

在 NVIDIA 系統(tǒng)上實(shí)現(xiàn)

每秒 100 萬個(gè) Token 以上的性能

NVIDIA 工程師與 OpenAI 密切合作,確保了新發(fā)布的 gpt-oss-120b 和 gpt-oss-20b 模型在 NVIDIA Blackwell 和 NVIDIA Hopper 平臺上實(shí)現(xiàn)第零天 (Day 0) 性能提升。

根據(jù)早期性能測量結(jié)果,規(guī)模更大、計(jì)算需求更高的 gpt-oss-120b 模型,在 NVIDIA 系統(tǒng)上可實(shí)現(xiàn)每秒 150 萬個(gè) Token 的性能或服務(wù)約 5 萬名并發(fā)用戶。Blackwell 搭載了許多能夠提高推理性能的架構(gòu)技術(shù),包括使用了 FP4 Tensor Core 的第二代 Transformer Engine,以及高帶寬的第五代 NVIDIA NVLink 和 NVIDIA NVLink Switch,使得 72 顆 Blackwell GPU 可視作一個(gè)大型 GPU 運(yùn)行。

NVIDIA 平臺的性能、靈活性和創(chuàng)新速度使得該生態(tài)系統(tǒng)能夠在 Day 0 便以高吞吐量和低單位 Token 成本運(yùn)行最新模型。

通過 NVIDIA Launchable 試用經(jīng)過優(yōu)化的模型

還可以使用 Open AI Cookbook 上 JupyterLab Notebook 中的 Python API 部署 TensorRT-LLM,并將其作為NVIDIA Launchable在構(gòu)建平臺中使用。用戶可以在預(yù)配置環(huán)境中一鍵部署經(jīng)過優(yōu)化的模型,并在多個(gè)云平臺進(jìn)行測試。

使用 NVIDIA Dynamo 進(jìn)行部署

NVIDIA Dynamo是一個(gè)幫助開發(fā)者為大規(guī)模應(yīng)用部署 OpenAI gpt-oss 等模型的開源推理服務(wù)平臺。它與主流的推理后端集成,并提供 LLM 感知路由、彈性自動擴(kuò)展和分離服務(wù)等功能。在應(yīng)用輸入序列長度 (ISL) 長的情況下,Dynamo 的分離服務(wù)可顯著提升性能。在 32K ISL 場景中,Dynamo 在系統(tǒng)吞吐量和 GPU 預(yù)算相同的情況下,交互性能較合并服務(wù)提升了 4 倍。如需使用 Dynamo 進(jìn)行部署,可參考該指南:

https://github.com/ai-dynamo/dynamo/blob/main/components/backends/trtllm/gpt-oss.md

在 NVIDIA GeForce RTX AI PC 本地運(yùn)行

開發(fā)者可在本地運(yùn)行 AI ,以實(shí)現(xiàn)更快的迭代、更低的延遲和更可靠的數(shù)據(jù)隱私保護(hù)。兩個(gè)模型均具有原生 MXFP4 精度,可在 NVIDIA RTX PRO GPU 驅(qū)動的專業(yè)工作站上運(yùn)行,其中 gpt-oss-20b 可部署在任何具有不低于 16GB 顯存的 GeForce RTX AI PC 上。開發(fā)者可通過 Ollama、Llama.cpp 或 Microsoft AI Foundry Local,使用其常用的應(yīng)用和 SDK 體驗(yàn)這兩個(gè)模型。如需使用,請?jiān)L問 RTX AI Garage。

aa559afc-79bb-11f0-a18e-92fbcf53809c.jpg

圖 1. 使用 Ollama 安裝和運(yùn)行模型的步驟

通過 NVIDIA NIM 簡化企業(yè)部署

企業(yè)開發(fā)者可通過 NVIDIA API 目錄中的NVIDIA NIM預(yù)覽 API 和 Web Playground 環(huán)境試用 gpt-oss 模型。這兩個(gè)模型已被打包成 NVIDIA NIM,可靈活、輕松地部署在任何 GPU 加速的基礎(chǔ)設(shè)施上,同時(shí)保證數(shù)據(jù)隱私和提供企業(yè)級安全。

下載和部署預(yù)打包、可移植式且經(jīng)過優(yōu)化的 NIM:

下載 gpt-oss-120b

鏈接:https://www.nvidia.cn/ai/

文檔:https://docs.api.nvidia.com/nim/reference/openai-gpt-oss-120b

下載 gpt-oss-20b

鏈接:https://www.nvidia.cn/ai/

文檔:https://docs.api.nvidia.com/nim/reference/openai-gpt-oss-20b

隨著兩個(gè) gpt-oss 模型被全面集成到 NVIDIA 開發(fā)者生態(tài)系統(tǒng)中,開發(fā)者可選擇最有效的解決方案??稍?NVIDIA API 目錄用戶界面或通過 OpenAI Cookbook 中的 NVIDIA 開發(fā)者指南開始使用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5431

    瀏覽量

    108270
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1234

    瀏覽量

    9570

原文標(biāo)題:NVIDIA 從云到邊緣加速 OpenAI gpt-oss 模型部署,實(shí)現(xiàn) 150 萬 TPS 推理

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    Dynamo 0.4在NVIDIA Blackwell上通過PD分離將性能提升4倍

    近期,OpenAIgpt-oss、月之暗面的 Kimi K2 等多個(gè)新的前沿開源模型相繼問世,標(biāo)志著大語言模型 (LLM) 創(chuàng)新浪潮的加速
    的頭像 發(fā)表于 08-22 15:59 ?721次閱讀
    Dynamo 0.4在<b class='flag-5'>NVIDIA</b> Blackwell上通過PD分離將性能提升4倍

    澎峰科技完成OpenAI最新開源推理模型適配

    澎峰科技現(xiàn)已完成 OpenAI 最新開源推理模型 gpt-oss-20b 在 DeepFusion 大模型一體機(jī)上的原生適配與優(yōu)化,用戶可一鍵啟用這顆“小而強(qiáng)悍”的新引擎,在本地享受企
    的頭像 發(fā)表于 08-14 11:34 ?990次閱讀

    訊飛星辰MaaS平臺率先上線OpenAI最新開源模型

    8月6日凌晨,OpenAI 時(shí)隔六年再次回歸開源,發(fā)布兩款全新的大語言模型gpt-oss-120b和gpt-oss-20b,性能與o4-mini 水平相當(dāng),并且可以在消費(fèi)級硬件上運(yùn)行
    的頭像 發(fā)表于 08-13 16:43 ?922次閱讀

    OpenAINVIDIA共同開發(fā)全新開放模型

    NVIDIAgpt-oss-120b 帶來業(yè)界領(lǐng)先性能,在單個(gè) NVIDIA Blackwell 系統(tǒng)上實(shí)現(xiàn)每秒 150
    的頭像 發(fā)表于 08-12 15:11 ?1032次閱讀

    亞馬遜科技現(xiàn)已上線OpenAI開放權(quán)重模型

    客戶現(xiàn)可通過Amazon Bedrock和Amazon SageMaker AI使用OpenAI開放權(quán)重模型,實(shí)現(xiàn)將先進(jìn)的開放權(quán)重模型與全球最廣泛
    的頭像 發(fā)表于 08-06 19:29 ?587次閱讀

    OpenAI發(fā)布2款開源模型

    OpenAI開源了兩款高性能權(quán)重語言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「
    的頭像 發(fā)表于 08-06 14:25 ?776次閱讀

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)品部署
    的頭像 發(fā)表于 07-04 14:38 ?1434次閱讀

    邊緣計(jì)算中的機(jī)器學(xué)習(xí):基于 Linux 系統(tǒng)的實(shí)時(shí)推理模型部署與工業(yè)集成!

    你好,旅行者!歡迎來到Medium的這一角落。在本文中,我們將把一個(gè)機(jī)器學(xué)習(xí)模型(神經(jīng)網(wǎng)絡(luò))部署邊緣設(shè)備上,利用ModbusTCP寄存器
    的頭像 發(fā)表于 06-11 17:22 ?598次閱讀
    <b class='flag-5'>邊緣</b>計(jì)算中的機(jī)器學(xué)習(xí):基于 Linux 系統(tǒng)的實(shí)時(shí)<b class='flag-5'>推理模型</b><b class='flag-5'>部署</b>與工業(yè)集成!

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開源庫加速并擴(kuò)展AI推理模型

    Triton 推理服務(wù)器的后續(xù)產(chǎn)品,NVIDIA Dynamo 是一款全新的 AI 推理服務(wù)軟件,旨在為部署推理 AI
    的頭像 發(fā)表于 03-20 15:03 ?915次閱讀

    今日看點(diǎn)丨OpenAI將發(fā)布新的GPT-4.5模型;三星西安工廠將升級286層NAND閃存工藝

    1. OpenAI 將發(fā)布新的GPT-4.5 模型 ? OpenAI首席執(zhí)行官阿爾特曼周三表示,該公司內(nèi)部稱為Orion的GPT-4.5
    發(fā)表于 02-13 11:22 ?626次閱讀

    OpenAI即將推出GPT-5模型

    先進(jìn)技術(shù),其中包括備受矚目的o3工具。通過整合這些技術(shù),GPT-5模型實(shí)現(xiàn)更加強(qiáng)大的功能和性能。 值得一提的是,GPT-5模型將被廣泛應(yīng)用
    的頭像 發(fā)表于 02-13 11:21 ?799次閱讀

    AI模型部署邊緣設(shè)備的奇妙之旅:目標(biāo)檢測模型

    并非易事,它涉及選擇合適的算法架構(gòu)針對特定硬件平臺進(jìn)行優(yōu)化等一系列復(fù)雜的工作。 接下來,我們將詳細(xì)介紹如何在資源受限的邊緣設(shè)備上成功部署
    發(fā)表于 12-19 14:33

    如何開啟Stable Diffusion WebUI模型推理部署

    如何開啟Stable Diffusion WebUI模型推理部署
    的頭像 發(fā)表于 12-11 20:13 ?1008次閱讀
    如何開啟Stable Diffusion WebUI<b class='flag-5'>模型</b><b class='flag-5'>推理</b><b class='flag-5'>部署</b>

    AI模型部署邊緣設(shè)備的奇妙之旅:如何實(shí)現(xiàn)手寫數(shù)字識別

    新的數(shù)據(jù)樣本,另一個(gè)是判別器用來判斷這些樣本的真實(shí)性。兩者相互競爭,共同進(jìn)化,最終實(shí)現(xiàn)高質(zhì)量的數(shù)據(jù)合成。 2.4 模型優(yōu)化技術(shù) 在將深度學(xué)習(xí)模型部署
    發(fā)表于 12-06 17:20

    阿里開源推理模型QwQ

    近日,阿里通義團(tuán)隊(duì)宣布推出全新AI推理模型QwQ-32B-Preview,并同步實(shí)現(xiàn)了開源。這一舉措標(biāo)志著阿里在AI推理領(lǐng)域邁出了重要一
    的頭像 發(fā)表于 11-29 11:30 ?1410次閱讀