亚洲精品久久久久,无码A级毛片免费视频纳谢,亚洲AV首页点击进入在线观看

自 2016 年推出 NVIDIA DGX 以來，NVIDIA 與 OpenAI 便開始共同推動 AI 技術(shù)的邊界。此次 OpenAI gpt-oss-20b 和 gpt-oss-120b 模型的發(fā)布持續(xù)深化了雙方的 AI 創(chuàng)新合作。NVIDIA 在 NVIDIA Blackwell 架構(gòu)上優(yōu)化了這兩款全新的開放權(quán)重模型并實(shí)現(xiàn)了推理性能加速，在 NVIDIA 系統(tǒng)上至高達(dá)到每秒 150 萬個 Token (TPS)。

這兩個 gpt-oss 模型是具有鏈?zhǔn)剿季S和工具調(diào)用能力的文本推理大語言模型 (LLM)，采用了廣受歡迎的混合專家模型 (MoE) 架構(gòu)和 SwigGLU 激活函數(shù)。其注意力層使用 RoPE 技術(shù)，上下文規(guī)模為 128k，交替使用完整上下文和長度為 128 個 Token 的滑動窗口。兩個模型的精度為 FP4，可運(yùn)行在單個 80GB 數(shù)據(jù)中心 GPU 上，并由 Blackwell 架構(gòu)提供原生支持。

這兩個模型在 NVIDIA Hopper 架構(gòu) Tensor Core GPU 上訓(xùn)練而成，gpt-oss-120b 模型訓(xùn)練耗時超過 210 萬小時，而 gpt-oss-20b 模型訓(xùn)練耗時約為前者的十分之一。除了NVIDIA TensorRT-LLM外，NVIDIA 還與 Hugging Face Transformers、Ollama、vLLM 等多個頂級開源框架合作，提供優(yōu)化內(nèi)核和模型增強(qiáng)。本文將介紹 NVIDIA 如何將 gpt-oss 集成到軟件平臺以滿足開發(fā)者需求。

表 1. OpenAI gpt-oss-20b 和 gpt-oss-120b 模型規(guī)格，包括總參數(shù)量、活躍參數(shù)量、專家模型數(shù)和輸入上下文長度

NVIDIA 還與 OpenAI 和社區(qū)一同對性能進(jìn)行優(yōu)化，增加了以下功能：

Blackwell 上用于注意力預(yù)填充 (prefill)、注意力解碼 (decode) 和 MoE 低延遲的 TensorRT-LLM Gen 內(nèi)核。

Blackwell 上的 CUTLASS MoE 內(nèi)核。

Hopper 上用于專用注意力機(jī)制的 XQA 內(nèi)核。

通過適用于 LLM 的 FlashInfer 內(nèi)核服務(wù)庫提供優(yōu)化的注意力與 MoE 路由內(nèi)核。

支持 MoE 的 OpenAI Triton 內(nèi)核，適用于 TensorRT-LLM 和 vLLM。

使用 vLLM 進(jìn)行部署

NVIDIA 與 vLLM 合作，在共同驗(yàn)證準(zhǔn)確性的同時，分析并提升了 Hopper 和 Blackwell 架構(gòu)的性能。數(shù)據(jù)中心開發(fā)者可通過 FlashInfer LLM 內(nèi)核服務(wù)庫使用經(jīng) NVIDIA 優(yōu)化的內(nèi)核。

vLLM 建議使用 uv 進(jìn)行 Python 依賴項(xiàng)管理。用戶可以使用 vLLM 啟動一個與 OpenAI API 兼容的 Web 服務(wù)器。以下命令將自動下載模型并啟動服務(wù)器。更多詳細(xì)信息參見文檔和 vLLM Cookbook 指南。

uv run--with vllm vllm serve openai/gpt-oss-20b

使用 TensorRT-LLM 進(jìn)行部署

上述優(yōu)化已包含在 NVIDIA / TensorRT-LLM GitHub 庫中，開發(fā)者可根據(jù)庫中的部署指南啟動其高性能服務(wù)器，并按照指南從 Hugging Face 下載模型 checkpoint。NVIDIA 與 Transformers 庫合作，提升了新模型的開發(fā)者體驗(yàn)。指南還提供 Docker 容器以及低延遲和最大吞吐量場景下性能配置的指導(dǎo)。

在 NVIDIA 系統(tǒng)上實(shí)現(xiàn)

每秒 100 萬個 Token 以上的性能

NVIDIA 工程師與 OpenAI 密切合作，確保了新發(fā)布的 gpt-oss-120b 和 gpt-oss-20b 模型在 NVIDIA Blackwell 和 NVIDIA Hopper 平臺上實(shí)現(xiàn)第零天 (Day 0) 性能提升。

根據(jù)早期性能測量結(jié)果，規(guī)模更大、計(jì)算需求更高的 gpt-oss-120b 模型，在 NVIDIA 系統(tǒng)上可實(shí)現(xiàn)每秒 150 萬個 Token 的性能或服務(wù)約 5 萬名并發(fā)用戶。Blackwell 搭載了許多能夠提高推理性能的架構(gòu)技術(shù)，包括使用了 FP4 Tensor Core 的第二代 Transformer Engine，以及高帶寬的第五代 NVIDIA NVLink 和 NVIDIA NVLink Switch，使得 72 顆 Blackwell GPU 可視作一個大型 GPU 運(yùn)行。

NVIDIA 平臺的性能、靈活性和創(chuàng)新速度使得該生態(tài)系統(tǒng)能夠在 Day 0 便以高吞吐量和低單位 Token 成本運(yùn)行最新模型。

通過 NVIDIA Launchable 試用經(jīng)過優(yōu)化的模型

還可以使用 Open AI Cookbook 上 JupyterLab Notebook 中的 Python API 部署 TensorRT-LLM，并將其作為NVIDIA Launchable在構(gòu)建平臺中使用。用戶可以在預(yù)配置環(huán)境中一鍵部署經(jīng)過優(yōu)化的模型，并在多個云平臺進(jìn)行測試。

使用 NVIDIA Dynamo 進(jìn)行部署

NVIDIA Dynamo是一個幫助開發(fā)者為大規(guī)模應(yīng)用部署 OpenAI gpt-oss 等模型的開源推理服務(wù)平臺。它與主流的推理后端集成，并提供 LLM 感知路由、彈性自動擴(kuò)展和分離服務(wù)等功能。在應(yīng)用輸入序列長度 (ISL) 長的情況下，Dynamo 的分離服務(wù)可顯著提升性能。在 32K ISL 場景中，Dynamo 在系統(tǒng)吞吐量和 GPU 預(yù)算相同的情況下，交互性能較合并服務(wù)提升了 4 倍。如需使用 Dynamo 進(jìn)行部署，可參考該指南：

https://github.com/ai-dynamo/dynamo/blob/main/components/backends/trtllm/gpt-oss.md

在 NVIDIA GeForce RTX AI PC 本地運(yùn)行

開發(fā)者可在本地運(yùn)行 AI ，以實(shí)現(xiàn)更快的迭代、更低的延遲和更可靠的數(shù)據(jù)隱私保護(hù)。兩個模型均具有原生 MXFP4 精度，可在 NVIDIA RTX PRO GPU 驅(qū)動的專業(yè)工作站上運(yùn)行，其中 gpt-oss-20b 可部署在任何具有不低于 16GB 顯存的 GeForce RTX AI PC 上。開發(fā)者可通過 Ollama、Llama.cpp 或 Microsoft AI Foundry Local，使用其常用的應(yīng)用和 SDK 體驗(yàn)這兩個模型。如需使用，請?jiān)L問 RTX AI Garage。

圖 1. 使用 Ollama 安裝和運(yùn)行模型的步驟

通過 NVIDIA NIM 簡化企業(yè)部署

企業(yè)開發(fā)者可通過 NVIDIA API 目錄中的NVIDIA NIM預(yù)覽 API 和 Web Playground 環(huán)境試用 gpt-oss 模型。這兩個模型已被打包成 NVIDIA NIM，可靈活、輕松地部署在任何 GPU 加速的基礎(chǔ)設(shè)施上，同時保證數(shù)據(jù)隱私和提供企業(yè)級安全。

下載和部署預(yù)打包、可移植式且經(jīng)過優(yōu)化的 NIM：

下載 gpt-oss-120b

鏈接：https://www.nvidia.cn/ai/

文檔：https://docs.api.nvidia.com/nim/reference/openai-gpt-oss-120b

下載 gpt-oss-20b

鏈接：https://www.nvidia.cn/ai/

文檔：https://docs.api.nvidia.com/nim/reference/openai-gpt-oss-20b

隨著兩個 gpt-oss 模型被全面集成到 NVIDIA 開發(fā)者生態(tài)系統(tǒng)中，開發(fā)者可選擇最有效的解決方案?？稍?NVIDIA API 目錄用戶界面或通過 OpenAI Cookbook 中的 NVIDIA 開發(fā)者指南開始使用。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴