chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Dynamo 0.4在NVIDIA Blackwell上通過PD分離將性能提升4倍

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2025-08-22 15:59 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近期,OpenAI 的 gpt-oss、月之暗面的 Kimi K2 等多個新的前沿開源模型相繼問世,標(biāo)志著大語言模型 (LLM) 創(chuàng)新浪潮的加速。近日發(fā)布的 Dynamo 0.4 提供了一系列新功能,旨在規(guī)?;?、低成本地部署此類模型,其核心功能包括性能優(yōu)化、可觀察性和基于服務(wù)等級目標(biāo) (SLO) 的自動擴(kuò)展。

Dynamo 0.4 的主要亮點(diǎn)包括:

在 NVIDIA Blackwell 上通過 PD 分離將性能提升 4 倍

提供針對 NVIDIA 高性能計算平臺的大規(guī)模專家并行部署指南

新的 prefill-decode (PD) 配置工具,簡化 PD 分離架構(gòu)設(shè)置

支持基于 SLO 的 PD 自動擴(kuò)展,并集成 Kubernetes

內(nèi)置可觀察性指標(biāo),支持實(shí)時性能監(jiān)測

通過實(shí)時請求重定向和早期故障檢測提升系統(tǒng)韌性

通過下文了解更多關(guān)于這些更新的信息。

Dynamo 0.4 如何通過PD 分離將推理性能提高至 4 倍

Dynamo 0.4 大幅提升了 NVIDIA Blackwell 上的 PD 分離服務(wù)性能。在 NVIDIA Blackwell 架構(gòu) GPU 上使用 Dynamo 和 TensorRT-LLM 運(yùn)行新的 OpenAI gpt-oss-120b 模型,能夠在不降低吞吐量的情況下,將長輸入序列(常見于智能體工作流、代碼生成和摘要任務(wù))場景下的交互速度(Token / 秒 / 用戶)至高提速 4 倍。

此外,在 NVIDIA 高性能計算平臺上基于 TensorRT-LLM 和 Dynamo 運(yùn)行 DeepSeek-R1 671B 模型,能夠在不增加推理成本的情況下,將吞吐量(Token / 秒 / GPU)提升 2.5 倍。

ef0358fc-7e7e-11f0-a18e-92fbcf53809c.png

圖 1. PD 分離服務(wù)解決了 prefill 與 decode 之間的資源競爭問題,能夠在不增加 GPU 預(yù)算的情況下顯著提升性能。

(注:圖中結(jié)果僅供技術(shù)探討和參考,并且不代表最大吞吐量或最小延遲性能。復(fù)制此鏈接至瀏覽器查看最新推理性能:https://developer.nvidia.com/deep-learning-performance-training-inference/ai-inference)

圖中的性能提升來源于使用 Dynamo 進(jìn)行的 PD 分離服務(wù),該架構(gòu)將模型推理的 prefill 和 decode 階段分離到獨(dú)立的 GPU 上。通過分離這兩個階段,Dynamo 能夠根據(jù)每個階段的具體需求靈活分配 GPU 資源和模型并行策略,從而大幅提高整體效率。

我們十分高興能夠發(fā)布這些腳本,使社區(qū)能夠復(fù)現(xiàn)這些結(jié)果并充分發(fā)揮 PD 分離服務(wù)架構(gòu)的成本效益。參見以下 GitHub 鏈接:

使用 Dynamo 和 TensorRT-LLM 部署 OpenAI gpt-oss-120b:

https://github.com/ai-dynamo/dynamo/blob/main/components/backends/trtllm/gpt-oss.md

使用 Dynamo 和 TensorRT-LLM 部署 DeepSeek-R1 671B:

https://github.com/ai-dynamo/dynamo/tree/main/components/backends/trtllm/performance_sweeps

為了幫助研究者、工程師和企業(yè)探索 PD 分離服務(wù)架構(gòu)下的 MoE 模型部署優(yōu)勢,我們還提供了詳盡的部署指南,分步指導(dǎo)用戶在多節(jié)點(diǎn)環(huán)境中使用 Dynamo 部署 DeepSeek-R1 (結(jié)合 SGLang) 和 Llama4 Maverick (結(jié)合 TensorRT-LLM)。參見以下 GitHub 鏈接:

使用 Dynamo 和 SGLang 部署 DeepSeek-R1 技術(shù)博客 1:

https://github.com/ai-dynamo/dynamo/blob/main/components/backends/sglang/docs/dsr1-wideep-gb200.md

使用 Dynamo 和 SGLang 部署 DeepSeek-R1 技術(shù)博客 2:

https://github.com/ai-dynamo/dynamo/blob/main/components/backends/sglang/docs/dsr1-wideep-h100.md

使用 Dynamo 和 TRT-LLM 部署 Llama4 Maverick:

https://github.com/ai-dynamo/dynamo/blob/main/components/backends/trtllm/llama4_plus_eagle.md

如何簡化消除 PD 分離最佳配置的大量猜測和試錯的工作

我們從采用 PD 分離服務(wù)的推理團(tuán)隊了解的主要挑戰(zhàn)之一,是如何估算預(yù)期吞吐量收益,并確定適合其特定部署的正確配置。具體而言,用戶反饋難以決定分配 prefill 和 decode 階段的 GPU 數(shù)量,以及在滿足目標(biāo) SLO 前提下,如何選擇模型并行策略。

為此,我們推出AIConfigurator,這是一個專為推薦最佳 PD 分離配置和模型并行策略設(shè)計的新工具,根據(jù)特定模型和 GPU 預(yù)算滿足 SLO 要求。

ef1212ac-7e7e-11f0-a18e-92fbcf53809c.png

ef1e28d0-7e7e-11f0-a18e-92fbcf53809c.png

圖 2.AIConfigurator CLI 控制面板的截圖,它可視化了吞吐量與延遲間的權(quán)衡及 PD 分離的收益。在相似的延遲水平下,使用 PD 分離架構(gòu)將 Qwen3-32B 模型部署在 512 個 GPU 組成的集群中,可使吞吐量提高至 2.36 倍。

AIConfigurator 利用大量離線采集的模型各層(包括注意力機(jī)制、前饋神經(jīng)網(wǎng)絡(luò) (FFN)、通信和顯存)性能數(shù)據(jù),并對各種調(diào)度技術(shù)(靜態(tài)批處理、動態(tài)批處理和 PD 分離服務(wù))進(jìn)行建模,推薦 PD 配置,在給定 GPU 預(yù)算內(nèi)滿足用戶定義的 SLO,并最大化每個 GPU 的吞吐量,然后自動生成可無縫部署到 Dynamo 的后端配置。

AIConfigurator 支持命令行界面 (CLI) 和網(wǎng)頁界面,初期支持 NVIDIA Hopper 上的 TensorRT-LLM。未來版本將陸續(xù)支持更多推理框架和 NVIDIA 硬件。

如何在不對 GPU 過度或不足配置的情況下,持續(xù)滿足推理 SLO

在今年 5 月的 0.2 版本中,我們推出了首版規(guī)劃器 (Planner),專為生成式 AI 推理和 PD 分離設(shè)計的 GPU 自動擴(kuò)展引擎。它能夠通過監(jiān)測 prefill 隊列和 decode 內(nèi)存使用情況,智能增減推理工作節(jié)點(diǎn),最大化 GPU 利用率并最小化推理成本。

在 0.4 版本中,我們進(jìn)一步完善了 Planner,新增基于 SLO 的自動擴(kuò)展功能,使推理團(tuán)隊不僅能夠降低成本,還能穩(wěn)定地滿足嚴(yán)格的性能指標(biāo),例如首 Token 延遲 (TTFT)、Token 間延遲 (ITL)。

與傳統(tǒng)的響應(yīng)式擴(kuò)展系統(tǒng)不同,新的基于 SLO 的 Planner 采用前瞻性策略:

使用部署前性能分析,理解不同模型并行和批處理配置下的部署表現(xiàn)。

基于 SLO 推薦最具成本效益的引擎配置。

使用 ARIMA 或 Prophet 等先進(jìn)的時間序列模型預(yù)測未來流量模式。

計算在預(yù)測需求下滿足 SLA 目標(biāo)所需的最小 PD 工作節(jié)點(diǎn)數(shù)量。

持續(xù)評估流量模式并動態(tài)調(diào)整 PD 工作節(jié)點(diǎn)以持續(xù)滿足目標(biāo) SLA。

Planner 的與眾不同之處在于能夠預(yù)測輸入 / 輸出序列長度變化的影響,并在出現(xiàn)瓶頸前,主動擴(kuò)展資源規(guī)模。

基于 SLO 的 Planner 使推理團(tuán)隊能夠:

把控用戶體驗(yàn)和基礎(chǔ)設(shè)施成本

在不過度或不足配制資源的前提下維持 SLA 性能

無需手動調(diào)優(yōu)即可優(yōu)化 GPU 使用率

Planner 原生集成 Kubernetes,便于已經(jīng)采用容器化基礎(chǔ)設(shè)施的企業(yè)能夠輕松部署 Dynamo,并使用 Planner 擴(kuò)展其 AI 工作負(fù)載。此版本加入了對 vLLM 的支持,未來將持續(xù)支持更多推理框架。。

如何追蹤實(shí)時推理可觀察性指標(biāo)

可觀察性在大規(guī)模分布式推理環(huán)境中至關(guān)重要,使工程團(tuán)隊能夠監(jiān)測系統(tǒng)健康狀況、診斷性能瓶頸并滿足嚴(yán)格的 SLO,根據(jù) SLO 的要求不斷實(shí)時優(yōu)化延遲、吞吐量和 GPU 利用率。

ef2fd3dc-7e7e-11f0-a18e-92fbcf53809c.jpg

圖 3. 顯示 Dynamo 采集的關(guān)鍵性能指標(biāo)的 Grafana操作面板

在新發(fā)布的 Dynamo 0.4 中,事件、控制和數(shù)據(jù)平面的 Dynamo 工作節(jié)點(diǎn)和組件會輸出關(guān)鍵的可觀察性指標(biāo),包括:

每秒平均請求數(shù)和請求持續(xù)時間

平均的首 Token 延遲 (TTFT) 和 Token 間延遲 (ITL)

平均輸入和輸出序列長度

GPU 利用率和功耗

這些指標(biāo)通過開源的 Prometheus 工具采集,無需進(jìn)行定制開發(fā)即可輕松集成到 Grafana 等開源監(jiān)測和可觀察性工具中。

本版本還包含一個 API,供工程團(tuán)隊和解決方案架構(gòu)師定義和輸出適配其服務(wù)環(huán)境的自定義指標(biāo),進(jìn)一步提高了靈活性和可擴(kuò)展性。

Dynamo 0.4 中的可觀察性基礎(chǔ)為后續(xù)版本奠定了基礎(chǔ),未來將引入更具細(xì)粒度、針對特定用例的指標(biāo),包括與 PD 分離相關(guān)的指標(biāo)。

Dynamo 0.4 如何提升系統(tǒng)彈性和早期故障檢測能力

大規(guī)模部署前沿推理 MoE 模型需要支持?jǐn)?shù)百 GPU 的多節(jié)點(diǎn)環(huán)境。在此類部署中,任何軟硬件組件的故障(無論持續(xù)時間多短)都會中斷整個系統(tǒng)的運(yùn)行,并導(dǎo)致用戶請求延遲或失敗,進(jìn)而影響業(yè)務(wù)運(yùn)營,損害用戶體驗(yàn)。

Dynamo 0.4 版本引入了實(shí)時請求重定向(inflight request re-routing)等容錯和彈性功能。在之前的版本中,發(fā)送到離線 GPU 的請求會失敗,并回退到推理棧上層或用戶端,這會觸發(fā)重試流程,即重復(fù)執(zhí)行預(yù)處理步驟(如 Token 化和嵌入),浪費(fèi)計算資源并增加延遲。經(jīng)過此次更新,Dynamo 會在請求執(zhí)行中動態(tài)重定向,保留中間計算結(jié)果并直接轉(zhuǎn)發(fā)至在線 GPU,從而消除冗余工作。

ef3a515e-7e7e-11f0-a18e-92fbcf53809c.jpg

圖 4. 生成過程中未啟用(圖片上半部)和啟用(圖片下半部)實(shí)時請求重定向的系統(tǒng)工作流差異示意圖。

此外,此版本引入了更快的故障檢測機(jī)制。在之前的版本中,etcd(Dynamo 控制平面中的關(guān)鍵組件)負(fù)責(zé)檢測離線工作節(jié)點(diǎn)并向系統(tǒng)廣播其狀態(tài)。但這會引發(fā)幾秒鐘的延遲,在此期間請求仍可能被路由到離線工作節(jié)點(diǎn)。新版本在 Dynamo 智能路由器 (Smart Router) 中引入了早期故障檢測功能,使其能夠繞過 etcd 并響應(yīng)關(guān)鍵健康信號,縮短了故障檢測到恢復(fù)的時間窗口,顯著減少了失敗請求。

如何參與 Dynamo 開發(fā)者社區(qū)互動

歡迎您加入我們的 Discord 社區(qū) (https://discord.gg/ZXRE8epz),來與其他開發(fā)者交流、分享反饋并獲得實(shí)時支持。如果您對我們的開發(fā)方向感興趣,請訪問官方 Dynamo GitHub 開源資源庫 (https://github.com/ai-dynamo/dynamo)。我們歡迎社區(qū)的貢獻(xiàn)、問題反饋和想法。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5570

    瀏覽量

    109391
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5152

    瀏覽量

    134757
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    4131

    瀏覽量

    45784
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3694

    瀏覽量

    51957

原文標(biāo)題:Dynamo 0.4 最新版本提供 4 倍性能提升、基于 SLO 自動擴(kuò)展和實(shí)時可觀察性

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1最小延遲場景中的性能紀(jì)錄

    本文探討 NVIDIA TensorRT-LLM 如何基于 8 個 NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1
    的頭像 發(fā)表于 07-02 19:31 ?3116次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Blackwell</b> GPU優(yōu)化DeepSeek-R1<b class='flag-5'>性能</b> 打破DeepSeek-R1<b class='flag-5'>在</b>最小延遲場景中的<b class='flag-5'>性能</b>紀(jì)錄

    NVIDIA RTX PRO 2000 Blackwell GPU性能測試

    越來越多的應(yīng)用正在使用 AI 加速,而無論工作站的大小或形態(tài)如何,都有越來越多的用戶需要 AI 性能。NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的頭像 發(fā)表于 11-28 09:39 ?5636次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 <b class='flag-5'>Blackwell</b> GPU<b class='flag-5'>性能</b>測試

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級芯片

    人工智能模型規(guī)模和復(fù)雜性呈指數(shù)級增長,對先進(jìn)計算能力和內(nèi)存容量的需求變得至關(guān)重要。Blackwell圖形處理器架構(gòu)通過
    發(fā)表于 05-13 17:16

    NVIDIA Blackwell平臺帶來性能躍升

    Blackwell 完成的每一項測試,都為各項 AI 應(yīng)用樹立了訓(xùn)練性能新標(biāo)桿。
    的頭像 發(fā)表于 11-19 14:24 ?1203次閱讀

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開源庫加速并擴(kuò)展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時降低了擴(kuò)展測試時計算 (Scaling Test-Time Compute) 的成本; NVIDI
    的頭像 發(fā)表于 03-20 15:03 ?1150次閱讀

    NVIDIA Blackwell數(shù)據(jù)手冊與NVIDIA Blackwell架構(gòu)技術(shù)解析

    NVIDIA Blackwell數(shù)據(jù)手冊與NVIDIA Blackwell 架構(gòu)技術(shù)解析
    的頭像 發(fā)表于 03-20 17:19 ?2198次閱讀

    NVIDIA Blackwell白皮書:NVIDIA Blackwell Architecture Technical Brief

    NVIDIA Blackwell白皮書:NVIDIA Blackwell Architecture Technical Brief
    的頭像 發(fā)表于 03-20 18:35 ?2843次閱讀

    英偉達(dá)GTC2025亮點(diǎn):NVIDIA Blackwell加速計算機(jī)輔助工程軟件,實(shí)現(xiàn)實(shí)時數(shù)字孿生性能數(shù)量級提升

    、Altair、Cadence、Siemens 和 Synopsys 等在內(nèi)的領(lǐng)先計算機(jī)輔助工程(CAE)軟件供應(yīng)商正在使用 NVIDIA Blackwell 平臺加速其仿真工具,速度提升高達(dá) 50
    的頭像 發(fā)表于 03-21 15:12 ?1369次閱讀

    NVIDIA Dynamo新增對亞馬遜云科技服務(wù)的支持

    亞馬遜云科技 (AWS) 開發(fā)者和解決方案架構(gòu)師現(xiàn)在可以基于 NVIDIA GPU 的 Amazon EC2 使用 NVIDIA Dynamo
    的頭像 發(fā)表于 07-28 14:31 ?901次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Dynamo</b>新增對亞馬遜云科技服務(wù)的支持

    基于 NVIDIA Blackwell 的 Jetson Thor 現(xiàn)已發(fā)售,加速通用機(jī)器人時代的到來

    Jetson AGX Orin,AI 算力提升至 7.5 ,能效提升至 3.5 ,能夠?qū)崿F(xiàn)實(shí)時推理,這對于高性能物理 AI 應(yīng)用至關(guān)重
    發(fā)表于 08-26 09:28 ?1265次閱讀
    基于 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Blackwell</b> 的 Jetson Thor 現(xiàn)已發(fā)售,加速通用機(jī)器人時代的到來

    NVIDIA RTX PRO 4500 Blackwell GPU測試分析

    今天我們帶來全新 NVIDIA Blackwell 架構(gòu) GPU —— NVIDIA RTX PRO 4500 Blackwell 的測試,對比上一代產(chǎn)品
    的頭像 發(fā)表于 08-28 11:02 ?3702次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 <b class='flag-5'>Blackwell</b> GPU測試分析

    通過NVIDIA Jetson AGX Thor實(shí)現(xiàn)7生成式AI性能

    Jetson Thor 平臺還支持多種主流量化格式,包括 NVIDIA Blackwell GPU 架構(gòu)的新 NVFP4 格式,有助于進(jìn)一步優(yōu)化推理性能。該平臺同時支持推測解碼等新技術(shù)
    的頭像 發(fā)表于 10-29 16:53 ?1314次閱讀

    NVIDIA RTX PRO 5000 72GB Blackwell GPU現(xiàn)已全面上市

    NVIDIA RTX PRO 5000 72GB Blackwell GPU 現(xiàn)已全面上市,基于 NVIDIA Blackwell 架構(gòu)的
    的頭像 發(fā)表于 12-24 10:32 ?646次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 72GB <b class='flag-5'>Blackwell</b> GPU現(xiàn)已全面上市

    NVIDIA RTX PRO 4000 Blackwell GPU性能測試

    Generation 的全面超越。那么,這款劃時代的專業(yè) GPU 真實(shí)應(yīng)用場景中的表現(xiàn)究竟如何?今天,我們通過深度實(shí)測,為您揭曉 NVIDIA RTX PRO 4000
    的頭像 發(fā)表于 12-29 15:30 ?776次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4000 <b class='flag-5'>Blackwell</b> GPU<b class='flag-5'>性能</b>測試

    NVIDIA RTX PRO 5000 Blackwell GPU的深度評測

    NVIDIA RTX PRO 5000 BlackwellNVIDIA RTX 5000 Ada Generation 的升級迭代產(chǎn)品,其各項核心指標(biāo)均針對 GPU 加速工作流的高性能
    的頭像 發(fā)表于 01-06 09:51 ?980次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 <b class='flag-5'>Blackwell</b> GPU的深度評測