chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大規(guī)模專家并行模型在TensorRT-LLM的設(shè)計

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 2025-09-06 15:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

DeepSeek-V3 / R1 等模型采用大規(guī)模細粒度混合專家模型 (MoE) 架構(gòu),大幅提升了開源模型的質(zhì)量。Llama 4 和 Qwen3 等新發(fā)布的開源模型的設(shè)計原則也采用了類似的大規(guī)模細粒度 MoE 架構(gòu)。但大規(guī)模 MoE 模型為推理系統(tǒng)帶來了新的挑戰(zhàn),如高顯存需求和專家間負載失衡等。

之前,我們介紹過突破 DeepSeek R1 模型低延遲極限的 TensorRT-LLM 優(yōu)化措施,多 Token 預(yù)測 (MTP) 的實現(xiàn)與優(yōu)化以及提高 DeepSeek R1 吞吐量性能的優(yōu)化措施。

DeepSeek 團隊還分享了優(yōu)化此類大規(guī)模專家并行 (EP) 模型 (如 DeepEP 和 EPLB) 的寶貴經(jīng)驗與實踐。此外,DeepSeek 團隊在這份[1]技術(shù)報告中詳細闡述了具體設(shè)計考慮因素。除此之外,社區(qū)中也有在其他推理引擎中實現(xiàn)大規(guī)模 EP 的優(yōu)秀實踐,例如 SGLang 團隊的這個項目[2]。

這篇技術(shù)博客共分為上中下三篇,將介紹支持 TensorRT-LLM 中端到端大規(guī)模 EP 的詳細設(shè)計與實現(xiàn),主要包含以下內(nèi)容:

如何使用 NVIDIA 多節(jié)點 NVLink (MNNVL) 硬件特性來實現(xiàn)高性能通信內(nèi)核。

如何設(shè)計和實現(xiàn)在線專家負載均衡器,以動態(tài)平衡專家負載分布并適應(yīng)在線流量模式的變化。我們將展示:

證明此類優(yōu)化措施必要性的經(jīng)驗數(shù)據(jù)分析。

在線流量數(shù)據(jù)統(tǒng)計模塊的實現(xiàn)。

復(fù)制和放置策略的設(shè)計與實現(xiàn)。

用于平衡多個 GPU 間在線工作負載的 MoE 權(quán)重負載和重新分配器。

為適應(yīng)專家負載均衡器需求而對 MoE 路由器和計算模塊進行的必要修改。

一些證明當前 TensorRT-LLM 中實現(xiàn)效果的初步數(shù)據(jù)。

未來的技術(shù)博客還將涵蓋以下主題:

對 TensorRT-LLM 大規(guī)模 EP 實現(xiàn)的性能調(diào)優(yōu)和優(yōu)化的介紹。

如何在不使用 MNNVL 的情況下,為 Hopper 和其他 NVIDIA GPU 實現(xiàn)高效的大規(guī)模 EP 支持。

使用大規(guī)模 EP 并獲得性能提升的最佳實踐。

如何將大規(guī)模 EP 與其他系統(tǒng)優(yōu)化技術(shù)相結(jié)合。

雖然本技術(shù)博客主要討論 TensorRT-LLM,但我們相信其核心理念和實現(xiàn)方法也可用于其他推理引擎在 NVIDIA GPU 上的推理性能。此外,我們希望借助社區(qū)的力量,探索如何更好地將當前 TensorRT-LLM 大規(guī)模 EP 實現(xiàn)模塊化,使其更容易被社區(qū)復(fù)用。

最后,本博客包含針對 Grace Blackwell 機架式系統(tǒng)的詳細實現(xiàn)方式,例如使用 Grace Blackwell 機架式系統(tǒng)跨 GPU 連接的通信組件,以及使用 Grace CPU 與 Blackwell GPU 間高帶寬 C2C 連接的 MoE 權(quán)重加載和重新分配模塊等。但整體設(shè)計原則和軟件架構(gòu)仍適用于非此 NVIDIA GPU 系統(tǒng)。為了便于擴展到其他非此系統(tǒng),我們有意識地關(guān)注了設(shè)計和實現(xiàn)的通用性。這些更改應(yīng)能與現(xiàn)有其他組件輕松組合。

引入大規(guī)模 EP 的初衷

引入大規(guī)模 EP(本文中指 EP > 8)主要基于以下系統(tǒng)考量:

我們希望通過提高聚合顯存帶寬來加載專家權(quán)重,從而降低執(zhí)行延遲。

我們希望通過增加有效批處理大小充分利用 GPU 算力。

需注意,當端到端 (E2E) 執(zhí)行時間主要由 MoE GroupGEMM 計算主導(dǎo)時,引入大規(guī)模 EP 可顯著提升性能。但若端到端執(zhí)行時間未被 MoE GroupGEMM 計算主導(dǎo),引入大規(guī)模 EP 提升的性能有限。

系統(tǒng)設(shè)計中不存在“免費的午餐”。當 EP 規(guī)模增大到超過 8(有時甚至不到 8)時,由于 MoE 模型的稀疏執(zhí)行特性,會自動觸發(fā) EP 級別的負載失衡問題。

以下是一些基于特定數(shù)據(jù)集的經(jīng)驗觀察(所有分析均使用DeepSeek R1 模型在32 個 GPU上進行):

對一個機器翻譯數(shù)據(jù)集的觀察結(jié)果

首先,我們將概述各層的整體失衡問題:

9ea3c276-8977-11f0-8c8f-92fbcf53809c.png

圖 1. 從 rank 0 發(fā)送到所有 rank(包括 rank 0)的 Token 數(shù)(對應(yīng)解碼迭代 1950)及所有 MoE 層

如圖 1 所示,在第 36 層的 MoE 中,從rank 0 發(fā)送到 rank 13的 Token 數(shù)明顯更多。

如果我們放大第 36 層的 MoE 并記錄其激活專家 rank 的分布,可以清楚地看到有一個 rank 被更頻繁地激活:

9f0c0b1a-8977-11f0-8c8f-92fbcf53809c.png

圖 2. 第 36 層每個專家 rank 接收的 Token 數(shù)量

如果我們將數(shù)據(jù)展平以查看每個專家接收的 Token 數(shù)量,可以發(fā)現(xiàn)有一些專家比其他專家更活躍:

9f6bc136-8977-11f0-8c8f-92fbcf53809c.png

圖 3. 第 36 層每個專家接收的 Token 數(shù)量

值得注意的是,這種失衡問題在多次迭代中非常穩(wěn)定,如下圖所示:

9fcd0766-8977-11f0-8c8f-92fbcf53809c.png

圖 4. 第 36 層每個專家在 50 個解碼步驟內(nèi)接收的 Token 總數(shù),本地 batch size=256。

顯然,圖 4 中的熱門專家與圖 3 中僅包含單次解碼迭代數(shù)據(jù)的專家相同。我們還對本地 batch size=1(對應(yīng)單次請求)進行了基于持續(xù)時間的分析,觀察到類似的模式:

a03ed12a-8977-11f0-8c8f-92fbcf53809c.png

圖 5. 第 36 層每個專家在 400 次解碼迭代內(nèi)接收的 Token 總數(shù),本地 batch size=1。

綜上所述,針對該機器翻譯數(shù)據(jù)集的研究結(jié)果可總結(jié)為:

某些層中存在一些熱點,部分 EP 所在 GPU 的負載可能遠高于其他 EP。

其原因可能是最熱門專家或多個熱門專家位于同一 rank。

路由 Token 的分布可能在數(shù)十至數(shù)百個迭代步驟甚至更多迭代步驟內(nèi)保持一致。

在單個請求的執(zhí)行中,不同迭代步之間也存在相同的熱門專家。

另一個實際問題是上述觀察結(jié)果在其他數(shù)據(jù)集上是否會發(fā)生顯著變化。因此,我們對 GSM8K 數(shù)據(jù)集進行了類似的分析。

對 GSM8K 數(shù)據(jù)集的觀察結(jié)果

a0a5bfb6-8977-11f0-8c8f-92fbcf53809c.png

圖 6. 從 rank 0 發(fā)送到所有 rank 的 Token 數(shù)(對應(yīng)第 1950 個迭代步)及所有 MoE 層

如圖 6 所示,與圖 1 相比,GSM8K 數(shù)據(jù)集中的熱門層變成了第 57 層而非第 36 層。那么 GSM8K 數(shù)據(jù)集中第 36 層的具體情況如何?

a1076bd0-8977-11f0-8c8f-92fbcf53809c.png

圖 7. 從 EP rank 0 發(fā)送到其他 EP rank 的 Token 數(shù)(仍以迭代 1950、MoE 第 36 層為例)

從圖 7 可以清楚地看到,工作負載失衡于不同數(shù)據(jù)集(圖 2 所示)中觀察到的情況不同。在圖 8 中可以觀察到在 GSM8K 數(shù)據(jù)集上,工作負載的失衡在多次迭代中也相對穩(wěn)定。這與之前的機器翻譯數(shù)據(jù)集相同。

a1809bf4-8977-11f0-8c8f-92fbcf53809c.png

圖 8. 從 EP rank 0 發(fā)送到所有 rank 的 Token 總數(shù)(MoE 第 57 層,50 個解碼步驟內(nèi),本地 batch size=256)

如果我們將每個 GPU EP 層面的數(shù)據(jù)展平為專家層面,可以得到下圖。

a1e3eccc-8977-11f0-8c8f-92fbcf53809c.png

圖 9. 第 57 層的每個專家在 50 個解碼步驟內(nèi)接收的 Token 總數(shù),本地 batch size=256

單個請求中也存在類似的失衡模式。

a249b7e6-8977-11f0-8c8f-92fbcf53809c.png

圖 10. 單次請求下第 57 層的每個專家在 400 個解碼步驟內(nèi)接收的 Token 總數(shù)

如果使用另一個請求,我們?nèi)匀豢梢杂^察到專家失衡問題。雖然熱門專家可能不同,但有一些是共同的(在此示例中是專家 10)。

a2bf6f68-8977-11f0-8c8f-92fbcf53809c.png

圖 11. 單次請求下第 57 層每個專家在 400 個解碼步驟內(nèi)接收的 Token 總數(shù)

通過對兩個數(shù)據(jù)集的數(shù)據(jù)分析,我們得出以下結(jié)論:

EP 級別工作負載失衡問題在多個數(shù)據(jù)集的大規(guī)模 EP 推理中較為常見。且 EP 失衡的嚴重程度可能因?qū)佣悺4送?,EP 失衡的問題具有數(shù)據(jù)集敏感性。

EP rank 級別失衡問題可能由某個最熱門的專家或多個熱門專家長期占據(jù)同一 EP rank 引起。

EP rank 失衡分布在數(shù)十到數(shù)百次迭代中相對穩(wěn)定。

盡管 EP rank 失衡分布在時間維度上具有穩(wěn)定性,但不同請求的 EP 失衡分布可能有所不同。

這些發(fā)現(xiàn)可指導(dǎo)我們對 TensorRT-LLM 大規(guī)模 EP 實現(xiàn)的設(shè)計考量:

設(shè)計時需考慮 EP 失衡問題以確保端到端的性能。

基于實時在線請求流量的在線 EP 負載均衡器(而非僅實現(xiàn)離線 EP 負載均衡器)對確保 EP 均衡器的穩(wěn)健性至關(guān)重要。

可運用 EP rank 失衡分布的時間維度穩(wěn)定性,以高效的方式將 MoE 權(quán)重重新分配至不同 EP rank。

在下一篇文章中,我們將深入探討 TensorRT-LLM 大規(guī)模 EP 的整體實現(xiàn)架構(gòu)、負載均衡策略與性能優(yōu)化實踐。

引用

[1]DeepSeek-V3 技術(shù)報告:

https://arxiv.org/abs/2412.19437

[2]SGLang團隊項目:

https://lmsys.org/blog/2025-05-05-large-scale-ep/

作者

楊東旭

現(xiàn)任職于 NVIDIA Compute Arch 部門。主要負責 LLM 推理系統(tǒng)的開發(fā)和性能優(yōu)化。加入 NVIDIA 之前,曾從事搜索系統(tǒng)的 GPU 加速和開發(fā)工作。

喬顯杰

NVIDIA Compute Arch 部門高級架構(gòu)師,主要負責 LLM 推理的性能評估和優(yōu)化。加入 NVIDIA 之前,他曾從事推薦系統(tǒng)的 GPU 加速研發(fā)工作。

謝開宇

NVIDIA Compute Arch 部門高級架構(gòu)師,主要負責 TensorRT-LLM 項目的開發(fā),專注在系統(tǒng)性能和優(yōu)化工作。

朱恩偉

NVIDIA DevTech 部門高級工程師,主要負責 TensorRT-LLM 項目的開發(fā)和性能優(yōu)化。

陳曉明

NVIDIA Compute Arch 部門的首席架構(gòu)師和高級經(jīng)理,對深度學(xué)習(xí)模型的算法軟硬件協(xié)同設(shè)計感興趣,最近從事大語言模型推理的性能建模、分析和優(yōu)化。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5035

    瀏覽量

    133686
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3609

    瀏覽量

    51412
  • DeepSeek
    +關(guān)注

    關(guān)注

    2

    文章

    820

    瀏覽量

    2541

原文標題:大規(guī)模專家并行 (EP) 在 TensorRT-LLM 的設(shè)計動機與系統(tǒng)分析

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    DeepSeek R1 MTPTensorRT-LLM中的實現(xiàn)與優(yōu)化

    。我們之前的博客[1] 中介紹了 DeepSeek-R1 模型實現(xiàn)超低推理延遲的關(guān)鍵優(yōu)化措施。本文將深入探討 TensorRT-LLM 中的 MTP 實現(xiàn)與優(yōu)化。
    的頭像 發(fā)表于 08-30 15:47 ?3499次閱讀
    DeepSeek R1 MTP<b class='flag-5'>在</b><b class='flag-5'>TensorRT-LLM</b>中的實現(xiàn)與優(yōu)化

    TensorRT-LLM初探(一)運行l(wèi)lama

    TensorRT-LLM正式出來有半個月了,一直沒有時間玩,周末趁著有時間跑一下。
    的頭像 發(fā)表于 11-16 17:39 ?2056次閱讀
    <b class='flag-5'>TensorRT-LLM</b>初探(一)運行l(wèi)lama

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。單張 NVIDIA Ada Love
    的頭像 發(fā)表于 06-12 15:37 ?1083次閱讀
    使用NVIDIA Triton和<b class='flag-5'>TensorRT-LLM</b>部署TTS應(yīng)用的最佳實踐

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?1417次閱讀

    TensorRT-LLM中的分離式服務(wù)

    之前的技術(shù)博客中,我們介紹了低延遲[1] 和高吞吐[2] 場景的優(yōu)化方法。對于生產(chǎn)部署,用戶還關(guān)心滿足特定延遲約束的情況下,每個 GPU 的吞吐表現(xiàn)。本文將圍繞“吞吐量-延遲”性能場景,介紹 TensorRT-LLM 分離式
    的頭像 發(fā)表于 08-27 12:29 ?1052次閱讀
    <b class='flag-5'>TensorRT-LLM</b>中的分離式服務(wù)

    現(xiàn)已公開發(fā)布!歡迎使用 NVIDIA TensorRT-LLM 優(yōu)化大語言模型推理

    能。該開源程序庫現(xiàn)已作為 NVIDIA NeMo 框架的一部分, /NVIDIA/TensorRT-LLM GitHub 資源庫中免費提供。 大語言模型徹底改變了人工智能領(lǐng)域,并創(chuàng)造了與數(shù)字世界交互
    的頭像 發(fā)表于 10-27 20:05 ?1695次閱讀
    現(xiàn)已公開發(fā)布!歡迎使用 NVIDIA <b class='flag-5'>TensorRT-LLM</b> 優(yōu)化大語言<b class='flag-5'>模型</b>推理

    點亮未來:TensorRT-LLM 更新加速 AI 推理性能,支持 RTX 驅(qū)動的 Windows PC 上運行新模型

    微軟 Ignite 2023 技術(shù)大會發(fā)布的新工具和資源包括 OpenAI?Chat?API 的 TensorRT-LLM 封裝接口、RTX 驅(qū)動的性能改進 DirectML?for?Llama?2
    的頭像 發(fā)表于 11-16 21:15 ?1140次閱讀
    點亮未來:<b class='flag-5'>TensorRT-LLM</b> 更新加速 AI 推理性能,支持<b class='flag-5'>在</b> RTX 驅(qū)動的 Windows PC 上運行新<b class='flag-5'>模型</b>

    如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型

    背景介紹 大語言模型正以其驚人的新能力推動人工智能的發(fā)展,擴大其應(yīng)用范圍。然而,由于這類模型具有龐大的參數(shù)規(guī)模,部署和推理的難度和成本極高,這一挑戰(zhàn)一直困擾著 AI 領(lǐng)域。此外,當前存在大量支持
    的頭像 發(fā)表于 12-04 20:25 ?1913次閱讀
    如何在 NVIDIA <b class='flag-5'>TensorRT-LLM</b> 中支持 Qwen <b class='flag-5'>模型</b>

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫,用于優(yōu)化從 PC 到云端的 NVIDIA GPU 上運行的大語言
    的頭像 發(fā)表于 04-28 10:36 ?1346次閱讀

    魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區(qū)是中國最具影響力的模型開源社區(qū),致力給開發(fā)者提供模型即服務(wù)的體驗。魔搭社區(qū)利用NVIDIA TensorRT-LLM,大大提高了大語言模型的推理性能,方便了
    的頭像 發(fā)表于 08-23 15:48 ?1399次閱讀

    TensorRT-LLM低精度推理優(yōu)化

    本文將分享 TensorRT-LLM 中低精度量化內(nèi)容,并從精度和速度角度對比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次,介紹量化工具 NVIDIA TensorRT Model
    的頭像 發(fā)表于 11-19 14:29 ?2077次閱讀
    <b class='flag-5'>TensorRT-LLM</b>低精度推理優(yōu)化

    NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub上公開發(fā)布

    感謝眾多用戶及合作伙伴一直以來對NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現(xiàn)已在 GitHub 上公開發(fā)布!
    的頭像 發(fā)表于 11-28 10:43 ?990次閱讀
    NVIDIA <b class='flag-5'>TensorRT-LLM</b> Roadmap現(xiàn)已在GitHub上公開發(fā)布

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一個專為優(yōu)化大語言模型 (LLM) 推理而設(shè)計的庫。它提供了多種先進的優(yōu)化技術(shù),包括自定義 Attention Kernel、Inflight
    的頭像 發(fā)表于 12-17 17:47 ?1382次閱讀

    NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

    Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發(fā)并開源的一種新型推測解碼技術(shù),該技術(shù)現(xiàn)在可與 NVIDIA TensorRT-LLM 一起使用。
    的頭像 發(fā)表于 12-25 17:31 ?1031次閱讀
    <b class='flag-5'>在</b>NVIDIA <b class='flag-5'>TensorRT-LLM</b>中啟用ReDrafter的一些變化

    TensorRT-LLM大規(guī)模專家并行架構(gòu)設(shè)計

    之前文章已介紹引入大規(guī)模 EP 的初衷,本篇將繼續(xù)深入介紹 TensorRT-LLM大規(guī)模專家并行架構(gòu)設(shè)計與創(chuàng)新實現(xiàn)。
    的頭像 發(fā)表于 09-23 14:42 ?351次閱讀
    <b class='flag-5'>TensorRT-LLM</b>的<b class='flag-5'>大規(guī)模</b><b class='flag-5'>專家</b><b class='flag-5'>并行</b>架構(gòu)設(shè)計