chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

借助NVIDIA Megatron-Core大模型訓(xùn)練框架提高顯存使用效率

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2025-10-21 10:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著模型規(guī)模邁入百億、千億甚至萬億參數(shù)級別,如何在有限顯存中“塞下”訓(xùn)練任務(wù),對研發(fā)和運維團(tuán)隊都是巨大挑戰(zhàn)。NVIDIA Megatron-Core作為流行的大模型訓(xùn)練框架,提供了靈活高效的并行化策略;理解這些策略對顯存的影響,才能更好地規(guī)劃訓(xùn)練超參數(shù),在不 OOM (out of memory) 的情況下盡可能提升硬件使用效率。

顯存的組成與衡量方法:通過 torch 的顯存可視化工具捕捉一個典型的模型訓(xùn)練中的顯存占用。靜態(tài)顯存主要組成部分包括模型參數(shù)、梯度和優(yōu)化器的所占用的空間,及一些其他的系統(tǒng)開銷。設(shè)定 R 為參數(shù)重復(fù)次數(shù),則對 bf16 訓(xùn)練來說每個參數(shù)占用的字節(jié)數(shù)為 6+12/R。對于Mixture of Experts (MoE)模型來說,由于 Megatron 支持 parallel folding,模型的模型會分為稠密部分和 MoE 部分,其中稠密部分的 R 為 DP*CP,MoE 部分的 R 為 EDP=n_GPU/PP/EP/ETP。

動態(tài)顯存則是模型前向傳播過程中暫存的中間結(jié)果,用于反向傳播時計算梯度,通常被稱為激活 (Activation),絕大部分為 bf16 數(shù)據(jù)類型。

對顯存影響的關(guān)鍵超參數(shù):Megatron-Core 支持以下并行、重算維度,組合后可覆蓋當(dāng)下主流大模型訓(xùn)練需求。

ca6c8c4e-a81c-11f0-8c8f-92fbcf53809c.png

約束關(guān)系:`n_GPU / PP = TP×CP×DP = EP×ETP×EDP`,其中 `EDP` 為專家數(shù)據(jù)并行度。

除了完全不重算的情況之外,為了降低動態(tài)顯存,Megatron-Core 0.14 提供

完全重算 (full) 和細(xì)粒度重算 (selective) 這兩檔重算。

顯存估計器的設(shè)計:當(dāng)前 Megatron 基于 torch 實現(xiàn),所有模塊均派生自 torch.nn.Module,構(gòu)成訓(xùn)練 GPT 類模型的模塊。我們通過實現(xiàn)一個基類 MemEstimator 并基于此基類派生出所有需要的模塊類,根據(jù)每個模塊的顯存占用特點分別計算其中的參數(shù)量和激活量。然后復(fù)用 Megatron 中本身構(gòu)建模型的代碼,實現(xiàn)一個 Megatron 模擬器,并可以展示出個層次的模塊數(shù)據(jù)量。

關(guān)鍵結(jié)論:選取 Qwen3 235B 和 DeepSeek v3 兩個時下流行的大模型,使用流行的配置開啟訓(xùn)練,并對比顯存估計的結(jié)果與真實的顯存占用。兩個模型的實際峰值與估計峰值相差均小于 2GB。

cac367bc-a81c-11f0-8c8f-92fbcf53809c.png

cb1d6672-a81c-11f0-8c8f-92fbcf53809c.png

通過對動態(tài)顯存分析,只有 TP 和 CP 能降低激活量,EP 和 ETP 只會改變集群內(nèi)激活值的分布,無法降低激活量,PP 和 VPP 由于 1f1b 的流水線預(yù)熱機(jī)制,無法有效降低峰值激活量。對每一部分激活量,可以通過卸載到 CPU 或者重算的方式來降低顯存。Megatron-Core 0.13 當(dāng)前對卸載的支持還在開發(fā)中,但重算已經(jīng)支持。

Megatron-Core 0.13 現(xiàn)已支持通過 CPU 分擔(dān) optimizer 的顯存占用,并可以通過超參數(shù)設(shè)置卸載到 CPU 的比例,每個參數(shù)的 6 字節(jié) (bf16 參數(shù),fp32 梯度) 無法卸載,其余可以卸載。

用例分析:用戶目標(biāo)在 32 張 80GB 顯存的 GPU 上實現(xiàn) Qwen3-30B-A3B 的強化學(xué)習(xí)訓(xùn)練,序列長度是 10k,用戶使用顯存估計器對并行配置進(jìn)行摸底。

Megatron 開發(fā)者可以通過顯存分析工具的 breakdown 視角,詳細(xì)察看每個模塊的激活量,通過權(quán)衡激活量和計算量尋找性價比高(激活量 / 計算量)的模塊的激活為其開發(fā)進(jìn)行重算或卸載功能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11192

    瀏覽量

    221698
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3360

    瀏覽量

    4784

原文標(biāo)題:探索在大模型訓(xùn)練中使用 Megatron-Core 訓(xùn)練框架提高顯存使用效率

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標(biāo)是
    發(fā)表于 10-22 07:03

    NVIDIA開源Audio2Face模型及SDK

    NVIDIA 現(xiàn)已開源 Audio2Face 模型與 SDK,讓所有游戲和 3D 應(yīng)用開發(fā)者都可以構(gòu)建并部署帶有先進(jìn)動畫的高精度角色。NVIDIA 開源 Audio2Face 的訓(xùn)練
    的頭像 發(fā)表于 10-21 11:11 ?305次閱讀
    <b class='flag-5'>NVIDIA</b>開源Audio2Face<b class='flag-5'>模型</b>及SDK

    NVIDIA 利用全新開源模型與仿真庫加速機(jī)器人研發(fā)進(jìn)程

    。 ? 借助全新的 NVIDIA Cosmos 世界基礎(chǔ)模型,開發(fā)者可以生成多樣化數(shù)據(jù),從而大規(guī)模加速物理 AI 模型訓(xùn)練。 ? 來自斯
    的頭像 發(fā)表于 09-30 09:52 ?2368次閱讀
    <b class='flag-5'>NVIDIA</b> 利用全新開源<b class='flag-5'>模型</b>與仿真庫加速機(jī)器人研發(fā)進(jìn)程

    NVIDIA Isaac Lab多GPU多節(jié)點訓(xùn)練指南

    NVIDIA Isaac Lab 是一個適用于機(jī)器人學(xué)習(xí)的開源統(tǒng)一框架,基于 NVIDIA Isaac Sim 開發(fā),其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,可提供各種物理 AI 功能和
    的頭像 發(fā)表于 09-23 17:15 ?1579次閱讀
    <b class='flag-5'>NVIDIA</b> Isaac Lab多GPU多節(jié)點<b class='flag-5'>訓(xùn)練</b>指南

    借助NVIDIA Cosmos模型提升機(jī)器人訓(xùn)練效率

    隨著物理 AI 系統(tǒng)的不斷發(fā)展,對豐富標(biāo)記數(shù)據(jù)集的需求正在急速增長,已經(jīng)超出了在現(xiàn)實世界中通過人工采集所能滿足的范圍。世界基礎(chǔ)模型(WFMs)是經(jīng)過訓(xùn)練的生成式 AI 模型,能夠根據(jù)現(xiàn)實世界環(huán)境的動態(tài),對未來的世界狀態(tài)進(jìn)行仿真、
    的頭像 發(fā)表于 09-23 15:30 ?440次閱讀
    <b class='flag-5'>借助</b><b class='flag-5'>NVIDIA</b> Cosmos<b class='flag-5'>模型</b>提升機(jī)器人<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>效率</b>

    Votee AI借助NVIDIA技術(shù)加速方言小語種LLM開發(fā)

    Votee AI 利用 NVIDIA 的 GPU 硬件、NeMo Curator 數(shù)據(jù)處理軟件、NeMo Framework 模型訓(xùn)練框架及 Auto Configurator 優(yōu)化工
    的頭像 發(fā)表于 08-20 14:21 ?510次閱讀

    模型推理顯存和計算量估計方法研究

    ,為實際應(yīng)用提供了有益的參考。 未來,我們將繼續(xù)深入研究大模型推理的優(yōu)化方法,以降低顯存和計算資源的需求,提高深度學(xué)習(xí)模型在實際應(yīng)用中的性能。
    發(fā)表于 07-03 19:43

    模型訓(xùn)練框架(五)之Accelerate

    Hugging Face 的 Accelerate1是一個用于簡化和加速深度學(xué)習(xí)模型訓(xùn)練的庫,它支持在多種硬件配置上進(jìn)行分布式訓(xùn)練,包括 CPU、GPU、TPU 等。Accelerate 允許用戶
    的頭像 發(fā)表于 01-14 14:24 ?1554次閱讀

    堅米智能借助NVIDIA Isaac Lab加速四足機(jī)器人開發(fā)

    堅米智能(中堅科技)借助NVIDIA Isaac Lab平臺,通過NVIDIA Isaac Sim的 3D 生成與建模技術(shù)構(gòu)建高度逼真的虛擬場景,將現(xiàn)實世界的復(fù)雜場景抽象并轉(zhuǎn)化為高質(zhì)量的訓(xùn)練
    的頭像 發(fā)表于 12-29 14:01 ?1882次閱讀

    如何使用FP8新技術(shù)加速大模型訓(xùn)練

    /fp8_primer.html#Introduction-to-FP8 其中,使用 FP8 進(jìn)行大模型訓(xùn)練具有以下優(yōu)勢: 新一代 GPU 如?NVIDIA Ada Lovelace、Hopper?架構(gòu)配備了最新一代的 Tens
    的頭像 發(fā)表于 12-09 11:30 ?1861次閱讀

    大語言模型開發(fā)框架是什么

    大語言模型開發(fā)框架是指用于訓(xùn)練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹大語言模型開發(fā)
    的頭像 發(fā)表于 12-06 10:28 ?724次閱讀

    訓(xùn)練AI大模型需要什么樣的gpu

    訓(xùn)練AI大模型需要選擇具有強大計算能力、足夠顯存、高效帶寬、良好散熱和能效比以及良好兼容性和擴(kuò)展性的GPU。在選擇時,需要根據(jù)具體需求進(jìn)行權(quán)衡和選擇。
    的頭像 發(fā)表于 12-03 10:10 ?909次閱讀

    NVIDIA Isaac Sim滿足模型的多樣化訓(xùn)練需求

    光輪智能借助?NVIDIA Isaac Sim,通過 3D 生成與建模技術(shù)構(gòu)建高度逼真的虛擬場景,將現(xiàn)實世界的復(fù)雜場景抽象并轉(zhuǎn)化為高質(zhì)量的訓(xùn)練數(shù)據(jù)源,從而更有效地滿足模型的多樣化
    的頭像 發(fā)表于 11-23 14:55 ?1728次閱讀

    初創(chuàng)公司借助NVIDIA Metropolis和Jetson提高生產(chǎn)線效率

    初創(chuàng)公司使用 NVIDIA Metropolis 視覺 AI 和 Jetson 邊緣 AI 平臺提高生產(chǎn)線效率
    的頭像 發(fā)表于 11-19 14:39 ?969次閱讀

    PyTorch GPU 加速訓(xùn)練模型方法

    在深度學(xué)習(xí)領(lǐng)域,GPU加速訓(xùn)練模型已經(jīng)成為提高訓(xùn)練效率和縮短訓(xùn)練時間的重要手段。PyTorch作
    的頭像 發(fā)表于 11-05 17:43 ?1977次閱讀