chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

借助NVIDIA Megatron-Core大模型訓(xùn)練框架提高顯存使用效率

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2025-10-21 10:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著模型規(guī)模邁入百億、千億甚至萬(wàn)億參數(shù)級(jí)別,如何在有限顯存中“塞下”訓(xùn)練任務(wù),對(duì)研發(fā)和運(yùn)維團(tuán)隊(duì)都是巨大挑戰(zhàn)。NVIDIA Megatron-Core作為流行的大模型訓(xùn)練框架,提供了靈活高效的并行化策略;理解這些策略對(duì)顯存的影響,才能更好地規(guī)劃訓(xùn)練超參數(shù),在不 OOM (out of memory) 的情況下盡可能提升硬件使用效率。

顯存的組成與衡量方法:通過(guò) torch 的顯存可視化工具捕捉一個(gè)典型的模型訓(xùn)練中的顯存占用。靜態(tài)顯存主要組成部分包括模型參數(shù)、梯度和優(yōu)化器的所占用的空間,及一些其他的系統(tǒng)開銷。設(shè)定 R 為參數(shù)重復(fù)次數(shù),則對(duì) bf16 訓(xùn)練來(lái)說(shuō)每個(gè)參數(shù)占用的字節(jié)數(shù)為 6+12/R。對(duì)于Mixture of Experts (MoE)模型來(lái)說(shuō),由于 Megatron 支持 parallel folding,模型的模型會(huì)分為稠密部分和 MoE 部分,其中稠密部分的 R 為 DP*CP,MoE 部分的 R 為 EDP=n_GPU/PP/EP/ETP。

動(dòng)態(tài)顯存則是模型前向傳播過(guò)程中暫存的中間結(jié)果,用于反向傳播時(shí)計(jì)算梯度,通常被稱為激活 (Activation),絕大部分為 bf16 數(shù)據(jù)類型。

對(duì)顯存影響的關(guān)鍵超參數(shù):Megatron-Core 支持以下并行、重算維度,組合后可覆蓋當(dāng)下主流大模型訓(xùn)練需求。

ca6c8c4e-a81c-11f0-8c8f-92fbcf53809c.png

約束關(guān)系:`n_GPU / PP = TP×CP×DP = EP×ETP×EDP`,其中 `EDP` 為專家數(shù)據(jù)并行度。

除了完全不重算的情況之外,為了降低動(dòng)態(tài)顯存,Megatron-Core 0.14 提供

完全重算 (full) 和細(xì)粒度重算 (selective) 這兩檔重算。

顯存估計(jì)器的設(shè)計(jì):當(dāng)前 Megatron 基于 torch 實(shí)現(xiàn),所有模塊均派生自 torch.nn.Module,構(gòu)成訓(xùn)練 GPT 類模型的模塊。我們通過(guò)實(shí)現(xiàn)一個(gè)基類 MemEstimator 并基于此基類派生出所有需要的模塊類,根據(jù)每個(gè)模塊的顯存占用特點(diǎn)分別計(jì)算其中的參數(shù)量和激活量。然后復(fù)用 Megatron 中本身構(gòu)建模型的代碼,實(shí)現(xiàn)一個(gè) Megatron 模擬器,并可以展示出個(gè)層次的模塊數(shù)據(jù)量。

關(guān)鍵結(jié)論:選取 Qwen3 235B 和 DeepSeek v3 兩個(gè)時(shí)下流行的大模型,使用流行的配置開啟訓(xùn)練,并對(duì)比顯存估計(jì)的結(jié)果與真實(shí)的顯存占用。兩個(gè)模型的實(shí)際峰值與估計(jì)峰值相差均小于 2GB。

cac367bc-a81c-11f0-8c8f-92fbcf53809c.png

cb1d6672-a81c-11f0-8c8f-92fbcf53809c.png

通過(guò)對(duì)動(dòng)態(tài)顯存分析,只有 TP 和 CP 能降低激活量,EP 和 ETP 只會(huì)改變集群內(nèi)激活值的分布,無(wú)法降低激活量,PP 和 VPP 由于 1f1b 的流水線預(yù)熱機(jī)制,無(wú)法有效降低峰值激活量。對(duì)每一部分激活量,可以通過(guò)卸載到 CPU 或者重算的方式來(lái)降低顯存。Megatron-Core 0.13 當(dāng)前對(duì)卸載的支持還在開發(fā)中,但重算已經(jīng)支持。

Megatron-Core 0.13 現(xiàn)已支持通過(guò) CPU 分擔(dān) optimizer 的顯存占用,并可以通過(guò)超參數(shù)設(shè)置卸載到 CPU 的比例,每個(gè)參數(shù)的 6 字節(jié) (bf16 參數(shù),fp32 梯度) 無(wú)法卸載,其余可以卸載。

用例分析:用戶目標(biāo)在 32 張 80GB 顯存的 GPU 上實(shí)現(xiàn) Qwen3-30B-A3B 的強(qiáng)化學(xué)習(xí)訓(xùn)練,序列長(zhǎng)度是 10k,用戶使用顯存估計(jì)器對(duì)并行配置進(jìn)行摸底。

Megatron 開發(fā)者可以通過(guò)顯存分析工具的 breakdown 視角,詳細(xì)察看每個(gè)模塊的激活量,通過(guò)權(quán)衡激活量和計(jì)算量尋找性價(jià)比高(激活量 / 計(jì)算量)的模塊的激活為其開發(fā)進(jìn)行重算或卸載功能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11250

    瀏覽量

    223861
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3581

    瀏覽量

    5078

原文標(biāo)題:探索在大模型訓(xùn)練中使用 Megatron-Core 訓(xùn)練框架提高顯存使用效率

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    在Python中借助NVIDIA CUDA Tile簡(jiǎn)化GPU編程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 編程模式。它是自 CUDA 發(fā)明以來(lái) GPU 編程最核心的更新之一。借助 GPU tile kernels,可以用比 SIMT
    的頭像 發(fā)表于 12-13 10:12 ?981次閱讀
    在Python中<b class='flag-5'>借助</b><b class='flag-5'>NVIDIA</b> CUDA Tile簡(jiǎn)化GPU編程

    利用NVIDIA Cosmos開放世界基礎(chǔ)模型加速物理AI開發(fā)

    NVIDIA 最近發(fā)布了 NVIDIA Cosmos 開放世界基礎(chǔ)模型(WFM)的更新,旨在加速物理 AI 模型的測(cè)試與驗(yàn)證數(shù)據(jù)生成。借助
    的頭像 發(fā)表于 12-01 09:25 ?879次閱讀

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標(biāo)是
    發(fā)表于 10-22 07:03

    NVIDIA開源Audio2Face模型及SDK

    NVIDIA 現(xiàn)已開源 Audio2Face 模型與 SDK,讓所有游戲和 3D 應(yīng)用開發(fā)者都可以構(gòu)建并部署帶有先進(jìn)動(dòng)畫的高精度角色。NVIDIA 開源 Audio2Face 的訓(xùn)練
    的頭像 發(fā)表于 10-21 11:11 ?721次閱讀
    <b class='flag-5'>NVIDIA</b>開源Audio2Face<b class='flag-5'>模型</b>及SDK

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的推理性能瓶頸。為實(shí)現(xiàn)這一目標(biāo),其構(gòu)建了多維度的核心實(shí)現(xiàn)路徑:一方面,針對(duì)需
    的頭像 發(fā)表于 10-21 11:04 ?999次閱讀

    NVIDIA 利用全新開源模型與仿真庫(kù)加速機(jī)器人研發(fā)進(jìn)程

    。 ? 借助全新的 NVIDIA Cosmos 世界基礎(chǔ)模型,開發(fā)者可以生成多樣化數(shù)據(jù),從而大規(guī)模加速物理 AI 模型訓(xùn)練。 ? 來(lái)自斯
    的頭像 發(fā)表于 09-30 09:52 ?2946次閱讀
    <b class='flag-5'>NVIDIA</b> 利用全新開源<b class='flag-5'>模型</b>與仿真庫(kù)加速機(jī)器人研發(fā)進(jìn)程

    NVIDIA Isaac Lab多GPU多節(jié)點(diǎn)訓(xùn)練指南

    NVIDIA Isaac Lab 是一個(gè)適用于機(jī)器人學(xué)習(xí)的開源統(tǒng)一框架,基于 NVIDIA Isaac Sim 開發(fā),其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,可提供各種物理 AI 功能和
    的頭像 發(fā)表于 09-23 17:15 ?2240次閱讀
    <b class='flag-5'>NVIDIA</b> Isaac Lab多GPU多節(jié)點(diǎn)<b class='flag-5'>訓(xùn)練</b>指南

    借助NVIDIA Cosmos模型提升機(jī)器人訓(xùn)練效率

    隨著物理 AI 系統(tǒng)的不斷發(fā)展,對(duì)豐富標(biāo)記數(shù)據(jù)集的需求正在急速增長(zhǎng),已經(jīng)超出了在現(xiàn)實(shí)世界中通過(guò)人工采集所能滿足的范圍。世界基礎(chǔ)模型(WFMs)是經(jīng)過(guò)訓(xùn)練的生成式 AI 模型,能夠根據(jù)現(xiàn)實(shí)世界環(huán)境的動(dòng)態(tài),對(duì)未來(lái)的世界狀態(tài)進(jìn)行仿真、
    的頭像 發(fā)表于 09-23 15:30 ?853次閱讀
    <b class='flag-5'>借助</b><b class='flag-5'>NVIDIA</b> Cosmos<b class='flag-5'>模型</b>提升機(jī)器人<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>效率</b>

    Votee AI借助NVIDIA技術(shù)加速方言小語(yǔ)種LLM開發(fā)

    Votee AI 利用 NVIDIA 的 GPU 硬件、NeMo Curator 數(shù)據(jù)處理軟件、NeMo Framework 模型訓(xùn)練框架及 Auto Configurator 優(yōu)化工
    的頭像 發(fā)表于 08-20 14:21 ?779次閱讀

    模型推理顯存和計(jì)算量估計(jì)方法研究

    ,為實(shí)際應(yīng)用提供了有益的參考。 未來(lái),我們將繼續(xù)深入研究大模型推理的優(yōu)化方法,以降低顯存和計(jì)算資源的需求,提高深度學(xué)習(xí)模型在實(shí)際應(yīng)用中的性能。
    發(fā)表于 07-03 19:43

    歐洲借助NVIDIA Nemotron優(yōu)化主權(quán)大語(yǔ)言模型

    NVIDIA 正攜手歐洲和中東的模型構(gòu)建商與云提供商,共同優(yōu)化主權(quán)大語(yǔ)言模型 (LLM),加速該地區(qū)各行業(yè)采用企業(yè)級(jí) AI。
    的頭像 發(fā)表于 06-12 15:42 ?1053次閱讀

    NVIDIA GTC巴黎亮點(diǎn):全新Cosmos Predict-2世界基礎(chǔ)模型與CARLA集成加速智能汽車訓(xùn)練

    。這種向使用大模型的過(guò)渡大大增加了對(duì)用于訓(xùn)練、測(cè)試和驗(yàn)證的高質(zhì)量、基于物理學(xué)傳感器數(shù)據(jù)的需求。 為加速下一代輔助駕駛架構(gòu)的開發(fā),NVIDIA 發(fā)布了?NVIDIA Cosmos Pre
    的頭像 發(fā)表于 06-12 10:00 ?1016次閱讀

    AI原生架構(gòu)升級(jí):RAKsmart服務(wù)器在超大規(guī)模模型訓(xùn)練中的算力突破

    近年來(lái),隨著千億級(jí)參數(shù)模型的崛起,AI訓(xùn)練對(duì)算力的需求呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。傳統(tǒng)服務(wù)器架構(gòu)在應(yīng)對(duì)分布式訓(xùn)練、高并發(fā)計(jì)算和顯存優(yōu)化等場(chǎng)景時(shí)逐漸顯露瓶頸。而RAKsmart為超大規(guī)模
    的頭像 發(fā)表于 04-24 09:27 ?701次閱讀

    NVIDIA技術(shù)驅(qū)動(dòng)帕西尼觸覺感知與人形機(jī)器人智能突破

    感知科技實(shí)現(xiàn)了從接觸仿真、觸覺信號(hào)產(chǎn)生、仿真數(shù)據(jù)生成,再到觸覺模態(tài)模型訓(xùn)練的全流程 GPU 加速,提升標(biāo)定和訓(xùn)練效率 100 倍,完成觸覺傳感器的批量標(biāo)定和觸覺模態(tài)規(guī)?;瘜?shí)機(jī)部署。
    的頭像 發(fā)表于 04-21 09:15 ?1316次閱讀

    百度飛槳框架3.0正式版發(fā)布

    模型訓(xùn)練成本高?推理效率低?硬件適配難? 4月1日,百度發(fā)布 飛槳框架3.0正式版 !五大特性專為大模型設(shè)計(jì)。 作為大
    的頭像 發(fā)表于 04-02 19:03 ?1109次閱讀
    百度飛槳<b class='flag-5'>框架</b>3.0正式版發(fā)布