chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

新一代超大模型訓(xùn)練引擎XTuner V1開源

華為數(shù)字中國 ? 來源:華為數(shù)字中國 ? 2025-09-10 10:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

9月8日,上海人工智能實驗室(上海AI實驗室)開源書生大模型新一代訓(xùn)練引擎XTuner V1。

XTuner V1是伴隨上海AI實驗室“通專融合”技術(shù)路線的持續(xù)演進(jìn),以及書生大模型研發(fā)實踐而成長起來的新一代訓(xùn)練引擎。相較于傳統(tǒng)的3D并行訓(xùn)練引擎,XTuner V1不僅能應(yīng)對更加復(fù)雜的訓(xùn)練場景,還具備更快的訓(xùn)練速度,尤其在超大規(guī)模稀疏混合專家(MoE,mixture of experts)模型訓(xùn)練中優(yōu)勢顯著。

同時,為了進(jìn)一步探究XTuner V1訓(xùn)練方案的上限,研究團(tuán)隊與昇騰團(tuán)隊在昇騰384超節(jié)點(Atlas 900 A3 SuperPoD)上進(jìn)行聯(lián)合優(yōu)化,充分利用昇騰384超節(jié)點硬件特性,實現(xiàn)更高的模型算力利用率(MFU,model FLOPS utilization)。相比業(yè)界其他產(chǎn)品,昇騰384超節(jié)點的訓(xùn)練吞吐提升5%以上,MFU提升20%以上,該項研究成果技術(shù)報告也將于近期發(fā)布。

除了訓(xùn)練框架,書生大模型研發(fā)中使用的AIOps工具DeepTrace與ClusterX也將一并開源,為大規(guī)模分布式訓(xùn)練提供全方位保障。

XTuner V1:

https://github.com/InternLM/xtuner

DeepTrace:

https://github.com/DeepLink-org/DeepTrace

ClusterX:

https://github.com/InternLM/clusterx

目前開源社區(qū)主流的訓(xùn)練方案主要分為兩類:

DeepSpeed/PyTorch FSDP(完全分片數(shù)據(jù)并行,F(xiàn)ully Shard Data Parallel):通信量大但使用簡單,尤其適合稠密型模型訓(xùn)練,開發(fā)者無需具備專業(yè)的AI Infra知識,也能開發(fā)出接近最優(yōu)性能的訓(xùn)練系統(tǒng);

3D并行:通信量小但使用復(fù)雜,開發(fā)者需要具備專業(yè)的AI Infra知識,針對不同硬件和訓(xùn)練場景進(jìn)行針對性調(diào)優(yōu),尤其適用MoE模型訓(xùn)練。

為了同時兼顧易用性、高性能與超大模型訓(xùn)練,XTuner V1基于PyTorch FSDP進(jìn)行開發(fā),并針對FSDP通信量大的固有缺陷,進(jìn)行了系列優(yōu)化,可支持1T參數(shù)量級MoE模型訓(xùn)練,并首次在200B以上量級的混合專家模型上,實現(xiàn)訓(xùn)練吞吐超越傳統(tǒng)的3D并行訓(xùn)練方案。

針對當(dāng)前主流的MoE后訓(xùn)練需求,XTuner V1未通過序列并行方式,實現(xiàn)200B量級MoE模型單次forward-backward可處理64k序列長度,更適合當(dāng)下流行的強化學(xué)習(xí)訓(xùn)練場景;對專家并行依賴小,長序列訓(xùn)練時受專家不均衡影響小,200B量級MoE無需專家并行,600B MoE只需節(jié)點內(nèi)專家并行,更適合現(xiàn)代MoE Dropless訓(xùn)練模式;大規(guī)模長短序列混訓(xùn)場景提速2倍以上,數(shù)據(jù)并行負(fù)載均衡,大幅減小因需序列長度不均衡導(dǎo)致的計算空泡。

多維度技術(shù)優(yōu)化

專為“超大模型”而生

XTuner V1之所以能在超大模型訓(xùn)練中展現(xiàn)出卓越的性能,核心在于它在顯存、通信、負(fù)載等多個維度進(jìn)行了系統(tǒng)性優(yōu)化。這些優(yōu)化協(xié)同作用,不僅帶來了性能的跨越式提升,還兼顧了易用性、通用性與擴(kuò)展性。

顯存優(yōu)化:Pytorch FSDP與3D并行最大的差異在于重計算。針對計算損失函數(shù)時的計算圖,XTuner V1基于Liger-Kernel中的Chunk-wise Loss,擴(kuò)展支持了更多種類的損失函數(shù),能夠支持昇騰NPU;針對重計算保留的激活值,XTuner V1借鑒了昇騰MindSpeed中的Async Checkpointing Swap。最終,無需借助序列并行技術(shù),實現(xiàn)200B參數(shù)量級MoE模型訓(xùn)練64K長度序列。

通信掩蓋:得益于極致的顯存優(yōu)化,XTuner V1可以讓單次迭代的最大序列長度提升數(shù)倍,從而增加每層計算的耗時,掩蓋參數(shù)聚合的通信耗時。針對因顯存或通信帶寬受限,無法實現(xiàn)通信掩蓋的訓(xùn)練場景,XTuner V1通過Intra-Node Domino-EP來降低每一層聚合參數(shù)的通信量,同時掩蓋因引入專家并行帶來的額外通信開銷。

DP負(fù)載均衡:由于XTuner V1中沒有引入TP、PP等并行策略,相同卡數(shù)下,數(shù)據(jù)并行的維度會遠(yuǎn)大于3D并行。為了緩解變長注意力帶來的計算空泡,并盡可能不影響數(shù)據(jù)的訓(xùn)練順序,會對每n個step內(nèi)的已拼接好的序列進(jìn)行排序,讓每次計算時,不同DP的最長子序列長度是接近的。

基于昇騰384超節(jié)點深度優(yōu)化

訓(xùn)練效率超業(yè)界產(chǎn)品

為了進(jìn)一步探究XTuner V1訓(xùn)練方案的上限,上海人工智能實驗室XTuner團(tuán)隊聯(lián)合昇騰技術(shù)團(tuán)隊在超節(jié)點上進(jìn)行深度優(yōu)化,充分利用昇騰384超節(jié)點硬件特性,實現(xiàn)了更高M(jìn)FU。

昇騰384超節(jié)點通過高速總線連接多顆NPU,突破互聯(lián)瓶頸,讓超節(jié)點像一臺計算機(jī)一樣工作,更加適合FSDP訓(xùn)練:

更高的通信帶寬:最大可實現(xiàn)384顆NPU點到點超大帶寬互聯(lián),F(xiàn)SDP All Gather耗時僅為業(yè)界產(chǎn)品的1/4~1/3,更容易實現(xiàn)計算-通信掩蓋

計算通信解耦:通過專用硬化調(diào)度和傳輸卸載,實現(xiàn)不占用計算核的高效數(shù)據(jù)通信,F(xiàn)SDP計算通信掩蓋時不會影響計算速度

超節(jié)點高速互連:CPU和NPU通過高速總線互聯(lián),實現(xiàn)更大帶寬,Checkpointing Swap的開銷更小

除硬件固有優(yōu)勢外,昇騰還從通信、內(nèi)存、計算、框架、工具等維度對基于昇騰384超節(jié)點的MoE訓(xùn)練進(jìn)行了全方位的加持:

Cube調(diào)優(yōu):對于模型中集中了大量計算任務(wù)的GroupedMatmul算子進(jìn)行分析,發(fā)現(xiàn)內(nèi)部搬運帶寬已經(jīng)擁塞但cube利用率還有提升空間。針對此問題,聯(lián)合研發(fā)團(tuán)隊重點優(yōu)化GroupedMatmul算子分塊邏輯,根據(jù)不同輸入進(jìn)行動態(tài)分塊Tiling策略優(yōu)化搬運效率。同時,根據(jù)場景的不同細(xì)化Cache策略,提高Cache命中率從而提升性能。

QoS調(diào)優(yōu):QoS(Quality of Service)即服務(wù)質(zhì)量。在有限的帶寬資源下,QoS為各種業(yè)務(wù)分配帶寬,為業(yè)務(wù)提供端到端的服務(wù)質(zhì)量保證。大規(guī)模訓(xùn)練過程中,計算流、通信流、swap流都會存在內(nèi)存訪問,并發(fā)的訪問會導(dǎo)致內(nèi)存帶寬擁塞,從而影響整體性能。通過適當(dāng)調(diào)低通信的內(nèi)存訪存優(yōu)先級,可以減少計算的搬運時間,從而優(yōu)化端到端性能。

跨流內(nèi)存復(fù)用:在FSDP計算流和通信流異步重疊的場景中,Ascend Extension for PyTorch(PTA)中默認(rèn)的跨流內(nèi)存優(yōu)化會導(dǎo)致顯存不能及時釋放,需要開啟PTA中進(jìn)階版的跨流內(nèi)存復(fù)用機(jī)制(MULTI_STREAM_MEMORY_REUSE=2),可以顯著降低顯存峰值。

集群性能工具高效診斷:借助MindStudio全流程工具鏈中的msprof-analyze性能分析工具與MindStudio Insight可視化工具,開發(fā)者可以充分利用其強大的數(shù)據(jù)分析與可視化能力,在分鐘級時間內(nèi)精準(zhǔn)識別訓(xùn)練過程中的“快慢卡”現(xiàn)象根因,快速定位出性能瓶頸,顯著提升大集群調(diào)優(yōu)效率。

書生大模型工具鏈研發(fā)團(tuán)隊現(xiàn)已將Xtuner V1的工作全部開源,希望為學(xué)術(shù)界與工業(yè)界提供高性能、低門檻、易擴(kuò)展的大模型訓(xùn)練方案,豐富開源社區(qū)的訓(xùn)練工具生態(tài),為超大模型研發(fā)和應(yīng)用提供堅實易用的基礎(chǔ)設(shè)施。

未來,在研究范式創(chuàng)新及模型能力提升的基礎(chǔ)上,上海AI實驗室將持續(xù)推進(jìn)書生大模型及其全鏈條工具體系的開源,支持免費商用,同時提供線上開放服務(wù),與各界共同擁抱更廣闊的開源生態(tài),共促大模型產(chǎn)業(yè)繁榮。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 華為
    +關(guān)注

    關(guān)注

    217

    文章

    35772

    瀏覽量

    260611
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    4018

    瀏覽量

    45537
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3435

    瀏覽量

    4958

原文標(biāo)題:新一代超大模型訓(xùn)練引擎XTuner V1開源,昇騰384超節(jié)點訓(xùn)練效率突破上限!

文章出處:【微信號:HWS_yunfuwu,微信公眾號:華為數(shù)字中國】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    摩爾線程新一代大語言模型對齊框架URPO入選AAAI 2026

    近日,摩爾線程在人工智能前沿領(lǐng)域取得重要突破,其提出的新一代大語言模型對齊框架——URPO統(tǒng)獎勵與策略優(yōu)化,相關(guān)研究論文已被人工智能領(lǐng)域的國際頂級學(xué)術(shù)會議AAAI 2026收錄。這
    的頭像 發(fā)表于 11-17 16:03 ?206次閱讀
    摩爾線程<b class='flag-5'>新一代</b>大語言<b class='flag-5'>模型</b>對齊框架URPO入選AAAI 2026

    新一代AtomGit平臺暨人工智能開源社區(qū)發(fā)布

    、數(shù)據(jù)集及異構(gòu)算力資源,共同打造中立、開放、公益的新一代開源+人工智能”體化基礎(chǔ)設(shè)施平臺——AtomGit,并正式發(fā)布人工智能開源社區(qū)。工業(yè)和信息化部副部長熊繼軍出席活動并致辭。
    的頭像 發(fā)表于 10-30 09:46 ?349次閱讀

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型些經(jīng)驗

    模型。 我們使用MNIST數(shù)據(jù)集,訓(xùn)練個卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,用于手寫數(shù)字識別。模型
    發(fā)表于 10-22 07:03

    【內(nèi)測活動同步開啟】這么???這么強?新一代模型MCP開發(fā)板來啦!

    【內(nèi)測活動同步開啟】這么???這么強?新一代模型MCP開發(fā)板來啦! 聆思全新一代六合芯片「LS26系列」,搭載WIFI / BLE & BT / NPU,與「小聆AI」強強
    發(fā)表于 09-25 11:47

    信而泰×DeepSeek:AI推理引擎驅(qū)動網(wǎng)絡(luò)智能診斷邁向 “自愈”時代

    DeepSeek-R1:強大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司開發(fā)的新一代AI大模型。其核心優(yōu)勢在于強大的推理
    發(fā)表于 07-16 15:29

    谷歌新一代生成式AI媒體模型登陸Vertex AI平臺

    我們在 Vertex AI 上推出新一代生成式 AI 媒體模型: Imagen 4、Veo 3 和 Lyria 2。
    的頭像 發(fā)表于 06-18 09:56 ?873次閱讀

    廣和通發(fā)布新一代AI語音智能體FiboVista

    近日,2025火山引擎Force原動力大會正式開幕。廣和通發(fā)布新一代AI語音智能體FiboVista,并已率先應(yīng)用于車聯(lián)網(wǎng),成為智能駕駛的“用車伙伴”和“出行伴侶”。通過創(chuàng)新AI大模型和場景服務(wù)洞察,F(xiàn)iboVista將在智慧家
    的頭像 發(fā)表于 06-17 09:22 ?978次閱讀

    上新:小米首個推理大模型開源 馬斯克:下周推出Grok 3.5

    開源新一代通義千問模型Qwen3。據(jù)悉,Qwen3模型參數(shù)量僅為DeepSeek - R11/
    的頭像 發(fā)表于 04-30 16:08 ?1120次閱讀

    Nordic新一代旗艦芯片nRF54H20深度解析

    、芯片概覽:第四多協(xié)議SoC的革新 Nordic Semiconductor最新發(fā)布的??nRF54H20??作為nRF54H系列首款SoC,標(biāo)志著低功耗無線技術(shù)的又次飛躍。這款采用??多核
    發(fā)表于 04-26 23:25

    AI原生架構(gòu)升級:RAKsmart服務(wù)器在超大規(guī)模模型訓(xùn)練中的算力突破

    近年來,隨著千億級參數(shù)模型的崛起,AI訓(xùn)練對算力的需求呈現(xiàn)指數(shù)級增長。傳統(tǒng)服務(wù)器架構(gòu)在應(yīng)對分布式訓(xùn)練、高并發(fā)計算和顯存優(yōu)化等場景時逐漸顯露瓶頸。而RAKsmart為超大規(guī)模
    的頭像 發(fā)表于 04-24 09:27 ?603次閱讀

    NVIDIA Isaac GR00T N1開源人形機(jī)器人基礎(chǔ)模型+開源物理引擎Newton加速機(jī)器人開發(fā)

    NVIDIA Isaac GR00T N1開源人形機(jī)器人基礎(chǔ)模型+開源物理引擎Newton加速機(jī)器人開發(fā)
    的頭像 發(fā)表于 03-20 16:56 ?1264次閱讀

    壁仞科技支持DeepSeek-V3滿血版訓(xùn)練推理

    DeepSeek在開源開源了部分關(guān)鍵模塊的代碼及推理系統(tǒng)參考架構(gòu),再次引發(fā)行業(yè)震動,但目前尚未開源DeepSeek-V3 滿血版完整訓(xùn)練
    的頭像 發(fā)表于 03-04 14:01 ?1900次閱讀

    模型訓(xùn)練:開源數(shù)據(jù)與算法的機(jī)遇與挑戰(zhàn)分析

    最近,開源中國 OSCHINA、Gitee 與 Gitee AI 聯(lián)合發(fā)布了《2024 中國開源開發(fā)者報告》。 報告聚焦 AI 大模型領(lǐng)域,對過去年的技術(shù)演進(jìn)動態(tài)、技術(shù)趨勢、以及
    的頭像 發(fā)表于 02-20 10:40 ?980次閱讀
    大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>:<b class='flag-5'>開源</b>數(shù)據(jù)與算法的機(jī)遇與挑戰(zhàn)分析

    讓大模型訓(xùn)練更高效,奇異摩爾用互聯(lián)創(chuàng)新方案定義下一代AI計算

    ? 電子發(fā)燒友網(wǎng)報道(文/吳子鵬)近段時間以來,DeepSeek現(xiàn)象級爆火引發(fā)產(chǎn)業(yè)對大規(guī)模數(shù)據(jù)中心建設(shè)的思考和爭議。在訓(xùn)練端,DeepSeek以開源模型通過算法優(yōu)化(如稀疏計算、動態(tài)
    的頭像 發(fā)表于 02-18 09:19 ?1894次閱讀
    讓大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>更高效,奇異摩爾用互聯(lián)創(chuàng)新方案定義下<b class='flag-5'>一代</b>AI計算

    如何使用FP8新技術(shù)加速大模型訓(xùn)練

    /fp8_primer.html#Introduction-to-FP8 其中,使用 FP8 進(jìn)行大模型訓(xùn)練具有以下優(yōu)勢: 新一代 GPU 如?NVIDIA Ada Lovelace、Hopper?架構(gòu)配備了最
    的頭像 發(fā)表于 12-09 11:30 ?2032次閱讀