免费看中国一级一片,复制品小说,丰满高跟丝袜老熟女视频网站

近日，摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓練策略和高性能算子庫，這兩大框架在國產全功能GPU上實現(xiàn)了高效的混合并行訓練和推理，顯著提升了訓練效率與穩(wěn)定性。摩爾線程是國內率先原生支持FP8計算精度的國產GPU企業(yè)，此次開源不僅為AI訓練和推理提供了全新的國產化解決方案，更對推動國產GPU在AI大模型領域的應用具有重要意義。

▼MT-MegatronLM開源地址：

https://github.com/MooreThreads/MT-MegatronLM

▼MT-TransformerEngine開源地址：

https://github.com/MooreThreads/MT-TransformerEngine

框架介紹

MT-MegatronLM是面向全功能GPU的開源混合并行訓練框架，支持dense模型、多模態(tài)模型及MoE（混合專家）模型的高效訓練。該框架利用全功能GPU支持FP8混合精度策略、高性能算子庫muDNN與集合通信庫MCCL，可以顯著提升國產全功能GPU集群的算力利用率。

MT-TransformerEngine主要用于Transformer模型的高效訓練與推理優(yōu)化，通過算子融合、并行加速策略等技術，充分釋放摩爾線程全功能GPU高密度計算的潛力和memory bound算子的效率。

技術突破與優(yōu)勢

兩大框架的技術突破集中體現(xiàn)在硬件適配與算法創(chuàng)新的深度協(xié)同：

▽混合并行訓練：支持Dense、多模態(tài)及MoE模型的混合并行訓練，可靈活應對不同模型架構的復雜運算場景；

▽FP8混合訓練策略：結合摩爾線程GPU原生支持的FP8混合精度訓練策略，能夠有效提升訓練效率；

▽高性能算子庫：通過高性能算子庫muDNN與通信庫MCCL的深度集成，系統(tǒng)性優(yōu)化了計算密集型任務與多卡協(xié)同的通信開銷；同時結合摩爾線程開源Simumax庫，可自動進行并行策略搜索，并針對不同模型和加速環(huán)境spec最大化并行訓練性能；

▽異常訓練處理：框架內置的rewind異常恢復機制，可自動回滾至最近穩(wěn)定節(jié)點繼續(xù)訓練，大幅提升大規(guī)模訓練的穩(wěn)定性；

▽完整的兼容性：兩個框架兼容GPU主流生態(tài)，既保障了現(xiàn)有生態(tài)的平滑遷移，也為開發(fā)者構建自有的AI技術棧提供了底層支撐。

▼摩爾線程Simumax開源地址：

https://github.com/MooreThreads/SimuMax

實際應用效果

在實際應用中，這兩個框架的充分結合已經(jīng)取得了顯著的成果。這些成果不僅驗證了框架的技術成熟度，也為國產GPU生態(tài)的規(guī)?；瘧玫於藞詫嵒A。

▽高效訓練：在全功能GPU集群上，Llama3 8B模型的訓練任務，可以利用FP8在loss幾乎無損的情況下MFU達到90%以上；（如下圖所示）

圖注：利用摩爾線程FP8混合精度加速技術在loss無損的情況下得到28%的加速

▽復現(xiàn)DeepSeek 滿血版訓練：摩爾線程已深度集成并開源對DeepSeek并行算法DualPipe的高效支持，MT-DualPipe可以完整接入MT-Megatron框架和MT-TransformerEngine框架，成功實現(xiàn)DeepSeek V3訓練流程的完整復現(xiàn)，支持MLA、MTP及多種專家平衡策略；

▽性能大幅優(yōu)化：通過多種Transformer算子融合技術，顯著提升了內存帶寬利用率，有效緩解memory bound瓶頸，進一步釋放國產GPU的硬件潛力。

持續(xù)優(yōu)化與生態(tài)共建

為加速國產GPU生態(tài)發(fā)展與建設，摩爾線程將持續(xù)優(yōu)化MT-MegatronLM與MT-TransformerEngine框架，并引入一系列創(chuàng)新功能：

▽Dual Pipe/ZeroBubble并行策略：進一步降低氣泡率，提升并行訓練效率；

▽多種FP8優(yōu)化策略：獨創(chuàng)的FP8優(yōu)化策略，提高訓練的性能和穩(wěn)定性；

▽異步checkpoint策略：提高訓練過程中的容錯能力和效率；

▽優(yōu)化后的重計算策略：減少計算和顯存開銷，提高訓練速度；

▽容錯訓練策略：獨創(chuàng)的容錯訓練算法，增強訓練過程中的容錯能力；

▽集成摩爾線程FlashMLA和DeepGemm庫：進一步釋放摩爾線程GPU的算力和FP8計算能力，提升計算性能和效率。

摩爾線程始終致力于推動開源生態(tài)的發(fā)展，通過技術開放與生態(tài)共建，加速國產全功能GPU在AI計算領域的規(guī)?；瘧茫瑸楦嘤脩籼峁└悄?、高效的解決方案。

▼ 關于摩爾線程

摩爾線程成立于2020年10月，以全功能GPU為核心，致力于向全球提供加速計算的基礎設施和一站式解決方案，為各行各業(yè)的數(shù)智化轉型提供強大的AI計算支持。

我們的目標是成為具備國際競爭力的GPU領軍企業(yè)，為融合人工智能和數(shù)字孿生的數(shù)智世界打造先進的加速計算平臺。我們的愿景是為美好世界加速。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

gpu

gpu

+關注

關注
28

文章
5149

瀏覽量
134732
AI

AI

+關注

關注
91

文章
39031

瀏覽量
299583
開源

開源

+關注

關注
3

文章
4121

瀏覽量
45764
摩爾線程

摩爾線程

+關注

關注
2

文章
270

瀏覽量
6297

原文標題：開源MT-MegatronLM和MT-TransformerEngine｜摩爾線程GPU原生FP8計算助力AI訓練

文章出處：【微信號：moorethreads，微信公眾號：摩爾線程】歡迎添加關注！文章轉載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

摩爾線程GPU原生FP8計算助力AI訓練

評論