chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

摩爾線(xiàn)程吳慶詳解 MUSA 軟件棧:以技術(shù)創(chuàng)新釋放 KUAE 集群潛能,引領(lǐng) GPU 計(jì)算新高度

電子麥克風(fēng) ? 來(lái)源:電子發(fā)燒友網(wǎng) ? 作者:張迎輝 ? 2025-07-28 13:47 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

WAIC 2025前夕,在摩爾線(xiàn)程技術(shù)分享日上,摩爾線(xiàn)程GPU 計(jì)算軟件開(kāi)發(fā)總監(jiān)吳慶,發(fā)表了題為《摩爾線(xiàn)程 MUSA 軟件棧助力 KUAE 集群釋放無(wú)限潛能》的演講。他從專(zhuān)業(yè)視角出發(fā),深入剖析了 MUSA 軟件棧在驅(qū)動(dòng) KUAE 集群高效運(yùn)轉(zhuǎn)方面的核心技術(shù)與創(chuàng)新成果。

摩爾線(xiàn)程GPU 計(jì)算軟件開(kāi)發(fā)總監(jiān)吳慶在WAIC 期間的技術(shù)分享 (來(lái)源:電子發(fā)燒友網(wǎng)拍攝)


一、MUSA 驅(qū)動(dòng)和運(yùn)行時(shí)庫(kù):KUAE 集群的堅(jiān)實(shí)底座?

首先是驅(qū)動(dòng)的重要性。在推理場(chǎng)景中,Kernel 延時(shí)如同懸在高效運(yùn)算頭上的 “達(dá)摩克利斯之劍”,對(duì)運(yùn)算效率影響極大。而摩爾線(xiàn)程的 MUSA 驅(qū)動(dòng)和運(yùn)行時(shí)庫(kù)就像是一位技藝精湛的調(diào)度大師,憑借自身高效的任務(wù)調(diào)度能力,將用戶(hù)的 Kernel launch 開(kāi)銷(xiāo)大幅縮減,為 KUAE 集群筑牢了根基。

吳慶詳細(xì)介紹,MUSA 實(shí)現(xiàn)即時(shí)任務(wù)下發(fā),通過(guò)獨(dú)特的軟硬協(xié)同方式,將核函數(shù)啟動(dòng)延遲成功降低到業(yè)界平均水平的 1/2。打個(gè)比方,這就如同在酷熱的仲夏,人們能夠借助手機(jī)遠(yuǎn)程提前開(kāi)啟暴曬在戶(hù)外車(chē)輛的空調(diào),待上車(chē)時(shí)便能立刻享受清涼。MUSA 正是巧妙地將調(diào)度開(kāi)銷(xiāo)前置,在上一個(gè) Kernel 執(zhí)行尚未結(jié)束時(shí),就提前有條不紊地完成下一個(gè) Kernel 的配置,由此最大程度減少了 Kernel 間的調(diào)度延時(shí),讓運(yùn)算銜接更加緊密流暢。?

在批量任務(wù)下發(fā)方面,吳慶表示,MUSA 將近千次的計(jì)算和通信任務(wù)下發(fā)開(kāi)銷(xiāo)巧妙優(yōu)化為單次。他舉例解釋道,這類(lèi)似于汽車(chē)座椅的一鍵記憶功能,駕駛者只需輕松操作一次,就能一次性打包調(diào)節(jié)好多個(gè)復(fù)雜步驟,后續(xù)使用時(shí)無(wú)需再重復(fù)繁瑣操作。在實(shí)際應(yīng)用中,這種優(yōu)化帶來(lái)的端到端收益因不同應(yīng)用場(chǎng)景而有所差異,最高可達(dá)好幾倍,極大節(jié)省了 GPU 的等待時(shí)間,提升了整體運(yùn)算效率。

談及引擎間依賴(lài)解析能力,吳慶強(qiáng)調(diào),GPU 擁有多引擎可配置的特性,MUSA 借助硬件解析引擎間的依賴(lài)進(jìn)行同步,這一創(chuàng)新之處在于無(wú)需再回到 host,從而使任務(wù)流之間的依賴(lài)解析延時(shí)大幅降低至 1.5μs,相較于業(yè)界頭部算力卡表現(xiàn)更為出色。此外,吳慶還介紹了調(diào)優(yōu)工具接口 MUPTI,它能夠像貼心助手一般,幫助開(kāi)發(fā)者深入優(yōu)化 MUSA 應(yīng)用程序;而 GPU 錯(cuò)誤轉(zhuǎn)存功能(GCD)則在程序遭遇出錯(cuò)情況時(shí),迅速生成詳細(xì)信息,大大提升了問(wèn)題定位的效率,為程序穩(wěn)定運(yùn)行保駕護(hù)航。?

二、MUSA 算子庫(kù)生態(tài):性能與廣度兼?zhèn)?

吳慶在演講中著重提到,算子庫(kù)的效率在分布式集群的訓(xùn)練過(guò)程中扮演著關(guān)鍵角色,恰似汽車(chē)的引擎決定著汽車(chē)的動(dòng)力表現(xiàn)。MUSA 算子庫(kù)在研發(fā)過(guò)程中,始終秉持著追求極致性能的理念,同時(shí)兼顧覆蓋廣度和兼容性,致力于為用戶(hù)提供豐富多元的選擇。?

MUSA 算子庫(kù)生態(tài)涵蓋三大算子庫(kù)。吳慶首先介紹了 muDNN,它堪稱(chēng)是開(kāi)箱即用的標(biāo)準(zhǔn)算子庫(kù),功能十分全面,完整覆蓋常見(jiàn)的前向和反向算子,對(duì)完整的 XMMA、Tensor Core 全精度及所有量化模式等均提供支持。在性能數(shù)據(jù)上,其矩陣乘算子效率可達(dá) 98%,F(xiàn)lash Attention 算子效率能達(dá)到 95%,這些數(shù)據(jù)遠(yuǎn)超行業(yè)平均水平,彰顯出強(qiáng)大的運(yùn)算實(shí)力。在講解 FP8 GEMM 算子效率時(shí),吳慶形象地比喻道,Per-Tensor scale 如同整面墻刷一種顏色,操作過(guò)程簡(jiǎn)單直接;而 Per-Block scale 則像給墻上的小方塊刷不同顏色,復(fù)雜度明顯更高。但摩爾線(xiàn)程通過(guò)深度的軟硬協(xié)同優(yōu)化,成功使 Per-Block 與 Per-Tensor FP8 GEMM 計(jì)算效率差距控制在不到 2%,極大提升了復(fù)雜場(chǎng)景下的運(yùn)算性能。?

接著,吳慶介紹了 MUTLASS,它作為高性能線(xiàn)性代數(shù)模板庫(kù),已經(jīng)在 Github 開(kāi)源。MUTLASS 支持平湖架構(gòu)所有特性,并且貼心地提供 Attention 最優(yōu)化示例,這一舉措極大降低了用戶(hù)自定義算子的開(kāi)發(fā)工作量,讓開(kāi)發(fā)者能夠更便捷地進(jìn)行相關(guān)開(kāi)發(fā)工作。最后,吳慶透露,即將發(fā)布的 MUSA AI Tensor Engine 是面向大語(yǔ)言模型的開(kāi)源推理算子庫(kù),它提供友好的 Python API,未來(lái)還將支持豐富后端,能夠助力開(kāi)發(fā)者快速搭建自定義推理引擎,為大語(yǔ)言模型領(lǐng)域的開(kāi)發(fā)工作帶來(lái)更多便利與可能。?

三、高性能通信技術(shù):避免通信搶占計(jì)算核心資源?

在大模型分布式訓(xùn)練領(lǐng)域,通信問(wèn)題一直是制約發(fā)展的主要瓶頸,猶如交通擁堵阻礙城市高效運(yùn)轉(zhuǎn)。吳慶在演講中指出,摩爾線(xiàn)程在 MTT S5000 上支持 MTLINK 2.0,并創(chuàng)新性地配備 GPU 異步通信引擎,成功實(shí)現(xiàn)了通信技術(shù)與計(jì)算的高度并行,為解決這一瓶頸問(wèn)題提供了有效方案。

圖:摩爾線(xiàn)程的異步通信引擎技術(shù)支持通過(guò)MTLink進(jìn)行C2C數(shù)據(jù)通信


吳慶回顧道,早在之前,摩爾線(xiàn)程的技術(shù)團(tuán)隊(duì)就敏銳洞察到通信與計(jì)算搶占 SM 計(jì)算單元這一行業(yè)痛點(diǎn),經(jīng)過(guò)深入研究與技術(shù)攻關(guān),最終在 GPU 上成功增加了異步通信引擎。以 MTT S5000 服務(wù)器為例,每節(jié)點(diǎn)配備 8 張 GPU,通過(guò) MTLINK 2.0 實(shí)現(xiàn)全互連,每張 GPU 與其他 7 張 GPU 直連。并且,每個(gè) GPU 的異步通信引擎原生支持多種 reduce 操作和數(shù)據(jù)類(lèi)型,還能借助 Zero Copy 技術(shù)避免本地 D2D 拷貝,直接進(jìn)行跨卡通信,大大提升了通信效率。?

在通信性能方面,吳慶詳細(xì)列舉了相關(guān)數(shù)據(jù)?;谌ヂ?lián)(FC8)拓?fù)涞母咝ㄐ?a href="http://www.brongaenegriffin.com/v/tag/2562/" target="_blank">算法,在單機(jī) 8 卡 All Reduce 場(chǎng)景中,將延遲從 Ring 算法的 53us 大幅降至 7.8us,縮減近 1/7;帶寬方面,單機(jī) 8 卡 All Reduce 帶寬利用率接近 85%,跨節(jié)點(diǎn)通信中,All Reduce 帶寬達(dá) 194GB/s,RDMA 通信帶寬利用率更是高達(dá) 97%。不僅如此,異步通信引擎的通信優(yōu)化將通信部分巧妙卸載到單獨(dú)引擎,不占用 MPC 計(jì)算資源,在無(wú)數(shù)據(jù)依賴(lài)時(shí)能夠?qū)崿F(xiàn)完全 overlap。吳慶特別提到,結(jié)合 MT Transformer Engine,這一優(yōu)化使 Llama 模型端到端計(jì)算通信性能提升約 10%,切實(shí)為大模型分布式訓(xùn)練的高效運(yùn)行提供了有力支撐。?

四、展望未來(lái):首屆MUSA開(kāi)發(fā)者大會(huì)即將啟幕

分享日最后,摩爾線(xiàn)程還宣布將于今年10月舉辦首屆MUSA開(kāi)發(fā)者大會(huì),進(jìn)一步推動(dòng)國(guó)產(chǎn)GPU生態(tài)建設(shè)。從芯片架構(gòu)到集群系統(tǒng),從技術(shù)突破到行業(yè)落地,摩爾線(xiàn)程正以“AI工廠(chǎng)”為藍(lán)圖,引領(lǐng)國(guó)產(chǎn)算力基礎(chǔ)設(shè)施邁向AGI時(shí)代的新高度。(完)

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5035

    瀏覽量

    133686
  • MUSA
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    2133
  • 摩爾線(xiàn)程
    +關(guān)注

    關(guān)注

    2

    文章

    247

    瀏覽量

    5949
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    摩爾線(xiàn)程發(fā)布Torch-MUSA v2.1.1版本

    近日,摩爾線(xiàn)程發(fā)布其面向PyTorch深度學(xué)習(xí)框架的MUSA擴(kuò)展庫(kù)——Torch-MUSA v2.1.1。該版本在v2.1.0的基礎(chǔ)上,進(jìn)一步擴(kuò)展了對(duì)大規(guī)模深度學(xué)習(xí)模型訓(xùn)練與推理的支持
    的頭像 發(fā)表于 09-10 11:02 ?479次閱讀

    摩爾線(xiàn)程副總裁王華:AI工廠(chǎng)全技術(shù)重構(gòu)算力基建,開(kāi)啟國(guó)產(chǎn) GPU 黃金時(shí)代

    摩爾線(xiàn)程在世界人工智能大會(huì)(WAIC 2025)前夕舉辦“算力進(jìn)化,精度革命”為主題的技術(shù)分享會(huì),創(chuàng)新性提出“AI工廠(chǎng)” 理念。這一系統(tǒng)性
    的頭像 發(fā)表于 08-02 14:21 ?4083次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線(xiàn)程</b>副總裁王華:AI工廠(chǎng)全<b class='flag-5'>棧</b><b class='flag-5'>技術(shù)</b>重構(gòu)算力基建,開(kāi)啟國(guó)產(chǎn) <b class='flag-5'>GPU</b> 黃金時(shí)代

    摩爾線(xiàn)程亮相WAIC 2025:“AI工廠(chǎng)”理念驅(qū)動(dòng)算力進(jìn)化,全AI應(yīng)用賦能千行百業(yè)

    7月26日-29日,2025世界人工智能大會(huì)(WAIC)在上海舉辦。摩爾線(xiàn)程全功能GPU為核心的“云邊端”全AI產(chǎn)品和解決方案精彩亮相
    的頭像 發(fā)表于 07-28 11:34 ?1039次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線(xiàn)程</b>亮相WAIC 2025:<b class='flag-5'>以</b>“AI工廠(chǎng)”理念驅(qū)動(dòng)算力進(jìn)化,全<b class='flag-5'>棧</b>AI應(yīng)用賦能千行百業(yè)

    摩爾線(xiàn)程發(fā)布Torch-MUSA v2.0.0版本 支持原生FP8和PyTorch 2.5.0

    近日,摩爾線(xiàn)程正式發(fā)布Torch-MUSA v2.0.0版本,這是其面向PyTorch深度學(xué)習(xí)框架的MUSA擴(kuò)展庫(kù)的重要升級(jí)。新版本基于MUSA
    的頭像 發(fā)表于 05-11 16:41 ?1065次閱讀

    摩爾線(xiàn)程GPU率先支持Qwen3全系列模型

    近日,阿里云正式發(fā)布Qwen3系列的8款開(kāi)源混合推理模型。摩爾線(xiàn)程團(tuán)隊(duì)在模型發(fā)布當(dāng)天,率先完成了Qwen3全系列模型在全功能GPU上的高效支持。這一成果充分展現(xiàn)了MUSA架構(gòu)及全功能
    的頭像 發(fā)表于 05-07 15:24 ?727次閱讀

    摩爾線(xiàn)程GPU成功適配Deepseek-V3-0324大模型

    架構(gòu)和全功能GPU的強(qiáng)大技術(shù)實(shí)力,摩爾線(xiàn)程迅速響應(yīng)并完成了對(duì)DeepSeek-V3的無(wú)縫升級(jí),實(shí)現(xiàn)了零報(bào)錯(cuò)、零兼容性問(wèn)題的光速部署,充分展現(xiàn)了摩爾
    的頭像 發(fā)表于 03-31 11:34 ?940次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線(xiàn)程</b><b class='flag-5'>GPU</b>成功適配Deepseek-V3-0324大模型

    摩爾線(xiàn)程GPU原生FP8計(jì)算助力AI訓(xùn)練

    并行訓(xùn)練和推理,顯著提升了訓(xùn)練效率與穩(wěn)定性。摩爾線(xiàn)程是國(guó)內(nèi)率先原生支持FP8計(jì)算精度的國(guó)產(chǎn)GPU企業(yè),此次開(kāi)源不僅為AI訓(xùn)練和推理提供了全新的國(guó)產(chǎn)化解決方案,更對(duì)推動(dòng)國(guó)產(chǎn)
    的頭像 發(fā)表于 03-17 17:05 ?1029次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線(xiàn)程</b><b class='flag-5'>GPU</b>原生FP8<b class='flag-5'>計(jì)算</b>助力AI訓(xùn)練

    黑芝麻智能引領(lǐng)人形機(jī)器人技術(shù)邁向新高度

    ,基于黑芝麻智能領(lǐng)先的芯片及算法方案,致力于為“天問(wèn)”賦予更強(qiáng)大的智能“大腦”與“小腦”。同時(shí),雙方也正在圍繞人形機(jī)器人量產(chǎn)的芯片解決方案展開(kāi)深入合作,共同引領(lǐng)人形機(jī)器人技術(shù)邁向新高度
    的頭像 發(fā)表于 03-12 18:00 ?1307次閱讀

    摩爾線(xiàn)程全面支持DeepSeek開(kāi)源周成果

    DeepSeek開(kāi)源周正式收官,作為國(guó)內(nèi)率先原生支持FP8計(jì)算精度的國(guó)產(chǎn)GPU企業(yè),摩爾線(xiàn)程迅速響應(yīng),并在短時(shí)間內(nèi),成功實(shí)現(xiàn)對(duì)DeepSeek各個(gè)開(kāi)源項(xiàng)目的全面支持,涵蓋FlashML
    的頭像 發(fā)表于 03-04 10:06 ?698次閱讀

    摩爾線(xiàn)程完成DeepSeek開(kāi)源庫(kù)FlashMLA和DeepGEMM適配

    自DeepSeek啟動(dòng)“開(kāi)源周”以來(lái),已陸續(xù)開(kāi)源三個(gè)代碼庫(kù)。摩爾線(xiàn)程基于全新MUSA Compute Capability 3.1計(jì)算架構(gòu),可提供原生FP8
    的頭像 發(fā)表于 02-27 14:40 ?825次閱讀

    鋰電池充放電老化柜:技術(shù)創(chuàng)新引領(lǐng)新能源產(chǎn)業(yè)質(zhì)量檢測(cè)新高度

    設(shè)備,正以其技術(shù)創(chuàng)新引領(lǐng)新能源產(chǎn)業(yè)質(zhì)量檢測(cè)的新高度,成為行業(yè)內(nèi)的熱點(diǎn)話(huà)題。 技術(shù)革新,提升檢測(cè)精度與效率 鋰電池充放電老化柜是一種專(zhuān)門(mén)用于對(duì)鋰電池進(jìn)行充放電老化測(cè)試和評(píng)估的設(shè)備。它通過(guò)
    的頭像 發(fā)表于 01-16 16:53 ?598次閱讀

    摩爾線(xiàn)程開(kāi)源高性能線(xiàn)性代數(shù)模板庫(kù)MUTLASS

    近日,摩爾線(xiàn)程宣布開(kāi)源高性能線(xiàn)性代數(shù)模板庫(kù)MUTLASS,以便開(kāi)發(fā)者能夠更高效針對(duì)摩爾線(xiàn)程全功能GPU
    的頭像 發(fā)表于 11-13 11:53 ?1018次閱讀

    摩爾線(xiàn)程成立摩爾學(xué)院,賦能GPU開(kāi)發(fā)者

    近日,摩爾線(xiàn)程宣布正式成立摩爾學(xué)院,為GPU開(kāi)發(fā)者生態(tài)建設(shè)揭開(kāi)新篇章。摩爾學(xué)院作為一個(gè)專(zhuān)業(yè)的GPU
    的頭像 發(fā)表于 10-28 17:03 ?1376次閱讀

    摩爾線(xiàn)程GPU與超圖軟件大模型適配:共筑國(guó)產(chǎn)地理空間AI新生態(tài)

    10月24日,摩爾線(xiàn)程公司宣布與超圖軟件達(dá)成重要合作里程碑。經(jīng)過(guò)雙方的嚴(yán)格測(cè)試,摩爾線(xiàn)程的MTT S/X系列全功能
    的頭像 發(fā)表于 10-24 11:29 ?2025次閱讀

    摩爾線(xiàn)程與超圖軟件完成產(chǎn)品兼容認(rèn)證

    10月24日,摩爾線(xiàn)程官方正式對(duì)外宣布,其MTT S/X系列全功能GPU已成功與超圖軟件最新發(fā)布的大模型系列產(chǎn)品完成產(chǎn)品兼容認(rèn)證。這一消息的發(fā)布標(biāo)志著雙方在
    的頭像 發(fā)表于 10-24 10:25 ?1419次閱讀