chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DLInfer聯(lián)手沐曦股份實(shí)現(xiàn)數(shù)據(jù)生成場景的實(shí)際落地

沐曦MetaX ? 來源:沐曦MetaX ? 2025-12-09 14:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近期,上海 AI 實(shí)驗(yàn)室 DeepLink 團(tuán)隊(duì)推出的 DLInfer 通過支持 LMDeploy 主流模型推理,助力沐曦股份曦云 C500 落地 MinerU 多模態(tài)數(shù)據(jù)生成場景,Graph 模式下實(shí)現(xiàn)性能加速 60%。DLInfer 是一套專為國產(chǎn)硬件適配大模型推理框架的中間件解決方案,其核心功能在于通過標(biāo)準(zhǔn)化的融合算子接口,打通上層大模型推理框架與底層硬件廠商的異構(gòu)計(jì)算能力。目前,DLInfer 已實(shí)現(xiàn)軟硬適配工程中的有效解耦,支持包括 InternLM 系列、InternVL 系列、Qwen 系列、DeepSeek 系列在內(nèi)的多款主流模型在多元硬件上的推理適配,支撐包括沐曦股份曦云 C500 在內(nèi)的超 5 款主流硬件接入。

DLInfer GitHub:

https://github.com/DeepLink-org/dlinfer

Metax算子庫:

https://github.com/orgs/MetaXMACA/repositories

LMDeploy GitHub:

https://github.com/InternLM/lmdeploy

MinerU GitHub:

https://github.com/opendatalab/MinerU

聯(lián)手沐曦股份實(shí)現(xiàn)數(shù)據(jù)生成場景的實(shí)際落地,Graph 模式下性能加速超 60%

為了驗(yàn)證 DLInfer 在真實(shí)場景中的效能,科研團(tuán)隊(duì)與沐曦股份展開了深度合作,通過接入通用推理框架與賦能垂類應(yīng)用兩個(gè)維度,全面展示了 DLInfer 助力沐曦股份芯片釋放潛能的實(shí)戰(zhàn)成果。其中,Dlinfer + LMDeploy 推理部署方案表現(xiàn)突出。不僅能有效降低端到端延遲、提升吞吐性能,更憑借其出色的加速效果,為其成為國產(chǎn)主流硬件在推理場景下的重要選擇提供了有力支撐。

Graph 模式下精確的算子匹配加速推理效率

DLInfer 通過分層設(shè)計(jì),在 Eager 模式下直接調(diào)用各廠商優(yōu)化后的融合算子,在 Graph 模式下則對(duì)接硬件廠商的圖編譯引擎,獲取更加精確匹配,實(shí)現(xiàn)端到端性能優(yōu)化。其接口設(shè)計(jì)不僅將框架與硬件適配工程解耦,降低多平臺(tái)開發(fā)成本,還能在 Graph 模式下通過精確的算子匹配提升推理效率。

Graph 模式是 DLInfer 實(shí)現(xiàn)性能躍遷的核心,它融合了兩種關(guān)鍵的優(yōu)化路徑:

一方面全面支持類似 CUDA Graph 的“執(zhí)行流捕獲”技術(shù),支持將整個(gè)計(jì)算流程固化,消除 CPU 調(diào)度開銷,實(shí)現(xiàn)近乎零開銷的執(zhí)行;對(duì)于那些算子本身已經(jīng)足夠優(yōu)化但 CPU 與 GPU 交互成為主要性能瓶頸的場景,這種技術(shù)能帶來立竿見影的加速效果。

另一方面對(duì)于擁有豐富圖編譯生態(tài)的硬件平臺(tái),DLInfer 將 Attention、MoE 等關(guān)鍵子圖整體映射到硬件廠商提供的圖優(yōu)化器上,這種做法能最大化利用硬件特性,實(shí)現(xiàn)深度的算子融合與內(nèi)存優(yōu)化。

ac7c4ebc-cf69-11f0-8c8f-92fbcf53809c.png

DLInfer 架構(gòu)圖

沐曦股份算子優(yōu)化核心突破

沐曦股份算子庫提供的針對(duì)性適配優(yōu)化,進(jìn)一步補(bǔ)全了 DLInfer 在硬件底層的性能調(diào)用能力,讓芯片算力與軟件框架的適配更精準(zhǔn)、資源損耗更少。

在訪存延遲掩蓋方面,沐曦股份通過多重技術(shù)組合實(shí)現(xiàn)高效數(shù)據(jù)流轉(zhuǎn)。采用64/128bit 寬位顯存 load 指令提升帶寬利用率,針對(duì)非 2 的冪次對(duì)齊數(shù)據(jù)定制loop展開邏輯,借助運(yùn)行時(shí)mask實(shí)現(xiàn)顯存數(shù)據(jù)高效加載。通過預(yù)發(fā)射shared memory讀取指令、采用swizzle布局消除bank沖突,搭配多stage等機(jī)制讓計(jì)算指令精準(zhǔn)掩蓋訪存延遲,全方位突破訪存瓶頸。

生態(tài)兼容層面,沐曦股份以降低用戶遷移成本為核心,實(shí)現(xiàn)全方位適配。全面兼容 cuBlas 和 cuBlasLt 接口,完美適配官方 FlashAttention 與 FlashMLA,新增 Attention mask實(shí)現(xiàn)、KV cache 反量化融合支持、多 page size 選項(xiàng)等實(shí)用特性,讓用戶無需重構(gòu)代碼即可無縫銜接現(xiàn)有生態(tài),加速業(yè)務(wù)落地進(jìn)程。

無縫接入 LMDeploy,釋放通用推理框架潛力

LMDeploy是業(yè)界領(lǐng)先的大模型推理引擎,為開發(fā)者提供了靈活高效的部署方案。DLInfer作為橋梁,讓異構(gòu)芯片能夠無縫融入此生態(tài),用戶無需修改業(yè)務(wù)代碼即可享受硬件性能紅利。

一鍵切換的集成方式,實(shí)現(xiàn)零成本適配。DLInfer 作為“翻譯官”和“優(yōu)化器”,LMDeploy 與沐曦股份的對(duì)接變得非常簡單。用戶只需在 LMDeploy 的配置中指定后端為沐曦股份(--device maca),即可完成整個(gè)部署鏈路的切換。上層應(yīng)用(LMDeploy)依然調(diào)用 DLInfer API,便可在底層將計(jì)算任務(wù)精準(zhǔn)地分發(fā)到沐曦股份硬件上。

通用模型推理吞吐可實(shí)現(xiàn) 30%的提升。科研團(tuán)隊(duì)在 C500 上對(duì)多個(gè)主流大模型進(jìn)行了性能測試。測試結(jié)果表明,相較于算子模式,通過 DLInfer + LMDeploy 的部署方案,端到端延遲顯著降低,模型推理吞吐量提升了 30%以上,為高并發(fā)推理服務(wù)提供了堅(jiān)實(shí)的性能保障。

加速 MinerU 文檔處理,彰顯垂類模型應(yīng)用價(jià)值

如果說接入 LMDeploy 證明了 DLInfer 方案的“廣度”,那么賦能類似 MinerU 的復(fù)雜垂類應(yīng)用,則彰顯了其“深度”和解決特定領(lǐng)域難題的能力。MinerU 是上海AI實(shí)驗(yàn)室研發(fā)的一款開源的一站式文檔解析工具,目前GitHub星標(biāo)數(shù)近50K,在文檔解析領(lǐng)域有著重要的影響力,其核心任務(wù)是將 PDF 等復(fù)雜文檔轉(zhuǎn)換為結(jié)構(gòu)化的 Markdown,這是一個(gè)典型的多模態(tài)數(shù)據(jù)生成場景。DLInfer 通過 Mineru-LMDeploy-DLInfer 的技術(shù)路線,將 MinerU 無縫運(yùn)行在了曦云 C500 上,并實(shí)現(xiàn) Graph 模式性能相比 Eager 模式提升了 60%。通過雙方技術(shù)優(yōu)勢的互補(bǔ),實(shí)現(xiàn)了此次復(fù)雜垂類場景的性能加速突破,為推理任務(wù)的高效運(yùn)行再添一重保障。

acd4d136-cf69-11f0-8c8f-92fbcf53809c.png

"芯片 + DLInfer + LMDepLoy + MinerU" 技術(shù)路線

多元硬件接入推理框架的通用方案

DLInfer 對(duì)上承接大模型推理框架,對(duì)下通過一套接口靈活支持各廠商不同粒度的融合算子與廠商自研圖引擎,將對(duì)接框架與對(duì)接廠商融合算子在適配工程中有效解耦。在 DLInfer 中,根據(jù)主流大模型推理框架與主流硬件廠商的融合算子粒度,定義了大模型推理的融合算子接口。同時(shí),DLInfer 兼顧了 LLM(大語言模型)與 VLM(視覺語言模型)兩類主流多模態(tài)模型的推理需求,為國產(chǎn)硬件生態(tài)融入大模型技術(shù)棧提供了統(tǒng)一的中間層支持。

DLInfer 的核心架構(gòu)可以概括為“統(tǒng)一前端 + 可插拔后端”的模式:

統(tǒng)一前端:DLInfer 的頂層算子接口為上層應(yīng)用提供了一套與硬件無關(guān)的算子加載與執(zhí)行接口。開發(fā)者無需關(guān)心底層硬件,只需聚焦于業(yè)務(wù)邏輯本身。

可插拔后端: 每個(gè)硬件平臺(tái)都是一個(gè)獨(dú)立的“后端”模塊,而每個(gè)后端都負(fù)責(zé)實(shí)現(xiàn)兩套執(zhí)行路徑,即適合模型調(diào)試和新算子的快速驗(yàn)證 Eager 模式和 最大化利用硬件特性 Graph 模式。在 DLInfer 的vendor目錄下,可以清晰地看到這種解耦設(shè)計(jì)。

結(jié)語

DeepLink 聚焦多元芯片生態(tài)建設(shè),深耕編譯優(yōu)化、異構(gòu)通信等核心技術(shù),全力推進(jìn)國產(chǎn) AI 工具鏈研發(fā)與安全高效的方案落地。針對(duì)國產(chǎn)芯片特性優(yōu)化算子性能、構(gòu)建統(tǒng)一計(jì)算通信中間表達(dá),打造兼容主流框架的開發(fā)環(huán)境,降低開發(fā)者國產(chǎn)芯片遷移門檻,不斷提高國產(chǎn)芯片的易用性和端到端性能。同時(shí)通過構(gòu)建多場景支撐平臺(tái)和垂域標(biāo)桿應(yīng)用,為科研和產(chǎn)業(yè)界提供更為強(qiáng)大的支持,推動(dòng) AI 全行業(yè)自主可控、可持續(xù)發(fā)展。

關(guān)于沐曦股份

沐曦股份致力于自主研發(fā)全棧高性能GPU芯片及計(jì)算平臺(tái),為智算、通用計(jì)算、云渲染等前沿領(lǐng)域提供高能效、高通用性的算力支撐,助力數(shù)字經(jīng)濟(jì)發(fā)展。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    89

    文章

    38151

    瀏覽量

    296753
  • 沐曦
    +關(guān)注

    關(guān)注

    0

    文章

    56

    瀏覽量

    1659
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3446

    瀏覽量

    4970

原文標(biāo)題:DLInfer助力沐曦股份曦云C500推理落地MinerU多模態(tài)場景,實(shí)現(xiàn)性能加速60%!

文章出處:【微信號(hào):沐曦MetaX,微信公眾號(hào):沐曦MetaX】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    股份攜手紅帽共同發(fā)布MXAIE解決方案

    在2025紅帽論壇上,股份與全球領(lǐng)先的企業(yè)級(jí)開源解決方案提供商紅帽共同發(fā)布MXAIE解決方案。該方案不僅實(shí)現(xiàn)了從底層算力到平臺(tái)運(yùn)營的全棧整合,更通過深度參與開源社區(qū),推動(dòng)國產(chǎn)GPU
    的頭像 發(fā)表于 12-09 14:59 ?72次閱讀
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b>攜手紅帽共同發(fā)布MXAIE解決方案

    股份GPU加速技術(shù)助力藥物研發(fā)降本增效

    股份科學(xué)計(jì)算團(tuán)隊(duì)近期取得突破性進(jìn)展,成功將主流分子動(dòng)力學(xué)模擬引擎GROMACS中的FEP計(jì)算全流程部署于GPU執(zhí)行,并實(shí)現(xiàn)2.5倍性能提升,相關(guān)成果獲得GROMACS官方團(tuán)隊(duì)的高度
    的頭像 發(fā)表于 12-02 15:58 ?280次閱讀

    瀚海量子與股份達(dá)成戰(zhàn)略合作 量子計(jì)算軟件領(lǐng)軍者+高性能GPU芯片領(lǐng)軍者

    當(dāng)量子計(jì)算軟件領(lǐng)軍者遇上高性能GPU芯片領(lǐng)軍者,國產(chǎn)算力領(lǐng)域迎來一項(xiàng)重磅合作。 近日, 合肥瀚海量子科技有限公司(簡稱“瀚海量子”)與集成電路(上海)股份有限公司(簡稱“
    的頭像 發(fā)表于 11-24 19:02 ?2070次閱讀

    股份與上海電信完成首期GPU生態(tài)專家認(rèn)證培訓(xùn)

    近期,集成電路(上海)股份有限公司(以下簡稱“股份”)攜手上海電信天翼云能力運(yùn)營中心(以
    的頭像 發(fā)表于 10-31 10:33 ?256次閱讀

    強(qiáng)強(qiáng)聯(lián)合:之江實(shí)驗(yàn)室與股份共建智算集群聯(lián)合實(shí)驗(yàn)室

    總工程師趙志峰、副主任何水兵,以及股份聯(lián)合創(chuàng)始人、CTO兼首席硬件架構(gòu)師彭莉等雙方代表出席簽約儀式。 本次合作旨在響應(yīng)國家“人工智能+”行動(dòng)號(hào)召,落實(shí)浙江省打造人工智能高地的戰(zhàn)略部署。雙方將圍繞算力、
    的頭像 發(fā)表于 10-23 10:50 ?1031次閱讀

    首款全國產(chǎn)通用GPU芯片發(fā)布 集成推出云C600

    ,并支持MetaXLink超節(jié)點(diǎn)擴(kuò)展技術(shù),在硬件性能和軟件兼容上完全滿足下一代生成式AI的訓(xùn)練和推理需求。 而且,股份與中國科學(xué)院合作的國產(chǎn)千卡集群,已完成多個(gè)大模型全參數(shù)訓(xùn)練,證
    的頭像 發(fā)表于 10-19 20:04 ?4.5w次閱讀

    GPU與龍蜥操作系統(tǒng)完成適配

    集成電路(上海)股份有限公司(以下簡稱"")于 2020 年 9 月成立于上海,其擁有技術(shù)完備、設(shè)計(jì)和產(chǎn)業(yè)化經(jīng)驗(yàn)豐富的團(tuán)隊(duì),曾主導(dǎo)過
    的頭像 發(fā)表于 10-17 15:06 ?812次閱讀

    全鏈路算力方案亮相WAIC 2025

    以“智能時(shí)代 同球共濟(jì)”為主題的2025世界人工智能大會(huì)(WAIC)于7月26日在上海開幕,全球人工智能領(lǐng)域的技術(shù)創(chuàng)新與產(chǎn)業(yè)實(shí)踐成為焦點(diǎn)。集成電路(上海)股份有限公司(以下簡稱“
    的頭像 發(fā)表于 08-01 11:58 ?7847次閱讀

    液冷算力新標(biāo)桿!科華數(shù)據(jù)聯(lián)合股份在世界人工智能大會(huì)首發(fā)高密度液冷算力POD

    ,科華數(shù)據(jù)股份聯(lián)合推出的高密度液冷算力POD首次亮相,吸引了大量參會(huì)者駐足交流。該產(chǎn)品是科華數(shù)據(jù)專為
    的頭像 發(fā)表于 07-29 15:57 ?662次閱讀
    液冷算力新標(biāo)桿!科華<b class='flag-5'>數(shù)據(jù)</b>聯(lián)合<b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b>在世界人工智能大會(huì)首發(fā)高密度液冷算力POD

    硅基流動(dòng)攜手首發(fā)基于云的Kimi K2推理服務(wù)

    今天,硅基流動(dòng)聯(lián)合集成電路(上海)股份有限公司(簡稱“”),全球首發(fā)基于
    的頭像 發(fā)表于 07-23 17:33 ?1565次閱讀

    PaddleScience完成與AI芯片適配

    當(dāng)前,PaddleScience已與展開深度合作,涵蓋智能仿真、高性能計(jì)算、科學(xué)建模等多個(gè)方向。這一趨勢正加速形成面向"Al for Science"的國產(chǎn)智算生態(tài)新格局。
    的頭像 發(fā)表于 05-06 14:49 ?1361次閱讀

    云C500通用計(jì)算GPU與百度飛槳完成Ⅱ級(jí)兼容性測試

    近日,云C500通用計(jì)算GPU與百度飛槳已完成Ⅱ級(jí)兼容性測試。測試結(jié)果顯示,雙方兼容性表現(xiàn)良好,整體運(yùn)行穩(wěn)定。這是加入飛槳“硬件生
    的頭像 發(fā)表于 03-31 14:22 ?1484次閱讀

    加速DeepSeek滿血版單卡C500異構(gòu)推理

    近日,基于開源KTransformers架構(gòu)的 CPU/GPU 異構(gòu)推理能力,云C500單卡GPU上成功實(shí)現(xiàn)DeepSeek-R1-671B滿血版單并發(fā)解碼吞吐16.5 tok
    的頭像 發(fā)表于 03-20 15:52 ?1894次閱讀

    澎峰科技與完成聯(lián)合測試,實(shí)現(xiàn)全面兼容

    實(shí)現(xiàn)了全面兼容,為用戶提供了更為高效、穩(wěn)定的解決方案。 在測試過程中,澎峰科技與科技的技術(shù)團(tuán)隊(duì)緊密協(xié)作,對(duì)PerfXLM和PerfXCloud在云系列GPU上的運(yùn)行性能、兼容性以
    的頭像 發(fā)表于 01-21 15:20 ?969次閱讀

    澎峰科技計(jì)算軟件棧與GPU完成適配和互認(rèn)證

    ?近期,澎峰科技與完成了對(duì)PerfXLM(推理引擎)、PerfXCloud(大模型服務(wù)平臺(tái))與云系列通用計(jì)算GPU的聯(lián)合測試,測
    的頭像 發(fā)表于 01-21 09:51 ?1195次閱讀