chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

沐曦股份聯(lián)合上海人工智能實(shí)驗(yàn)室發(fā)布高性能GPU算子生成系統(tǒng)Kernel-Smith

沐曦MetaX ? 來(lái)源:沐曦MetaX ? 2026-04-08 15:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,上海人工智能實(shí)驗(yàn)室和沐曦股份聯(lián)合發(fā)布了高性能GPU算子生成系統(tǒng)—— Kernel-Smith。

Kernel-Smith創(chuàng)新性地將“穩(wěn)定評(píng)估驅(qū)動(dòng)的進(jìn)化智能體”與“面向進(jìn)化的后訓(xùn)練范式”深度融合,依托上海人工智能實(shí)驗(yàn)室書(shū)生大模型Intern-S1-Pro的基座能力進(jìn)行深度定制化訓(xùn)練,讓大模型真正化身為“算子優(yōu)化大師”。

在雙方的合作中,沐曦團(tuán)隊(duì)全程深度參與。聯(lián)合創(chuàng)始人、CTO兼首席軟件架構(gòu)師楊建、研發(fā)副總裁黃向軍、AI部門(mén)的武亞光、董華楠、謝佳形均參與了該項(xiàng)目并做出貢獻(xiàn)。

沐曦自研軟件棧MXMACA展現(xiàn)出了深度兼容能力。在MXMACA后端測(cè)試中,Kernel-Smith 表現(xiàn)出色。研究團(tuán)隊(duì)在四類(lèi)常用算子上對(duì)比了不同模型生成高性能 MXMACA 算子的能力,結(jié)果顯示,Kernel-Smith-MACA-30B 的平均加速比超過(guò)了 DeepSeek-v3.2 和 Qwen3-235B-2507 等大參數(shù)量的開(kāi)源模型,而 Kernel-Smith-MACA-235B 取得了進(jìn)一步性能提升,驗(yàn)證了 Kernel-Smith 框架支持異構(gòu)平臺(tái)的能力。

f2aaa46c-2f43-11f1-90a1-92fbcf53809c.png

沐曦MXMACA 平臺(tái)算子性能優(yōu)化任務(wù)評(píng)測(cè)結(jié)果

目前,Kernel-Smith 自動(dòng)生成的高性能算子已在實(shí)際場(chǎng)景中得到應(yīng)用:不僅加速了 DeepSeek 新架構(gòu) Engram,并合入 DLBlas;還落地主流生產(chǎn)級(jí)推理引擎 SGLang 和 LMDeploy,實(shí)現(xiàn)了大模型自動(dòng)生成算子從實(shí)驗(yàn)室受控評(píng)估,到前沿模型研發(fā)與生產(chǎn)級(jí)部署的雙重跨越。

技術(shù)報(bào)告鏈接:

https://arxiv.org/pdf/2603.28342

在線(xiàn)體驗(yàn)鏈接:

https://chat.intern-ai.org.cn/kernel-smith

算子開(kāi)發(fā)的兩大挑戰(zhàn)

在當(dāng)今的大模型時(shí)代,高性能 GPU 算子(Kernel)是將硬件算力轉(zhuǎn)化為實(shí)際吞吐量的核心引擎。無(wú)論是支撐 Megatron、vLLM、LMDeploy 等底層系統(tǒng),還是驅(qū)動(dòng) AI for Science (AI4S) 的復(fù)雜科學(xué)計(jì)算,高效的算子實(shí)現(xiàn)都是釋放硬件潛能的重中之重。

然而,盡管大模型的編程能力日益強(qiáng)大,但讓其自主生成高性能算子并穩(wěn)定應(yīng)用于真實(shí)生產(chǎn)環(huán)境,仍是一個(gè)未被全面攻克的行業(yè)難題。

當(dāng)前的算子開(kāi)發(fā)高度依賴(lài)工程師的經(jīng)驗(yàn)。一個(gè)高效的算子往往需要在眾多融合模式、Tiling 策略等實(shí)現(xiàn)方案中反復(fù)搜索與調(diào)試,而現(xiàn)有基于 LLM 的算子生成系統(tǒng),多依賴(lài)多輪對(duì)話(huà)或基于歷史的 Agent 循環(huán),這帶來(lái)了兩大挑戰(zhàn):

路徑依賴(lài)與試錯(cuò)成本高: 傳統(tǒng)的 Debug 過(guò)程容易讓模型“錨定”在早期的錯(cuò)誤決策上,限制了探索的多樣性。

“寫(xiě)對(duì)”不等于“跑得快”: 功能上的正確性與極致的性能是兩種完全不同的能力。模型不僅需要一次性生成正確的代碼,更需要具備在測(cè)試階段通過(guò)持續(xù)迭代,不斷提升算子性能的能力。

兩大創(chuàng)新設(shè)計(jì)

為了解決這些問(wèn)題,研究團(tuán)隊(duì)創(chuàng)新地提出一個(gè)統(tǒng)一的進(jìn)化智能體與強(qiáng)化訓(xùn)練框架。

核心設(shè)計(jì)一:構(gòu)建穩(wěn)定評(píng)估驅(qū)動(dòng)的進(jìn)化智能體。

進(jìn)化搜索天然適合算子優(yōu)化,因?yàn)樗梢酝ㄟ^(guò)維護(hù)一個(gè)候選程序池,在多輪迭代中不斷累積性能增益。然而,這一過(guò)程對(duì)“評(píng)測(cè)方差”極其敏感:如果 GPU 運(yùn)行時(shí)間測(cè)量存在噪聲,智能體可能會(huì)誤刪極具潛力的算子,或者保留次優(yōu)解,這種錯(cuò)誤會(huì)在代際之間不斷放大。

為此,Kernel-Smith 在智能體設(shè)計(jì)上將“評(píng)測(cè)穩(wěn)定性”放在首位。通過(guò)固定計(jì)算圖、重復(fù)測(cè)量以及異常值剔除等機(jī)制,大幅抑制了計(jì)時(shí)噪聲,確保了進(jìn)化搜索動(dòng)態(tài)的可靠性。同時(shí),研究團(tuán)隊(duì)還為 NVIDIA Triton 和 MetaX Maca GPU 構(gòu)建了專(zhuān)屬的后端評(píng)估服務(wù),提供編譯、正確性和加速比的結(jié)構(gòu)化執(zhí)行反饋。

核心設(shè)計(jì)二:化長(zhǎng)為短,面向進(jìn)化的后訓(xùn)練策略。在模型訓(xùn)練層面,Kernel-Smith 將訓(xùn)練定義為進(jìn)化循環(huán)中的“局部?jī)?yōu)化器(Local Improver)”。

具體而言,研究團(tuán)隊(duì)將長(zhǎng)周期的進(jìn)化軌跡轉(zhuǎn)化為以“步驟”為中心的監(jiān)督與強(qiáng)化學(xué)習(xí)信號(hào)。算法只保留那些“在保證正確性的前提下,帶來(lái)了高收益性能提升”的修改步驟。通過(guò)這一設(shè)計(jì),Kernel-Smith 不僅提升了單步修改的代碼質(zhì)量,更大幅提高了進(jìn)化搜索中性能增益的復(fù)合增長(zhǎng)率。

顯著性能優(yōu)勢(shì),超越頂尖閉源模型

得益于上述兩大核心設(shè)計(jì),Kernel-Smith 在實(shí)戰(zhàn)中展現(xiàn)出了顯著的性能優(yōu)勢(shì)。在統(tǒng)一的進(jìn)化智能體協(xié)議下,Kernel-Smith-235B-RL 在 KernelBench(Nvidia Triton 后端)上實(shí)現(xiàn)了整體性能的 SOTA。在嚴(yán)格保證功能正確性的前提下,其平均加速比不僅優(yōu)于所有開(kāi)源基線(xiàn)模型,還超越了 Gemini-3.0-pro 和 Claude-4.6-opus 等頂尖閉源大模型。

f4861ce4-2f43-11f1-90a1-92fbcf53809c.png

KernelBench-Triton 評(píng)測(cè)結(jié)果

更重要的是,評(píng)測(cè)曲線(xiàn)顯示,Kernel-Smith-235B-RL 的平均得分增長(zhǎng)曲線(xiàn)在整個(gè)搜索過(guò)程中始終處于領(lǐng)先地位(如下圖所示),這充分證明了該模型能夠最有效地利用測(cè)試時(shí)算力(Test-time Compute)實(shí)現(xiàn)性能躍升。

f4e419fc-2f43-11f1-90a1-92fbcf53809c.png

不同模型使用同樣的 KernelSmith Agent Framework,在 KernelBench-Triton 上的迭代增長(zhǎng)曲線(xiàn)圖

走出實(shí)驗(yàn)室,賦能前沿創(chuàng)新與生產(chǎn)級(jí)應(yīng)用

Kernel-Smith 生成的高性能優(yōu)化算子不僅成功賦能前沿架構(gòu)創(chuàng)新,加速了 DeepSeek 新架構(gòu) Engram 并合入 DLBlas 開(kāi)源算子庫(kù) ;更重要的是,它已順利落地主流生產(chǎn)級(jí)推理引擎,分別為 SGLang 優(yōu)化了 FlashAttention 后端的 normal_decode_set_metadata 算子,并為 LMDeploy 優(yōu)化了 DeepSeek MoE Routing 算子,真正實(shí)現(xiàn)了大模型自動(dòng)生成算子從實(shí)驗(yàn)室受控評(píng)估,到前沿模型研發(fā)與生產(chǎn)級(jí)部署的雙重跨越。

相關(guān) Pull Request 鏈接:

https://github.com/DeepLink-org/DLBlas/pull/102

https://github.com/sgl-project/sglang/pull/20778

https://github.com/InternLM/lmdeploy/pull/4345

在 NV-H200 硬件環(huán)境下的算子隔離評(píng)測(cè)中,Kernel-Smith 展現(xiàn)出顯著的 Test-Time Scaling 效應(yīng):隨著演化迭代的深入,算子性能實(shí)現(xiàn)持續(xù)增長(zhǎng)。

f5a77280-2f43-11f1-90a1-92fbcf53809c.png

算子進(jìn)化迭代曲線(xiàn)圖

在主流推理引擎的實(shí)際落地中,Kernel-Smith 自動(dòng)生成的算子為 SGLang 和 LMDeploy 分別帶來(lái)了 4.78x 和 1.36x 的真實(shí)加速收益。在 DeepSeek Engram 復(fù)雜場(chǎng)景的深度探索中,模型成功跨越局部最優(yōu)解,觸發(fā)了從 5 倍到 12 倍以上的突破性性能躍升,最終達(dá)到 14.59x 加速。

f5fe9768-2f43-11f1-90a1-92fbcf53809c.png

算子隔離評(píng)測(cè)結(jié)果

同時(shí),研究團(tuán)隊(duì)在社區(qū)率先將自動(dòng)化算子評(píng)測(cè)擴(kuò)展至端到端模型吞吐。Kernel-Smith 生成的算子不僅穩(wěn)定提升了 LMDeploy 的端到端吞吐(最高約3%),還可靠地降低了 SGLang 的真實(shí)服務(wù)延遲。這驗(yàn)證了生成代碼在復(fù)雜系統(tǒng)中的魯棒性,也為自動(dòng)化算子在生產(chǎn)級(jí)引擎中的端到端集成提供了可行的實(shí)踐參考。

f658c58a-2f43-11f1-90a1-92fbcf53809c.png

LMDeploy 端到端模型吞吐評(píng)測(cè)

結(jié)語(yǔ)

沐曦股份堅(jiān)持“自主創(chuàng)新+開(kāi)放兼容”的雙軌并行路線(xiàn),在底層硬件完成突破的同時(shí),致力于圍繞MXMACA軟件棧, 打造一個(gè)開(kāi)放、自主、全棧兼容的智能計(jì)算生態(tài),公司的目標(biāo)是將建成人工智能時(shí)代的“Android”。

目前,MXMACA軟件棧不僅深度兼容主流GPU生態(tài),還支持40多種AI框架,覆蓋訓(xùn)練、推理、科學(xué)計(jì)算全場(chǎng)景,可大福降低開(kāi)發(fā)者的生態(tài)遷移成本。同時(shí)可支持500多款A(yù)I模型、4500多個(gè)開(kāi)源項(xiàng)目軟件兼容測(cè)試,覆蓋95%的主流AI場(chǎng)景。此前已支持國(guó)內(nèi)多款A(yù)I模型的“Day0適配”、實(shí)現(xiàn)即插即用。MXMACA開(kāi)源社區(qū)也于去年開(kāi)放,截至2026年3月13日,軟件棧注冊(cè)用戶(hù)已超過(guò)30萬(wàn)人。

此次合作,既是MXMACA軟件棧生態(tài)的價(jià)值體現(xiàn),也為公司持續(xù)深耕AI算力基礎(chǔ)設(shè)施、推動(dòng)高性能計(jì)算技術(shù)產(chǎn)業(yè)化升級(jí)奠定了堅(jiān)實(shí)基礎(chǔ),未來(lái)雙方將繼續(xù)深化協(xié)同,依托Kernel-Smith與MXMACA的技術(shù)合力,為AI大模型、科學(xué)計(jì)算等領(lǐng)域提供更高效、更可靠的算力解決方案。

關(guān)于沐曦股份

沐曦股份致力于自主研發(fā)全棧高性能GPU芯片及計(jì)算平臺(tái),為智算、通用計(jì)算、云渲染等前沿領(lǐng)域提供高能效、高通用性的算力支撐,助力數(shù)字經(jīng)濟(jì)發(fā)展。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5268

    瀏覽量

    136058
  • 人工智能
    +關(guān)注

    關(guān)注

    1820

    文章

    50304

    瀏覽量

    266859
  • 沐曦
    +關(guān)注

    關(guān)注

    1

    文章

    98

    瀏覽量

    1876

原文標(biāo)題:沐曦股份聯(lián)合上海人工智能實(shí)驗(yàn)室發(fā)布高性能GPU算子生成系統(tǒng)Kernel-Smith

文章出處:【微信號(hào):沐曦MetaX,微信公眾號(hào):沐曦MetaX】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    股份參與編撰的超節(jié)點(diǎn)技術(shù)體系白皮書(shū)正式發(fā)布

    第二屆浦江AI學(xué)術(shù)年會(huì)于近日舉行。會(huì)上,由上海人工智能實(shí)驗(yàn)室DeepLink團(tuán)隊(duì)牽頭,股份作為核心產(chǎn)業(yè)伙伴深度參與編撰的《超節(jié)點(diǎn)技術(shù)體系
    的頭像 發(fā)表于 04-03 15:18 ?489次閱讀

    壁仞科技與上海人工智能實(shí)驗(yàn)室合作推出全新DeepLink混推方案

    近日,上海人工智能實(shí)驗(yàn)室推出DeepLink多元算力混合推理加速方案(以下簡(jiǎn)稱(chēng)“DeepLink混推方案”),首次實(shí)現(xiàn)對(duì)壁仞科技等四家國(guó)產(chǎn)算力廠(chǎng)商多款芯片的混合調(diào)度與協(xié)同推理。
    的頭像 發(fā)表于 03-10 16:38 ?1257次閱讀
    壁仞科技與<b class='flag-5'>上海人工智能</b><b class='flag-5'>實(shí)驗(yàn)室</b>合作推出全新DeepLink混推方案

    股份CXO預(yù)科班2026冬令營(yíng)圓滿(mǎn)收官

    2月6日,由集成電路(上海股份有限公司(股票代碼:688802,簡(jiǎn)稱(chēng)“
    的頭像 發(fā)表于 02-25 16:29 ?1280次閱讀

    壁仞科技與階躍星辰及上海儀電智算服務(wù)成立人工智能聯(lián)合實(shí)驗(yàn)室

    2月2日,壁仞科技(06082.HK)與上海儀電旗下智算服務(wù)、階躍星辰攜手打造的人工智能聯(lián)合實(shí)驗(yàn)室正式揭牌。人工智能
    的頭像 發(fā)表于 02-04 10:14 ?426次閱讀

    股份正式推出索X系列全新GPU品牌與產(chǎn)品線(xiàn)

    1月27日,股份(股票代碼:688802.SH)正式推出索X系列全新GPU品牌與產(chǎn)品線(xiàn)。該系列產(chǎn)品是面向科學(xué)
    的頭像 發(fā)表于 01-28 17:14 ?840次閱讀

    股份與江南大學(xué)建立聯(lián)合研究中心

    近日,教育部哲學(xué)社會(huì)科學(xué)實(shí)驗(yàn)室“食品安全與國(guó)家戰(zhàn)略治理實(shí)驗(yàn)室”揭牌暨合作簽約儀式、學(xué)術(shù)委員會(huì)會(huì)議在無(wú)錫隆重舉行。活動(dòng)現(xiàn)場(chǎng),集成電路(上海
    的頭像 發(fā)表于 01-21 17:25 ?1591次閱讀

    DLInfer聯(lián)手股份實(shí)現(xiàn)數(shù)據(jù)生成場(chǎng)景的實(shí)際落地

    近期,上海 AI 實(shí)驗(yàn)室 DeepLink 團(tuán)隊(duì)推出的 DLInfer 通過(guò)支持 LMDeploy 主流模型推理,助力股份
    的頭像 發(fā)表于 12-09 14:55 ?859次閱讀
    DLInfer聯(lián)手<b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b>實(shí)現(xiàn)數(shù)據(jù)<b class='flag-5'>生成</b>場(chǎng)景的實(shí)際落地

    瀚海量子與股份達(dá)成戰(zhàn)略合作 量子計(jì)算軟件領(lǐng)軍者+高性能GPU芯片領(lǐng)軍者

    當(dāng)量子計(jì)算軟件領(lǐng)軍者遇上高性能GPU芯片領(lǐng)軍者,國(guó)產(chǎn)算力領(lǐng)域迎來(lái)一項(xiàng)重磅合作。 近日, 合肥瀚海量子科技有限公司(簡(jiǎn)稱(chēng)“瀚海量子”)與集成電路(
    的頭像 發(fā)表于 11-24 19:02 ?3372次閱讀

    股份上海電信完成首期GPU生態(tài)專(zhuān)家認(rèn)證培訓(xùn)

    近期,集成電路(上海股份有限公司(以下簡(jiǎn)稱(chēng)“股份
    的頭像 發(fā)表于 10-31 10:33 ?648次閱讀

    強(qiáng)強(qiáng)聯(lián)合:之江實(shí)驗(yàn)室股份共建智算集群聯(lián)合實(shí)驗(yàn)室

    2025年10月22日, 之江實(shí)驗(yàn)室集成電路(上海股份有限公司(以下簡(jiǎn)稱(chēng)“
    的頭像 發(fā)表于 10-23 10:50 ?1542次閱讀

    首款全國(guó)產(chǎn)通用GPU芯片發(fā)布 集成推出云C600

    集成電路(南京)有限公司近日正式發(fā)布了首款全國(guó)產(chǎn)通用GPU——云C600,這標(biāo)志著國(guó)產(chǎn)高性能
    的頭像 發(fā)表于 10-19 20:04 ?4.7w次閱讀

    GPU與龍蜥操作系統(tǒng)完成適配

    集成電路(上海股份有限公司(以下簡(jiǎn)稱(chēng)"")于 2020 年 9 月成立于
    的頭像 發(fā)表于 10-17 15:06 ?1378次閱讀

    液冷算力新標(biāo)桿!科華數(shù)據(jù)聯(lián)合股份在世界人工智能大會(huì)首發(fā)高密度液冷算力POD

    ,科華數(shù)據(jù)與股份聯(lián)合推出的高密度液冷算力POD首次亮相,吸引了大量參會(huì)者駐足交流。該產(chǎn)品是科華數(shù)據(jù)專(zhuān)為
    的頭像 發(fā)表于 07-29 15:57 ?1200次閱讀
    液冷算力新標(biāo)桿!科華數(shù)據(jù)<b class='flag-5'>聯(lián)合</b><b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b>在世界<b class='flag-5'>人工智能</b>大會(huì)首發(fā)高密度液冷算力POD

    上海儀電聯(lián)合智科技、壁仞科技、中興通訊發(fā)布國(guó)內(nèi)首個(gè)光互連光交換GPU超節(jié)點(diǎn)——光躍LightSphere X

    【2025年7月28日,上海】在2025世界人工智能大會(huì)(WAIC)“智算云啟,共繪生態(tài)”論壇上,上海儀電(集團(tuán))有限公司(以下簡(jiǎn)稱(chēng)“上海儀電”)聯(lián)
    發(fā)表于 07-28 21:26 ?1791次閱讀
    <b class='flag-5'>上海</b>儀電<b class='flag-5'>聯(lián)合</b><b class='flag-5'>曦</b>智科技、壁仞科技、中興通訊<b class='flag-5'>發(fā)布</b>國(guó)內(nèi)首個(gè)光互連光交換<b class='flag-5'>GPU</b>超節(jié)點(diǎn)——光躍LightSphere X

    亮相2025世界人工智能大會(huì)

    近日,2025世界人工智能大會(huì)(WAIC)核心分論壇在上海世博中心盛大啟幕。集成電路(上海股份
    的頭像 發(fā)表于 07-28 18:08 ?4804次閱讀