chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

沐曦曦云C系列產(chǎn)品已支持TileLang

沐曦MetaX ? 來源:沐曦MetaX ? 2025-10-14 09:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一門由TileLang社區(qū)主導(dǎo)開發(fā)的編程語言,正悄然改變國產(chǎn)GPU的生態(tài)格局。

近日,DeepSeek宣布在其新版本中擁抱國產(chǎn)GPU語言TileLang,引發(fā)業(yè)界廣泛關(guān)注。作為國產(chǎn)高性能GPU的代表,沐曦曦云C系列產(chǎn)品已率先在這一新興開源社區(qū)獲得支持。TileLang項(xiàng)目是由TileLang社區(qū)主導(dǎo)開發(fā),旨在簡化高性能GPU/CPU內(nèi)核的開發(fā)。它采用Python式語法,讓開發(fā)者能夠?qū)W⒂谔岣呱a(chǎn)力,而無需犧牲實(shí)現(xiàn)最佳性能所需的底層優(yōu)化。

1生態(tài)破局:國產(chǎn)算力的協(xié)同前行

TileLang作為一種專門用來開發(fā)GPU內(nèi)核的領(lǐng)域?qū)S谜Z言,性能上可以對標(biāo)國際主流生態(tài)。DeepSeek官方推薦開發(fā)者使用該版本進(jìn)行實(shí)驗(yàn)性開發(fā),因其在調(diào)試便捷性與迭代速度上具備明顯優(yōu)勢。這一特性對正在積極構(gòu)建軟件生態(tài)的國產(chǎn)GPU廠商來說,無疑是重要機(jī)遇。

沐曦率先跟進(jìn)這一機(jī)遇。沐曦AI編譯器團(tuán)隊(duì)和TileLang社區(qū)合作已提前參與該項(xiàng)目,探討沐曦GPU與TileLang的適配。 這種與開源社區(qū)的緊密合作,顯著加快了沐曦曦云C系列產(chǎn)品融入主流開發(fā)生態(tài)的速度。

2生態(tài)適配:從追趕者到參與者

在算力領(lǐng)域,硬件性能只是基礎(chǔ),軟件生態(tài)才是決定成敗的關(guān)鍵。沐曦MXMACA軟件棧作為連接硬件與應(yīng)用的橋梁,其兼容性與性能直接關(guān)系到用戶體驗(yàn)。目前沐曦MXMACA軟件棧已實(shí)現(xiàn)對主流國際主流生態(tài)的兼容,原生支持PyTorch、TensorFlow及國產(chǎn)框架。這種兼容性設(shè)計(jì)讓開發(fā)者能夠幾乎無成本地將現(xiàn)有項(xiàng)目遷移到MXMACA軟件棧。

如今,MXMACA對TileLang社區(qū)的快速支持更進(jìn)一步,體現(xiàn)了沐曦在開源生態(tài)建設(shè)上的敏銳度。TileLang作為重要的AI計(jì)算編譯器項(xiàng)目,其對MXMACA的支持不僅減少了開發(fā)者適配工作量,更打通了沐曦硬件與現(xiàn)代化AI編譯工具鏈的通道。

在WAIC 2025期間,沐曦聯(lián)合創(chuàng)始人、CTO兼首席軟件架構(gòu)師楊建曾明確表示,“GPU芯片的價(jià)值發(fā)揮離不開軟件驅(qū)動(dòng),從底層驅(qū)動(dòng)、中間框架到上層應(yīng)用,形成完整鏈條”。 這一理念正在通過實(shí)際的開源貢獻(xiàn)得以踐行。

3開發(fā)效率:TileLang的革命性突破

TileLang最顯著的優(yōu)勢在于大幅提升GPU內(nèi)核的開發(fā)效率。TileLang實(shí)現(xiàn)FlashAttention算子開發(fā),代碼量從500+行減少至80行,并保持了與官方版本持平的性能。這種代碼量的大幅減少不僅降低了開發(fā)門檻,也提高了維護(hù)性和可讀性。

有開發(fā)者感嘆TileLang是一種非常優(yōu)雅的語言,只需不到100行代碼就能寫出比Flash Attention 2原版快30%。這種開發(fā)效率與性能兼得的特點(diǎn),正是TileLang引發(fā)關(guān)注的重要原因。

TileLang提供了三個(gè)不同層次的編程接口,滿足從初學(xué)者到專家不同水平開發(fā)者的需求。 這種分層設(shè)計(jì)使曦云C系列的開發(fā)者能夠根據(jù)自身熟練程度,選擇合適的切入點(diǎn)進(jìn)行算子開發(fā)與優(yōu)化。

4實(shí)戰(zhàn)驗(yàn)證:從原型到產(chǎn)品的性能表現(xiàn)

DeepSeek選擇TileLang并非偶然,而是基于實(shí)際性能驗(yàn)證。具體的性能數(shù)據(jù)來自TileLang以DeepSeek發(fā)布的FlashMLA內(nèi)核作為評測基準(zhǔn)的實(shí)驗(yàn):在英偉達(dá)H100上的MLA解碼速度,TileLang編寫的內(nèi)核做到與FlashMLA相當(dāng)。這一結(jié)果證明了TileLang在性能上具備與國際先進(jìn)產(chǎn)品競爭的實(shí)力。DeepSeek v3.2也驗(yàn)證了TileLang確實(shí)可以用來訓(xùn)練模型。 這一實(shí)踐意義重大,表明了TileLang已從實(shí)驗(yàn)階段走向?qū)嶋H生產(chǎn)應(yīng)用。

沐曦開源的TileLang已發(fā)布在gitee倉庫【mcTileLang】,基于TileLang已有的優(yōu)化效果詳細(xì)性能如下:

70ef6956-9e0e-11f0-8c8f-92fbcf53809c.png

表1 測試數(shù)據(jù)及性能

可以預(yù)期在常用核心算子上將有與國際領(lǐng)先產(chǎn)品競爭甚至超越的表現(xiàn),期待開源社區(qū)一起共建和持續(xù)更新。

4在線體驗(yàn):模力方舟曦云C系列體驗(yàn)

為了讓開發(fā)者更便捷地體驗(yàn)TileLang在曦云C系列上的性能表現(xiàn),沐曦已在模力方舟平臺(tái)提供在線體驗(yàn)環(huán)境。這一平臺(tái)將提供預(yù)配置的開發(fā)環(huán)境,讓開發(fā)者無需自行搭建硬件平臺(tái),即可體驗(yàn)TileLang在曦云C系列上的算子開發(fā)和優(yōu)化過程。

從芯片到編譯器,從硬件到生態(tài),沐曦曦云C系列產(chǎn)品與TileLang的快速適配展現(xiàn)了中國算力產(chǎn)業(yè)的新思路:不再單點(diǎn)突破,而是攜手開源生態(tài)共進(jìn)。

沐曦曦云C系列產(chǎn)品在TileLang社區(qū)的支持只是國產(chǎn)GPU漫長征程中的一小步,卻是生態(tài)建設(shè)上質(zhì)變的一大步。當(dāng)開發(fā)者們在模力方舟平臺(tái)上輕點(diǎn)鼠標(biāo),就能在曦云系列上運(yùn)行優(yōu)化后的TileLang代碼,那種生態(tài)隔閡的堅(jiān)冰正悄然消融。

未來的算力格局,注定是多元共存、開源生態(tài)共榮的圖景。

關(guān)于沐曦

沐曦致力于自主研發(fā)全棧高性能GPU芯片及計(jì)算平臺(tái),為智算、通用計(jì)算、云渲染等前沿領(lǐng)域提供高能效、高通用性的算力支撐,助力數(shù)字經(jīng)濟(jì)發(fā)展。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5035

    瀏覽量

    133674
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3874

    瀏覽量

    45155
  • 沐曦
    +關(guān)注

    關(guān)注

    0

    文章

    44

    瀏覽量

    1590
  • DeepSeek
    +關(guān)注

    關(guān)注

    2

    文章

    820

    瀏覽量

    2537

原文標(biāo)題:沐曦已支持TileLang,性能比肩國際主流

文章出處:【微信號:沐曦MetaX,微信公眾號:沐曦MetaX】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    聯(lián)合香港科技大學(xué)登上AI頂會(huì)

    近日,PDE-AI Solution團(tuán)隊(duì)與香港科技大學(xué)合作,在兩大人工智能頂級會(huì)議NeurIPS2025與EMNLP 2025上發(fā)表重要研究成果,涵蓋大語言模型(LLM)的多樣化解碼與高效訓(xùn)練優(yōu)化方向,展現(xiàn)了中國企業(yè)在AI基礎(chǔ)研究領(lǐng)域的持續(xù)創(chuàng)新力。
    的頭像 發(fā)表于 10-14 09:46 ?209次閱讀

    與百度飛槳PaddleScience實(shí)現(xiàn)全面深度適配

    近日,WAVE SUMMIT深度學(xué)習(xí)開發(fā)者大會(huì)2025硬件分論壇在北京·望京凱悅酒店二層成功舉辦。本次論壇以“軟硬協(xié)同 模力無限”為主題,匯聚中國信息通信研究院、英特爾、安謀科技、、天數(shù)智芯
    的頭像 發(fā)表于 09-29 11:41 ?531次閱讀

    書生大模型實(shí)戰(zhàn)營魔樂專場MeetUP精彩回顧

    近日,由書生大模型社區(qū)、、魔樂社區(qū)、算豐和 DaoCloud 道客等聯(lián)合打造的「書生大模型實(shí)戰(zhàn)營魔樂專場 MeetUP 暨頒獎(jiǎng)儀式」在上海漕河涇國際孵化中心圓滿落幕。
    的頭像 發(fā)表于 08-20 11:33 ?666次閱讀

    全鏈路算力方案亮相WAIC 2025

    以“智能時(shí)代 同球共濟(jì)”為主題的2025世界人工智能大會(huì)(WAIC)于7月26日在上海開幕,全球人工智能領(lǐng)域的技術(shù)創(chuàng)新與產(chǎn)業(yè)實(shí)踐成為焦點(diǎn)。集成電路(上海)股份有限公司(以下簡稱“
    的頭像 發(fā)表于 08-01 11:58 ?5764次閱讀

    液冷算力新標(biāo)桿!科華數(shù)據(jù)聯(lián)合股份在世界人工智能大會(huì)首發(fā)高密度液冷算力POD

    ,科華數(shù)據(jù)與股份聯(lián)合推出的高密度液冷算力POD首次亮相,吸引了大量參會(huì)者駐足交流。該產(chǎn)品是科華數(shù)據(jù)專為高性能GPU服務(wù)器集群自主研發(fā)
    的頭像 發(fā)表于 07-29 15:57 ?519次閱讀
    液冷算力新標(biāo)桿!科華數(shù)據(jù)聯(lián)合<b class='flag-5'>沐</b><b class='flag-5'>曦</b>股份在世界人工智能大會(huì)首發(fā)高密度液冷算力POD

    亮相2025世界人工智能大會(huì)

    子技術(shù)標(biāo)準(zhǔn)化研究院、上海市算力網(wǎng)絡(luò)協(xié)會(huì)等權(quán)威機(jī)構(gòu),匯聚院士、政府領(lǐng)導(dǎo)、頭部企業(yè)CTO及學(xué)術(shù)領(lǐng)袖共話AI算力未來。論壇現(xiàn)場重磅發(fā)布基于國產(chǎn)供應(yīng)鏈的旗艦GPUC600,首發(fā)訓(xùn)推一體技術(shù)全棧方案,聚焦“開源生態(tài)”與“訓(xùn)推能力”兩大
    的頭像 發(fā)表于 07-28 18:08 ?4222次閱讀

    硅基流動(dòng)攜手首發(fā)基于的Kimi K2推理服務(wù)

    今天,硅基流動(dòng)聯(lián)合集成電路(上海)股份有限公司(簡稱“”),全球首發(fā)基于
    的頭像 發(fā)表于 07-23 17:33 ?1352次閱讀

    PaddleScience完成與AI芯片適配

    當(dāng)前,PaddleScience已與展開深度合作,涵蓋智能仿真、高性能計(jì)算、科學(xué)建模等多個(gè)方向。這一趨勢正加速形成面向"Al for Science"的國產(chǎn)智算生態(tài)新格局。
    的頭像 發(fā)表于 05-06 14:49 ?1109次閱讀

    C500通用計(jì)算GPU與百度飛槳完成Ⅱ級兼容性測試

    近日,C500通用計(jì)算GPU與百度飛槳已完成Ⅱ級兼容性測試。測試結(jié)果顯示,雙方兼容性表現(xiàn)良好,整體運(yùn)行穩(wěn)定。這是
    的頭像 發(fā)表于 03-31 14:22 ?1233次閱讀

    加速DeepSeek滿血版單卡C500異構(gòu)推理

    近日,基于開源KTransformers架構(gòu)的 CPU/GPU 異構(gòu)推理能力,C500單卡GPU上成功實(shí)現(xiàn)DeepSeek-R1-
    的頭像 發(fā)表于 03-20 15:52 ?1656次閱讀

    Gitee AI 聯(lián)合首發(fā)全套 DeepSeek R1 千問蒸餾模型,全免費(fèi)體驗(yàn)!

    、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-32B四個(gè)較小尺寸的 DeepSeek 模型。值得關(guān)注的是, 本次上線的四個(gè)模型均部署在國產(chǎn)
    的頭像 發(fā)表于 02-10 09:56 ?979次閱讀
    Gitee AI 聯(lián)合<b class='flag-5'>沐</b><b class='flag-5'>曦</b>首發(fā)全套 DeepSeek R1 千問蒸餾模型,全免費(fèi)體驗(yàn)!

    澎峰科技與完成聯(lián)合測試,實(shí)現(xiàn)全面兼容

    近日,澎峰科技與科技宣布,雙方已完成對PerfXLM推理引擎、PerfXCloud大模型服務(wù)平臺(tái)與
    的頭像 發(fā)表于 01-21 15:20 ?851次閱讀

    澎峰科技計(jì)算軟件棧與GPU完成適配和互認(rèn)證

    ?近期,澎峰科技與完成了對PerfXLM(推理引擎)、PerfXCloud(大模型服務(wù)平臺(tái))與
    的頭像 發(fā)表于 01-21 09:51 ?945次閱讀

    國產(chǎn)智算集群黑馬!源一號SADA算力集群綜合評測表現(xiàn)優(yōu)異

    近日,加佳科技源一號SADA算力集群項(xiàng)目一期順利通過工信部中國軟件評測中心權(quán)威評測認(rèn)證。本次測試涵蓋了項(xiàng)目一期上線的1024張高性能GPU加速卡集群。評測結(jié)果顯示,該集群在生態(tài)
    的頭像 發(fā)表于 12-25 11:16 ?1085次閱讀
    國產(chǎn)智算集群黑馬!<b class='flag-5'>曦</b>源一號SADA算力集群綜合評測表現(xiàn)優(yōu)異

    華科技CVM012x系列車載觸控MCU榮獲ASIL-B功能安全認(rèn)證

    華科技在車載觸控MCU領(lǐng)域取得了重大突破,其CVM012x系列產(chǎn)品正式獲得國際公認(rèn)測試、檢驗(yàn)和認(rèn)證機(jī)構(gòu)SGS頒發(fā)的功能安全ASIL-B產(chǎn)品認(rèn)證證書。這一認(rèn)證標(biāo)志著華科技在車載觸控M
    的頭像 發(fā)表于 11-12 16:43 ?1185次閱讀