chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

沐曦加速DeepSeek滿血版單卡C500異構(gòu)推理

沐曦MetaX ? 來(lái)源:沐曦MetaX ? 2025-03-20 15:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,基于開(kāi)源KTransformers架構(gòu)的 CPU/GPU 異構(gòu)推理能力,沐曦在曦云C500單卡GPU上成功實(shí)現(xiàn)DeepSeek-R1-671B滿血版單并發(fā)解碼吞吐16.5 tokens/s的優(yōu)異成績(jī),相比社區(qū)官方數(shù)據(jù)提升20%以上。

相比國(guó)際高端GPU八卡滿血版部署方案,本項(xiàng)目在單并發(fā)性能上具有極高的性價(jià)比。

KTransformers項(xiàng)目介紹

KTransformers (https://github.com/kvcache-ai/ktransformers)是由清華大學(xué) KVCache.AI 團(tuán)隊(duì)聯(lián)合趨境科技開(kāi)源的一套輕量化高性能模型推理框架,能夠在計(jì)算資源受限的場(chǎng)景下,通過(guò) CPU/GPU 異構(gòu)推理的方式更快速、更高效地實(shí)現(xiàn)大模型的本地推理。KTransformers旨在作為一個(gè)開(kāi)放的平臺(tái),用于試驗(yàn)創(chuàng)新的大型語(yǔ)言模型(LLM)推理優(yōu)化方案。同時(shí),KTransformers也計(jì)劃演進(jìn)成本地化中小并發(fā)場(chǎng)景下針對(duì)稀疏MoE模型最具性價(jià)比的開(kāi)源推理引擎,以及成為一個(gè)算子級(jí)優(yōu)化的集成實(shí)驗(yàn)平臺(tái)。沐曦正在做的工作非常符合開(kāi)源社區(qū)和KTransformers開(kāi)源項(xiàng)目的發(fā)展。

開(kāi)源合作內(nèi)容介紹

沐曦和KVCache.AI團(tuán)隊(duì)合作,通過(guò)對(duì)KTransformers模型框架進(jìn)行細(xì)致的分析和調(diào)整,團(tuán)隊(duì)成功達(dá)成了曦云C500與KTransformers的無(wú)縫對(duì)接,為進(jìn)一步性能優(yōu)化奠定了堅(jiān)實(shí)的基礎(chǔ)。

完成基本功能適配后,沐曦研發(fā)團(tuán)隊(duì)繼續(xù)對(duì)整個(gè)框架進(jìn)行了優(yōu)化。在深入研究了DeepSeek R1滿血版模型的計(jì)算特點(diǎn)和性能瓶頸,結(jié)合曦云C500的優(yōu)勢(shì),采用了一系列先進(jìn)的技術(shù)和算法,詳細(xì)如下:

1在KTransformers中加入了Multi-Token Prediction (MTP) 功能;

2加入了GPU fused MoE功能,該功能有效利用曦云C500 64GB的高帶寬顯存和高速FP16/BF16運(yùn)算能力,提升推理性能;

3配合自動(dòng)/手工算子融合技術(shù),高效的FP16/BF16精度Marlin算子(W4A16),以及經(jīng)過(guò)深度優(yōu)化的mcBLAS、PyTorch庫(kù)、FlashInfer庫(kù)。

此次合作不僅為KTransformers帶來(lái)了性能上的提升,更體現(xiàn)了開(kāi)源共創(chuàng)的價(jià)值:不同的團(tuán)隊(duì)和開(kāi)發(fā)者通過(guò)資源共享、經(jīng)驗(yàn)交流,共同推動(dòng)技術(shù)的進(jìn)步。沐曦和清華大學(xué)KVCache.AI團(tuán)隊(duì)的合作就是很好的例子,通過(guò)開(kāi)源倉(cāng)庫(kù)匯聚了各自的優(yōu)勢(shì),實(shí)現(xiàn)了技術(shù)上的突破,也為后續(xù)持續(xù)在開(kāi)源社區(qū)推理優(yōu)化提供了合作基礎(chǔ)。

通過(guò)開(kāi)源社區(qū)的共同努力,KTransformers將不斷提升其性能和功能,為更多的用戶提供優(yōu)質(zhì)的服務(wù)。同時(shí),這也將促進(jìn)整個(gè)人工智能行業(yè)的發(fā)展,推動(dòng)技術(shù)的不斷創(chuàng)新。單卡打開(kāi)DeepSeek R1滿血版并不斷地提升性能只是一個(gè)開(kāi)始,在開(kāi)源共創(chuàng)的道路上,我們將迎來(lái)更多的驚喜和突破,共同開(kāi)創(chuàng)國(guó)產(chǎn)算力生態(tài)和人工智能的無(wú)限未來(lái)。

關(guān)于沐曦

沐曦致力于為異構(gòu)計(jì)算提供安全可靠的GPU芯片及解決方案,打造全棧GPU芯片產(chǎn)品,推出曦思N系列GPU用于智算推理,曦云C系列GPU用于通用計(jì)算,以及曦彩G系列GPU用于圖形渲染,滿足“高能效”及“高通用性”的算力需求。沐曦產(chǎn)品均采用完全自主研發(fā)的GPU IP,擁有完全自主的指令集和架構(gòu),配以兼容主流GPU生態(tài)的完整軟件棧(MXMACA),具備高能效和高通用性的天然優(yōu)勢(shì),能夠?yàn)榭蛻魳?gòu)建軟硬件一體的全面生態(tài)解決方案,是“雙碳”背景下推動(dòng)數(shù)字經(jīng)濟(jì)建設(shè)和產(chǎn)業(yè)數(shù)字化、智能化轉(zhuǎn)型升級(jí)的算力基石。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5090

    瀏覽量

    134388
  • 開(kāi)源
    +關(guān)注

    關(guān)注

    3

    文章

    4018

    瀏覽量

    45537
  • 沐曦
    +關(guān)注

    關(guān)注

    0

    文章

    53

    瀏覽量

    1647
  • DeepSeek
    +關(guān)注

    關(guān)注

    2

    文章

    822

    瀏覽量

    2790

原文標(biāo)題:開(kāi)源賦能:沐曦聯(lián)合清華大學(xué)KVCache.AI團(tuán)隊(duì)加速DeepSeek滿血版單卡C500異構(gòu)推理

文章出處:【微信號(hào):沐曦MetaX,微信公眾號(hào):沐曦MetaX】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    首款全國(guó)產(chǎn)通用GPU芯片發(fā)布 集成推出C600

    集成電路(南京)有限公司近日正式發(fā)布了首款全國(guó)產(chǎn)通用GPU——C600,這標(biāo)志著國(guó)產(chǎn)高性能GPU實(shí)現(xiàn)歷史性突破。 據(jù)新華日?qǐng)?bào)報(bào)道顯示,
    的頭像 發(fā)表于 10-19 20:04 ?4.5w次閱讀

    GPU與龍蜥操作系統(tǒng)完成適配

    集成電路(上海)股份有限公司(以下簡(jiǎn)稱"")于 2020 年 9 月成立于上海,其擁有技術(shù)完備、設(shè)計(jì)和產(chǎn)業(yè)化經(jīng)驗(yàn)豐富的團(tuán)隊(duì),曾主導(dǎo)過(guò)十多款世界主流高性能 GPU 產(chǎn)品研發(fā)
    的頭像 發(fā)表于 10-17 15:06 ?784次閱讀

    C系列產(chǎn)品已支持TileLang

    近日,DeepSeek宣布在其新版本中擁抱國(guó)產(chǎn)GPU語(yǔ)言TileLang,引發(fā)業(yè)界廣泛關(guān)注。作為國(guó)產(chǎn)高性能GPU的代表,C系列產(chǎn)品已
    的頭像 發(fā)表于 10-14 09:25 ?570次閱讀
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>曦</b>云<b class='flag-5'>C</b>系列產(chǎn)品已支持TileLang

    硅基流動(dòng)攜手首發(fā)基于云的Kimi K2推理服務(wù)

    今天,硅基流動(dòng)聯(lián)合集成電路(上海)股份有限公司(簡(jiǎn)稱“”),全球首發(fā)基于
    的頭像 發(fā)表于 07-23 17:33 ?1543次閱讀

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    模態(tài)的技術(shù)特性,DeepSeek加速推動(dòng)AI在金融、政務(wù)、科研及網(wǎng)絡(luò)智能化等關(guān)鍵領(lǐng)域的深度應(yīng)用。 信而泰:AI推理引擎賦能網(wǎng)絡(luò)智能診斷新范式信而泰深度整合DeepSeek-R1大模型
    發(fā)表于 07-16 15:29

    Arm Neoverse N2平臺(tái)實(shí)現(xiàn)DeepSeek-R1滿血版部署

    頗具優(yōu)勢(shì)。Arm 攜手合作伙伴,在 Arm Neoverse N2 平臺(tái)上使用開(kāi)源推理框架 llama.cpp 實(shí)現(xiàn) DeepSeek-R1 滿血版的部署,目前已可提供線上服務(wù)。
    的頭像 發(fā)表于 07-03 14:37 ?953次閱讀
    Arm Neoverse N2平臺(tái)實(shí)現(xiàn)<b class='flag-5'>DeepSeek</b>-R1<b class='flag-5'>滿血</b>版部署

    潤(rùn)和軟件StackRUNS異構(gòu)分布式推理框架的應(yīng)用案例

    江蘇潤(rùn)和軟件股份有限公司(以下簡(jiǎn)稱“潤(rùn)和軟件”)自主研發(fā)的StackRUNS異構(gòu)分布式推理框架已在實(shí)際場(chǎng)景中取得顯著成效,成功應(yīng)用于大型園區(qū)多模態(tài)模型演練及高校滿血DeepSeek-
    的頭像 發(fā)表于 06-13 09:11 ?1070次閱讀
    潤(rùn)和軟件StackRUNS<b class='flag-5'>異構(gòu)</b>分布式<b class='flag-5'>推理</b>框架的應(yīng)用案例

    PaddleScience完成與AI芯片適配

    當(dāng)前,PaddleScience已與展開(kāi)深度合作,涵蓋智能仿真、高性能計(jì)算、科學(xué)建模等多個(gè)方向。這一趨勢(shì)正加速形成面向"Al for Science"的國(guó)產(chǎn)智算生態(tài)新格局。
    的頭像 發(fā)表于 05-06 14:49 ?1300次閱讀

    C500通用計(jì)算GPU與百度飛槳完成Ⅱ級(jí)兼容性測(cè)試

    近日,C500通用計(jì)算GPU與百度飛槳已完成Ⅱ級(jí)兼容性測(cè)試。測(cè)試結(jié)果顯示,雙方兼容性表現(xiàn)良好,整體運(yùn)行穩(wěn)定。這是
    的頭像 發(fā)表于 03-31 14:22 ?1462次閱讀

    壁仞科技支持DeepSeek-V3滿血版訓(xùn)練推理

    DeepSeek在開(kāi)源周開(kāi)源了部分關(guān)鍵模塊的代碼及推理系統(tǒng)參考架構(gòu),再次引發(fā)行業(yè)震動(dòng),但目前尚未開(kāi)源DeepSeek-V3 滿血版完整訓(xùn)練代碼。壁仞科技憑借八大自主創(chuàng)新技術(shù),實(shí)現(xiàn)
    的頭像 發(fā)表于 03-04 14:01 ?1900次閱讀

    省內(nèi)領(lǐng)先!南京率先引入DeepSeek滿血

    近期 “國(guó)民級(jí)AI”DeepSeek 正憑借低成本高性能的優(yōu)勢(shì) 激發(fā)一波新的創(chuàng)新浪潮 2025年2月14日,南京市數(shù)據(jù)局在南京市政務(wù)云的華為昇騰 910B虛擬化AI算力資源池內(nèi),成功部署上線滿血
    的頭像 發(fā)表于 02-19 13:55 ?1167次閱讀
    省內(nèi)領(lǐng)先!南京率先引入<b class='flag-5'>DeepSeek</b><b class='flag-5'>滿血</b>版

    探討DeepSeek-R1滿血版的推理部署與優(yōu)化策略

    TL;DR 春節(jié)假期開(kāi)始, 好像很多人都在開(kāi)始卷DeepSeek-R1的推理了. 渣B也被兄弟團(tuán)隊(duì)帶著一起卷了一陣, 其實(shí)推理中還有很多約束, 比較認(rèn)同的是章老師的一個(gè)觀點(diǎn): “推理
    的頭像 發(fā)表于 02-14 10:19 ?3171次閱讀
    探討<b class='flag-5'>DeepSeek</b>-R1<b class='flag-5'>滿血</b>版的<b class='flag-5'>推理</b>部署與優(yōu)化策略

    Gitee AI 聯(lián)合首發(fā)全套 DeepSeek R1 千問(wèn)蒸餾模型,全免費(fèi)體驗(yàn)!

    -R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-32B四個(gè)較小尺寸的 DeepSeek 模型。值得關(guān)注的是, 本次上線的四個(gè)模型
    的頭像 發(fā)表于 02-10 09:56 ?1086次閱讀
    Gitee AI 聯(lián)合<b class='flag-5'>沐</b><b class='flag-5'>曦</b>首發(fā)全套 <b class='flag-5'>DeepSeek</b> R1 千問(wèn)蒸餾模型,全免費(fèi)體驗(yàn)!

    澎峰科技與完成聯(lián)合測(cè)試,實(shí)現(xiàn)全面兼容

    近日,澎峰科技與科技宣布,雙方已完成對(duì)PerfXLM推理引擎、PerfXCloud大模型服務(wù)平臺(tái)與
    的頭像 發(fā)表于 01-21 15:20 ?958次閱讀

    澎峰科技計(jì)算軟件棧與GPU完成適配和互認(rèn)證

    ?近期,澎峰科技與完成了對(duì)PerfXLM(推理引擎)、PerfXCloud(大模型服務(wù)平臺(tái))與
    的頭像 發(fā)表于 01-21 09:51 ?1173次閱讀