chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

寒武紀Day 0適配DeepSeek-V4模型

寒武紀開發(fā)者 ? 來源:寒武紀開發(fā)者 ? 2026-04-29 10:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2026年4月24日,寒武紀已基于vLLM推理框架完成對深度求索公司最新開源模型285B DeepSeek-V4-flash和1.6T DeepSeek-V4-pro的Day 0適配,適配代碼已開源到GitHub社區(qū)(點擊文末“閱讀原文”可直接跳轉(zhuǎn))。這一成果得益于寒武紀長期積累的自研NeuWare軟件生態(tài)與芯片設(shè)計技術(shù),也是寒武紀對芯片與算法聯(lián)合創(chuàng)新持續(xù)投入的延續(xù)。此前,寒武紀已對DeepSeek系列模型開展深入的軟硬件協(xié)同性能優(yōu)化,達成業(yè)界領(lǐng)先的算力利用率水平。

本次適配從“快速模型遷移”與”極致性能優(yōu)化*“兩個維度,充分展現(xiàn)了寒武紀的核心技術(shù)實力。

快速完成DeepSeek-V4新模型適配,實現(xiàn)Day 0首發(fā)

在軟件生態(tài)層面,寒武紀NeuWare軟件棧全面擁抱開源社區(qū),原生支持 PyTorch、vLLM、Diffusers等主流AI框架,新模型可快速遷移至寒武紀平臺;在國產(chǎn)軟件生態(tài)層面,寒武紀與眾智FlagOS生態(tài)持續(xù)深度合作,解耦模型與不同架構(gòu)芯片之間的生態(tài)壁壘,進一步降低模型適配遷移成本;在算子開發(fā)層面,寒武紀充分利用Triton良好的社區(qū)兼容性和易用性進行快速算子開發(fā)適配,進一步縮短功能適配周期;在AI協(xié)同層面,寒武紀研發(fā)了代碼生成智能體CNAgent,實現(xiàn)算子生成、模型遷移的全流程加速;在硬件層面,寒武紀芯片原生支持主流低精度數(shù)據(jù)格式,無需額外轉(zhuǎn)換即可快速完成功能適配與精度驗證。通過軟硬件協(xié)同,寒武紀在模型發(fā)布當日即可實現(xiàn)穩(wěn)定運行,真正做到Day 0適配。

極致性能優(yōu)化,釋放DeepSeek-V4推理潛能

針對DeepSeek-V4的新結(jié)構(gòu),寒武紀通過自研高性能融合算子庫Torch-MLU-Ops,對Compressor、mHC等模塊進行專項加速;利用BangC高性能編程語言,編寫稀疏/壓縮Attention、GroupGemm等熱點算子的極致優(yōu)化Kernel,充分釋放硬件底層性能。

在推理框架優(yōu)化層面,寒武紀在vLLM中全面支持TP/PP/SP/DP/EP5D混合并行、通信計算并行、低精度量化以及PD分離部署等優(yōu)化技術(shù),通過策略優(yōu)化,在滿足延時約束下達到最佳的詞元吞吐能力,顯著提升端到端推理效率。

硬件特性同樣被深度挖掘:利用MLU離散訪存與排序加速能力,有效加速稀疏Attention、Indexer等結(jié)構(gòu);高互聯(lián)帶寬與低通信延時,將Prefill和Decode兩種不同工作負載場景下的通信占比降至最低,最大化分布式推理的利用率。

正是這種軟硬件一體化的設(shè)計思路,使得寒武紀能夠在大模型部署中持續(xù)降低算力成本,提升性能上限。寒武紀將繼續(xù)深耕大模型軟硬件協(xié)同生態(tài),為開發(fā)者與客戶提供更快、更省、更高效的大模型部署方案。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3831

    瀏覽量

    52281
  • 寒武紀
    +關(guān)注

    關(guān)注

    13

    文章

    220

    瀏覽量

    75072
  • DeepSeek
    +關(guān)注

    關(guān)注

    2

    文章

    855

    瀏覽量

    3410

原文標題:寒武紀 Day 0 適配 DeepSeek-V4,共赴國產(chǎn)模芯協(xié)作新里程碑

文章出處:【微信號:Cambricon_Developer,微信公眾號:寒武紀開發(fā)者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    云天勵飛完成DeepSeek-V4系列模型關(guān)鍵機制適配驗證

    4月24日,DeepSeek-V4 系列模型發(fā)布。圍繞該模型 CSA/HCA 混合注意力機制帶來的新型計算需求,云天勵飛依托自研 GPNPU 架構(gòu)及 IFWA 智能融合軟件棧,通過 P
    的頭像 發(fā)表于 04-30 17:09 ?945次閱讀

    摩爾線程攜手智源人工智能研究院Day-0適配DeepSeek-V4 Pro和Flash雙模型

    4月24日,摩爾線程聯(lián)合北京智源人工智能研究院,基于旗艦級AI訓(xùn)推一體智算卡MTT S5000與FlagOS全棧軟件體系,完成DeepSeek-V4系列兩款模型推理“Day-0
    的頭像 發(fā)表于 04-30 16:30 ?289次閱讀

    摩爾線程攜手上海AI實驗室Day-0適配DeepSeek-V4核心算子

    今日,DeepSeek-V4預(yù)覽版正式發(fā)布并開源。摩爾線程攜手上海 AI 實驗室 DeepLink 團隊,通過大模型驅(qū)動的智能算子遷移系統(tǒng) KernelSwift,率先在旗艦級AI訓(xùn)推一體智算卡
    的頭像 發(fā)表于 04-30 16:24 ?322次閱讀

    摩爾線程TileLang-MUSA率先支持DeepSeek-V4全新TileKernels

    4月24日,摩爾線程宣布,其基于TileLang 0.1.8版本深度優(yōu)化并已成為TileLang官方主線版本的TileLang-MUSA,已率先在國產(chǎn)全功能GPU上,實現(xiàn)對DeepSeek-V4
    的頭像 發(fā)表于 04-30 16:17 ?184次閱讀

    模力方舟上線DeepSeek-V4系列大模型

    圍繞這一方向,DeepSeek 在今天上推出了DeepSeek-V4,現(xiàn)已在模力方舟正式上線。
    的頭像 發(fā)表于 04-30 10:35 ?221次閱讀
    模力方舟上線<b class='flag-5'>DeepSeek-V4</b>系列大<b class='flag-5'>模型</b>

    開放原子AtomGit平臺首發(fā)適配DeepSeek-V4系列模型

    2026年4月24日,DeepSeek-V4系列模型正式發(fā)布并同步開源。AtomGit平臺為DeepSeek-V4昇騰適配版本首發(fā)平臺,為開
    的頭像 發(fā)表于 04-29 16:12 ?618次閱讀

    登臨科技GPU+架構(gòu)深度適配DeepSeek-V4模型

    DeepSeek-V4-Flash,全系標配百萬token長上下文能力,開啟大模型長文本普惠新時代。同日,開源社區(qū)已提交適配DeepSeek-V4的代碼。 作為國產(chǎn)高性能通用GPU的
    的頭像 發(fā)表于 04-29 16:07 ?917次閱讀

    華為云首發(fā)適配DeepSeek-V4模型

    4月24日,DeepSeek-V4模型正式發(fā)布并開源,華為云首發(fā)適配。DeepSeek-V4擁有百萬Token超長上下文,在Agent能力、
    的頭像 發(fā)表于 04-28 17:01 ?451次閱讀

    沐曦股份Day 0適配DeepSeek-V4-Flash模型

    4月24日,沐曦股份攜手FlagOS,已完對DeepSeek最新開源的DeepSeek-V4-Flash模型Day
    的頭像 發(fā)表于 04-28 15:53 ?261次閱讀

    壁仞科技壁礪166系列GPU產(chǎn)品率先支持DeepSeek-V4模型

    4月24日,深度求索團隊宣布全新系列模型 DeepSeek-V4 的預(yù)覽版本正式上線并同步開源。依托成熟的BIRENSUPA軟件棧與自研GPU全棧智能體“AIModelMaster”,壁仞科技快速
    的頭像 發(fā)表于 04-28 14:04 ?474次閱讀
    壁仞科技壁礪166系列GPU產(chǎn)品率先支持<b class='flag-5'>DeepSeek-V4</b><b class='flag-5'>模型</b>

    榮耀YOYO首搭DeepSeek-V4模型 重塑安卓端側(cè)AI新標桿

    近日,榮耀YOYO接入DeepSeek-V4模型,標志著安卓陣營在AI智能助理領(lǐng)域?qū)崿F(xiàn)重大突破
    的頭像 發(fā)表于 04-28 09:17 ?615次閱讀

    海光信息DCU平臺完成對DeepSeek V4模型極速適配

      4月24日,深度求索正式發(fā)布并開源DeepSeek V4。海光DCU同步完成對DeepSeek V4
    的頭像 發(fā)表于 04-24 17:32 ?1611次閱讀

    寒武紀實現(xiàn)對GLM-5的Day 0適配

    的技術(shù)積累,寒武紀得以快速實現(xiàn)對 GLM-5 的 Day 0 適配。? 寒武紀一直重視芯片和算法的聯(lián)合創(chuàng)新,致力于以軟硬件協(xié)同的方式,優(yōu)化大
    的頭像 發(fā)表于 02-12 15:07 ?925次閱讀

    寒武紀成功適配DeepSeek-V3.2-Exp模型

    2025年9月29日,寒武紀已同步實現(xiàn)對深度求索公司最新模型DeepSeek-V3.2-Exp的適配,并開源大模型推理引擎vLLM-MLU源
    的頭像 發(fā)表于 10-11 17:14 ?1917次閱讀
    <b class='flag-5'>寒武紀</b>成功<b class='flag-5'>適配</b><b class='flag-5'>DeepSeek-V</b>3.2-Exp<b class='flag-5'>模型</b>

    寒武紀85后創(chuàng)始人陳天石身價超1500億

    芯片生產(chǎn)和DeepSeek適配國產(chǎn)芯片的利好刺激下,加之還有國外投行高盛宣布將寒武紀-U目標價上調(diào)50%至1835元,AI芯片龍頭寒武紀股價持續(xù)大漲。目前
    的頭像 發(fā)表于 08-26 10:37 ?7142次閱讀