2026年4月24日,寒武紀已基于vLLM推理框架完成對深度求索公司最新開源模型285B DeepSeek-V4-flash和1.6T DeepSeek-V4-pro的Day 0適配,適配代碼已開源到GitHub社區(qū)(點擊文末“閱讀原文”可直接跳轉(zhuǎn))。這一成果得益于寒武紀長期積累的自研NeuWare軟件生態(tài)與芯片設(shè)計技術(shù),也是寒武紀對芯片與算法聯(lián)合創(chuàng)新持續(xù)投入的延續(xù)。此前,寒武紀已對DeepSeek系列模型開展深入的軟硬件協(xié)同性能優(yōu)化,達成業(yè)界領(lǐng)先的算力利用率水平。
本次適配從“快速模型遷移”與”極致性能優(yōu)化*“兩個維度,充分展現(xiàn)了寒武紀的核心技術(shù)實力。
快速完成DeepSeek-V4新模型適配,實現(xiàn)Day 0首發(fā)
在軟件生態(tài)層面,寒武紀NeuWare軟件棧全面擁抱開源社區(qū),原生支持 PyTorch、vLLM、Diffusers等主流AI框架,新模型可快速遷移至寒武紀平臺;在國產(chǎn)軟件生態(tài)層面,寒武紀與眾智FlagOS生態(tài)持續(xù)深度合作,解耦模型與不同架構(gòu)芯片之間的生態(tài)壁壘,進一步降低模型適配遷移成本;在算子開發(fā)層面,寒武紀充分利用Triton良好的社區(qū)兼容性和易用性進行快速算子開發(fā)適配,進一步縮短功能適配周期;在AI協(xié)同層面,寒武紀研發(fā)了代碼生成智能體CNAgent,實現(xiàn)算子生成、模型遷移的全流程加速;在硬件層面,寒武紀芯片原生支持主流低精度數(shù)據(jù)格式,無需額外轉(zhuǎn)換即可快速完成功能適配與精度驗證。通過軟硬件協(xié)同,寒武紀在模型發(fā)布當日即可實現(xiàn)穩(wěn)定運行,真正做到Day 0適配。
極致性能優(yōu)化,釋放DeepSeek-V4推理潛能
針對DeepSeek-V4的新結(jié)構(gòu),寒武紀通過自研高性能融合算子庫Torch-MLU-Ops,對Compressor、mHC等模塊進行專項加速;利用BangC高性能編程語言,編寫稀疏/壓縮Attention、GroupGemm等熱點算子的極致優(yōu)化Kernel,充分釋放硬件底層性能。
在推理框架優(yōu)化層面,寒武紀在vLLM中全面支持TP/PP/SP/DP/EP5D混合并行、通信計算并行、低精度量化以及PD分離部署等優(yōu)化技術(shù),通過策略優(yōu)化,在滿足延時約束下達到最佳的詞元吞吐能力,顯著提升端到端推理效率。
硬件特性同樣被深度挖掘:利用MLU離散訪存與排序加速能力,有效加速稀疏Attention、Indexer等結(jié)構(gòu);高互聯(lián)帶寬與低通信延時,將Prefill和Decode兩種不同工作負載場景下的通信占比降至最低,最大化分布式推理的利用率。
正是這種軟硬件一體化的設(shè)計思路,使得寒武紀能夠在大模型部署中持續(xù)降低算力成本,提升性能上限。寒武紀將繼續(xù)深耕大模型軟硬件協(xié)同生態(tài),為開發(fā)者與客戶提供更快、更省、更高效的大模型部署方案。
-
模型
+關(guān)注
關(guān)注
1文章
3831瀏覽量
52281 -
寒武紀
+關(guān)注
關(guān)注
13文章
220瀏覽量
75072 -
DeepSeek
+關(guān)注
關(guān)注
2文章
855瀏覽量
3410
原文標題:寒武紀 Day 0 適配 DeepSeek-V4,共赴國產(chǎn)模芯協(xié)作新里程碑
文章出處:【微信號:Cambricon_Developer,微信公眾號:寒武紀開發(fā)者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
云天勵飛完成DeepSeek-V4系列模型關(guān)鍵機制適配驗證
摩爾線程攜手智源人工智能研究院Day-0適配DeepSeek-V4 Pro和Flash雙模型
摩爾線程攜手上海AI實驗室Day-0適配DeepSeek-V4核心算子
摩爾線程TileLang-MUSA率先支持DeepSeek-V4全新TileKernels
開放原子AtomGit平臺首發(fā)適配DeepSeek-V4系列模型
登臨科技GPU+架構(gòu)深度適配DeepSeek-V4大模型
華為云首發(fā)適配DeepSeek-V4模型
沐曦股份Day 0適配DeepSeek-V4-Flash模型
壁仞科技壁礪166系列GPU產(chǎn)品率先支持DeepSeek-V4模型
榮耀YOYO首搭DeepSeek-V4大模型 重塑安卓端側(cè)AI新標桿
海光信息DCU平臺完成對DeepSeek V4模型極速適配
寒武紀實現(xiàn)對GLM-5的Day 0適配
寒武紀成功適配DeepSeek-V3.2-Exp模型
寒武紀Day 0適配DeepSeek-V4模型
評論