4月24日,DeepSeek-V4 系列模型發(fā)布。圍繞該模型 CSA/HCA 混合注意力機(jī)制帶來的新型計算需求,云天勵飛依托自研 GPNPU 架構(gòu)及 IFWA 智能融合軟件棧,通過 PyTorch 插件 torch_ifwa,完成了面向 GPNPU 平臺的關(guān)鍵機(jī)制適配驗證。
此次適配驗證主要面向 DeepSeek-V4 中 CSA/HCA 混合注意力機(jī)制的計算特征,驗證了 IFWA 軟件棧對新型注意力結(jié)構(gòu)的快速響應(yīng)能力,以及 GPNPU 架構(gòu)面向前沿大模型演進(jìn)的適配潛力。該進(jìn)展為后續(xù) DeepSeek-V4 系列模型在 GPNPU 平臺上的工程化部署、算子優(yōu)化和性能驗證奠定了基礎(chǔ)。
CSA/HCA 混合注意力機(jī)制:DeepSeek-V4長上下文效率優(yōu)化的重要創(chuàng)新
CSA/HCA 混合注意力機(jī)制,是 DeepSeek-V4 系列模型面向超長上下文推理效率優(yōu)化的重要架構(gòu)創(chuàng)新。
其中,CSA 即壓縮稀疏注意力,通過壓縮與稀疏選擇機(jī)制,減少長上下文場景中的冗余注意力計算;HCA 即重度壓縮注意力,通過更高比例的 KV 壓縮,在壓縮后的序列表示上執(zhí)行注意力計算,進(jìn)一步降低 KV cache 占用和計算開銷。二者協(xié)同作用,有助于在長上下文場景下降低推理成本、提升推理效率。
這一架構(gòu)變化對底層算力平臺提出了更高要求:一方面,需要芯片架構(gòu)具備對稀疏計算、動態(tài)訪存和不規(guī)則計算模式的支持能力;另一方面,也要求軟件棧能夠快速識別模型結(jié)構(gòu)變化,并將新的計算模式有效映射到目標(biāo)算力架構(gòu)之上。
IFWA軟件棧:提升前沿模型適配效率
面向 DeepSeek-V4 系列模型的結(jié)構(gòu)變化,云天勵飛 IFWA 智能融合軟件棧發(fā)揮了關(guān)鍵作用。
IFWA 通過 PyTorch 插件 torch_ifwa,面向模型計算圖和關(guān)鍵算子進(jìn)行適配,在盡量保持上層模型調(diào)用接口穩(wěn)定的前提下,推動 DeepSeek-V4 相關(guān)計算機(jī)制向 GPNPU 架構(gòu)映射,降低模型遷移與適配成本。
同時,IFWA 采用插件化、低侵入式的適配思路,可對接 vLLM、SGLang 等主流大模型推理框架,并盡量復(fù)用開發(fā)者在現(xiàn)有 AI 計算生態(tài)中的工程習(xí)慣,提升前沿模型向國產(chǎn)算力平臺遷移的便利性。
對開發(fā)者而言,這意味著未來在 GPNPU 平臺上部署前沿大模型時,可以通過軟件棧層面的適配機(jī)制,減少底層遷移工作量;對國產(chǎn) AI 算力生態(tài)而言,則意味著模型、推理框架、軟件棧與芯片架構(gòu)之間的協(xié)同效率有望進(jìn)一步提升。
面向國產(chǎn)算力生態(tài),增強(qiáng)模型適配敏捷性
隨著大模型技術(shù)持續(xù)演進(jìn),算力平臺的競爭已經(jīng)不再局限于單點硬件性能,而是走向芯片架構(gòu)、軟件棧、推理框架、模型適配效率和開發(fā)生態(tài)的系統(tǒng)性競爭。
此次 DeepSeek-V4 系列模型關(guān)鍵機(jī)制適配驗證,是云天勵飛在 AI 軟件棧與 GPNPU 架構(gòu)協(xié)同設(shè)計方面的一項階段性技術(shù)進(jìn)展。通過 IFWA 智能融合軟件棧,云天勵飛進(jìn)一步驗證了面向前沿大模型快速適配的技術(shù)路徑,有助于縮短模型從發(fā)布到國產(chǎn)算力平臺部署驗證的周期。
未來,云天勵飛將繼續(xù)圍繞 GPNPU 架構(gòu)和 IFWA 智能融合軟件棧,推動更多前沿大模型在 GPNPU 平臺上的適配、優(yōu)化與驗證,助力國產(chǎn) AI 基礎(chǔ)設(shè)施加快走向可用、好用、易用。
-
模型
+關(guān)注
關(guān)注
1文章
3831瀏覽量
52281 -
云天勵飛
+關(guān)注
關(guān)注
0文章
186瀏覽量
12698 -
DeepSeek
+關(guān)注
關(guān)注
2文章
855瀏覽量
3410
原文標(biāo)題:云天勵飛 GPNPU 架構(gòu)與 IFWA 智能融合軟件棧完成 DeepSeek-V4 系列模型關(guān)鍵機(jī)制適配驗證
文章出處:【微信號:IntelliFusion2,微信公眾號:云天勵飛】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
摩爾線程攜手智源人工智能研究院Day-0適配DeepSeek-V4 Pro和Flash雙模型
摩爾線程攜手上海AI實驗室Day-0適配DeepSeek-V4核心算子
摩爾線程TileLang-MUSA率先支持DeepSeek-V4全新TileKernels
開放原子AtomGit平臺首發(fā)適配DeepSeek-V4系列模型
登臨科技GPU+架構(gòu)深度適配DeepSeek-V4大模型
寒武紀(jì)Day 0適配DeepSeek-V4模型
華為云首發(fā)適配DeepSeek-V4模型
沐曦股份Day 0適配DeepSeek-V4-Flash模型
壁仞科技壁礪166系列GPU產(chǎn)品率先支持DeepSeek-V4模型
云天勵飛完成DeepSeek-V4系列模型關(guān)鍵機(jī)制適配驗證
評論