2026年4月24日,深度求索(DeepSeek)正式發(fā)布并開源新一代旗艦大模型DeepSeek-V4,同步帶來兩大重磅版本 —— 1.6T參數(shù)的DeepSeek-V4-Pro與284B參數(shù)的DeepSeek-V4-Flash,全系標(biāo)配百萬token長上下文能力,開啟大模型長文本普惠新時(shí)代。同日,開源社區(qū)已提交適配DeepSeek-V4的代碼。
作為國產(chǎn)高性能通用GPU的領(lǐng)軍者,蘇州登臨科技股份有限公司(以下簡稱“登臨科技”)一直緊密跟進(jìn)開源社區(qū)的前沿進(jìn)展,在DeepSeek-V4發(fā)布后,第一時(shí)間啟動(dòng)并完成了對(duì)其核心算子的深度適配工作,以實(shí)際行動(dòng)彰顯了對(duì)開源生態(tài)的堅(jiān)定支持與技術(shù)響應(yīng)速度。
01DeepSeek-V4:
開啟長文本處理新紀(jì)元
DeepSeek-V4的發(fā)布,標(biāo)志著大模型在長上下文處理能力上的一次飛躍。其核心亮點(diǎn)包括:
Agent 能力大幅提高:相比前代模型,DeepSeek-V4-Pro 的 Agent 能力顯著增強(qiáng)。在 Agentic Coding 評(píng)測(cè)中,V4-Pro 已達(dá)到當(dāng)前開源模型最佳水平,并在其他 Agent 相關(guān)評(píng)測(cè)中同樣表現(xiàn)優(yōu)異。
架構(gòu)創(chuàng)新:DeepSeek-V4 開創(chuàng)了一種全新的注意力機(jī)制,在 token 維度進(jìn)行壓縮,結(jié)合 DSA 稀疏注意力(DeepSeek Sparse Attention),實(shí)現(xiàn)了全球領(lǐng)先的長上下文能力,并且相比于傳統(tǒng)方法大幅降低了對(duì)計(jì)算和顯存的需求。
極致長上下文 :全系模型標(biāo)配1M(一百萬)上下文,為處理超長文檔、代碼庫、多輪對(duì)話等復(fù)雜任務(wù)提供了堅(jiān)實(shí)基礎(chǔ)。
這一模型的開源,迅速在AI社區(qū)引發(fā)廣泛關(guān)注。登臨科技敏銳捕捉到這一趨勢(shì),并將其視為檢驗(yàn)與提升自身技術(shù)棧的重要契機(jī)。
02登臨GPU+:
效率與通用的完美融合
登臨科技之所以能夠?qū)崿F(xiàn)對(duì)DeepSeek-V4等前沿模型的快速適配,其背后的核心技術(shù)引擎是自主研發(fā)的GPU+架構(gòu)。該架構(gòu)巧妙地融合了傳統(tǒng)GPU的通用性與ASIC的高效率,為AI應(yīng)用提供了從算力到能效的全面解決方案。
GPU+架構(gòu)的核心技術(shù)優(yōu)勢(shì)可概括為以下四個(gè)維度:
卓越能效比,降本增效的關(guān)鍵 :通過創(chuàng)新的可擴(kuò)展、軟件定義的片內(nèi)異構(gòu)體系結(jié)構(gòu),登臨GPU+架構(gòu)在典型AI場(chǎng)景的性能領(lǐng)先國際主流旗艦產(chǎn)品1.5-4.5倍,而能效比達(dá)到競(jìng)品的3-5倍。這意味著在同等算力下,登臨方案能顯著降低功耗,減少散熱需求,特別適用于高密度數(shù)據(jù)中心和邊緣側(cè)部署。其架構(gòu)優(yōu)勢(shì)如下圖所示。
高度生態(tài)兼容,降低遷移門檻 :登臨硬件原生兼容CUDA/OpenCL等現(xiàn)有軟件生態(tài),確??蛻衄F(xiàn)有的AI模型、開發(fā)工具鏈和人才儲(chǔ)備能夠無縫適配,極大節(jié)約了企業(yè)的移植成本和開發(fā)周期。登臨科技的產(chǎn)業(yè)生態(tài)涵蓋了從底層硬件到上層應(yīng)用的全鏈條,為大模型應(yīng)用提供了堅(jiān)實(shí)的生態(tài)基礎(chǔ)。
強(qiáng)大算力與大顯存支撐,應(yīng)對(duì)復(fù)雜任務(wù) :登臨納適II系列工業(yè)加速卡提供了從70 TOPS到560 TOPS的有效AI算力,以及8GB至128GB的大顯存配置。這為處理高分辨率圖像、復(fù)雜缺陷分類、3D點(diǎn)云分析等計(jì)算密集型任務(wù)提供了堅(jiān)實(shí)基礎(chǔ),能夠?qū)崿F(xiàn)像素級(jí)的精準(zhǔn)檢測(cè)和毫秒級(jí)實(shí)時(shí)推理。對(duì)于DeepSeek-V4而言,強(qiáng)大的算力支撐其復(fù)雜的推理邏輯,而大顯存則保證了其在處理長上下文和多任務(wù)并行時(shí)的流暢性。
全棧國產(chǎn)化與自主可控,保障供應(yīng)鏈安全 :登臨堅(jiān)持全鏈路自主創(chuàng)新,架構(gòu)、微架構(gòu)、運(yùn)算單元等核心IP全自研,已申請(qǐng)國內(nèi)外知識(shí)產(chǎn)權(quán)200余項(xiàng)。產(chǎn)品支持Windows、Linux、麒麟等操作系統(tǒng),兼容各類國產(chǎn)CPU,實(shí)現(xiàn)從硬件到軟件的全國產(chǎn)化,為客戶提供安全、穩(wěn)定、可持續(xù)的算力底座。
03快速響應(yīng)
完成DeepSeek-V4核心算子適配
在DeepSeek-V4開源發(fā)布后,登臨科技研發(fā)團(tuán)隊(duì)迅速行動(dòng)。通過緊密跟蹤開源社區(qū)的動(dòng)態(tài),并利用自身在GPU+架構(gòu)上的技術(shù)積累,成功完成了對(duì)DeepSeek-V4核心算子的適配工作。這一過程體現(xiàn)了登臨科技以下幾個(gè)方面的能力:
敏捷的技術(shù)響應(yīng)能力 :能夠在開源模型發(fā)布的第一時(shí)間進(jìn)行技術(shù)評(píng)估并啟動(dòng)適配工作,展現(xiàn)了對(duì)前沿技術(shù)的高度敏感和快速執(zhí)行能力。
深厚的算子優(yōu)化功底 :DeepSeek-V4作為新一代架構(gòu),其算子具有一定的新穎性。登臨科技團(tuán)隊(duì)?wèi){借對(duì)GPU計(jì)算架構(gòu)的深刻理解,成功攻克了算子適配的關(guān)鍵技術(shù)點(diǎn)。
完善的軟件生態(tài)體系 :基于GPU+架構(gòu)構(gòu)建的軟件棧,為快速集成和驗(yàn)證新算子提供了穩(wěn)定可靠的環(huán)境,加速了適配進(jìn)程。
登臨科技對(duì)DeepSeek-V4的快速適配,是國產(chǎn)高性能通用GPU與開源大模型生態(tài)深度融合的又一典范。它展示了登臨科技GPU+架構(gòu)在效率、通用、生態(tài)兼容和國產(chǎn)化方面的綜合優(yōu)勢(shì),以及其在大模型領(lǐng)域的快速響應(yīng)能力。
未來,登臨科技將持續(xù)深化GPU+架構(gòu)在各行業(yè)的應(yīng)用創(chuàng)新,致力于推動(dòng)AI視覺與大模型的深度融合,優(yōu)化AI模型部署與優(yōu)化門檻,為中國產(chǎn)業(yè)的高質(zhì)量發(fā)展與現(xiàn)代化轉(zhuǎn)型持續(xù)賦能,讓高性能、高效率、高可靠的國產(chǎn)算力真正服務(wù)于產(chǎn)業(yè)升級(jí),催生新質(zhì)生產(chǎn)力。
關(guān)于登臨科技
蘇州登臨科技股份有限公司是國內(nèi)首個(gè)實(shí)現(xiàn)規(guī)模商業(yè)落地的 GPU 企業(yè),專注于高性能通用 GPU 研發(fā)與應(yīng)用。以 “GPU+” 為技術(shù)核心,為智算中心、工業(yè)視覺、大模型、AIPC、智慧農(nóng)業(yè)等領(lǐng)域提供高效、通用、安全的算力解決方案,致力于成為 AI 產(chǎn)業(yè)化落地的關(guān)鍵算力基礎(chǔ)設(shè)施提供者。
-
登臨科技
+關(guān)注
關(guān)注
0文章
35瀏覽量
884 -
大模型
+關(guān)注
關(guān)注
2文章
3796瀏覽量
5275 -
DeepSeek
+關(guān)注
關(guān)注
2文章
855瀏覽量
3410
原文標(biāo)題:登臨GPU+:緊跟開源社區(qū)步伐,深度適配 DeepSeek-V4
文章出處:【微信號(hào):gh_313558c425fe,微信公眾號(hào):登臨科技 DenglinAI】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
云天勵(lì)飛完成DeepSeek-V4系列模型關(guān)鍵機(jī)制適配驗(yàn)證
摩爾線程TileLang-MUSA率先支持DeepSeek-V4全新TileKernels
開放原子AtomGit平臺(tái)首發(fā)適配DeepSeek-V4系列模型
寒武紀(jì)Day 0適配DeepSeek-V4模型
華為云首發(fā)適配DeepSeek-V4模型
沐曦股份Day 0適配DeepSeek-V4-Flash模型
燧原科技L600 FP8原生適配DeepSeek-V4-Pro/Flash模型
壁仞科技壁礪166系列GPU產(chǎn)品率先支持DeepSeek-V4模型
OpenClaw 全面接入DeepSeek-V4系列模型
榮耀YOYO首搭DeepSeek-V4大模型 重塑安卓端側(cè)AI新標(biāo)桿
海光信息DCU平臺(tái)完成對(duì)DeepSeek V4模型極速適配
登臨科技KS系列GPU產(chǎn)品深度適配阿里千問Qwen3.6大模型
登臨科技以創(chuàng)新GPU+架構(gòu)深度賦能華北區(qū)域智算中心
登臨科技KS系列GPU產(chǎn)品全面適配MiniMax M2.5模型
登臨科技GPU+架構(gòu)深度適配DeepSeek-V4大模型
評(píng)論