近日,深度求索正式開源全新系列模型DeepSeek-V4。瀚博半導體第一時間完成載天VA16加速卡的FP4+FP8 混合精度適配,加速大模型高并發(fā)、低成本落地。
DeepSeek-V4:百萬上下文時代的開源標桿
深度求索官方宣告,“從1M上下文開始將是DeepSeek所有官方服務的標配”,大模型正式邁入百萬長文本普惠時代。DeepSeek-V4 全系標配百萬token上下文窗口,采用混合注意力機制,相比 DeepSeek-V3.2 大幅降低單 token 推理 FLOPs 和 KV 緩存需求。結合壓縮稀疏注意力(CSA)與重度壓縮注意力(HCA),顯著提升長上下文處理效率,在 Agent 能力、世界知識和推理性能上均領先國內與開源模型。
在模型能力上,DeepSeek-V4-Pro性能比肩世界頂尖閉源模型。在 Agentic Coding 評測中已達到當前開源模型最佳水平;在數(shù)學、STEM、競賽型代碼的測評中,超越當前所有已公開評測的開源模型。DeepSeek-V4-Flash則由于模型參數(shù)和激活更小,提供更加快捷、經濟的 API 服務,簡單任務上與 Pro版 旗鼓相當。
瀚博VA16全棧支撐:
大顯存+FP4/FP8混合精度
要在部署端充分釋放DeepSeek-V4的上述能力,需要硬件側的原生支持。
瀚博載天VA16配備128GB超大顯存,為百萬token超長上下文的KV緩存提供充裕駐留空間。同時,VA16 支持FP4和FP8數(shù)據精度格式,顯著降低顯存占用、提升推理吞吐。配合兼容vLLM等主流框架的全棧軟件生態(tài),以及最高2TB總顯存的一體機私有化部署方案,開發(fā)者可快速實現(xiàn)從模型驗證到業(yè)務上線。
低精度革命的開篇
此次FP4+FP8 混合精度成功適配DeepSeek-V4,是瀚博半導體在低精度大模型適配領域的里程碑。面向百萬上下文普惠新時代,瀚博將持續(xù)攜手產業(yè)伙伴,加速大模型應用的高效、安全、規(guī)?;涞亍?/p>
-
開源
+關注
關注
3文章
4378瀏覽量
46491 -
模型
+關注
關注
1文章
3835瀏覽量
52293 -
DeepSeek
+關注
關注
2文章
859瀏覽量
3419
原文標題:瀚博VA16 FP4+FP8適配DeepSeek-V4,單機2TB顯存支持百萬上下文推理
文章出處:【微信號:瀚博半導體VastaiTech,微信公眾號:瀚博半導體VastaiTech】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
中軟國際極速部署DeepSeek-V4大模型
燧弘華創(chuàng)HonMaaS平臺深度適配DeepSeek-V4大模型
摩爾線程完成DeepSeek-V4全鏈路工程化適配:S5000基于MUSA+SGLang實現(xiàn)復雜MoE模型快速落地
云天勵飛完成DeepSeek-V4系列模型關鍵機制適配驗證
摩爾線程攜手智源人工智能研究院Day-0適配DeepSeek-V4 Pro和Flash雙模型
開放原子AtomGit平臺首發(fā)適配DeepSeek-V4系列模型
登臨科技GPU+架構深度適配DeepSeek-V4大模型
寒武紀Day 0適配DeepSeek-V4模型
華為云首發(fā)適配DeepSeek-V4模型
沐曦股份Day 0適配DeepSeek-V4-Flash模型
壁仞科技壁礪166系列GPU產品率先支持DeepSeek-V4模型
瀚博半導體載天VA16加速卡成功適配DeepSeek-V4大模型
評論