2025年初,DeepSeek-V3與DeepSeek-R1推理模型的開源引爆了AI社區(qū),這兩款產品作為通用千億級模型與專用推理優(yōu)化模型,為全球AI技術生態(tài)帶來重大變革,不僅展示了中國AGI技術的突破性進展,而且開源模型發(fā)展帶來部署成本的極速下降,為定制化AGI服務,推理本地化部署,帶來發(fā)展機遇,也掀起了新的一輪智算基礎設施建設浪潮。
與按Token生成數量計費的AI云服務模式不同,出于數據安全的考慮,很多用戶選擇采用本地化部署推理集群的方式將AI能力集成到當前業(yè)務流中。由于整個推理應用的業(yè)務鏈條非常長,本地化部署需要綜合考慮如下各個方面與需求的匹配度:
硬件與基礎設施規(guī)劃:包括GPU與專用芯片選型、網絡架構優(yōu)化與隔離、存儲方案評估
模型優(yōu)化與部署策略:包括量化壓縮等推理加速技術選型、資源動態(tài)調度技術等
安全與合規(guī)性:需要綜合考慮數據使用的便捷性與合規(guī)要求
高可用與容災設計:包括故障自愈方案、數據備份等
成本控制:根據業(yè)務使用模式合理制定需求規(guī)格,嚴控成本
為了更好地服務客戶完成本地化推理集群的選型與部署工作,近期中科馭數作為國內AI網絡的頭部DPU芯片產品供應商,從網絡選型對推理集群性能影響的角度出發(fā),設計與執(zhí)行了一系列實驗并收集了翔實的一手材料數據。
本實驗環(huán)境共采用了DeepSeek-R1-Distill-Qwen-32B未量化版本作為基礎模型,基于vLLM搭建了推理集群,并采用evalscope對推理效果完成了評估。本次時延共使用了兩臺雙GPU服務器,服務器基本配置如下:

首先,我們關注采用TCP方式作為底層推理網絡基礎時,進行了如下測試:
當采用2TP+2PP的模型切割方式時,獲得了如下基礎數據:

隨后切換到4TP+1PP模型切割模式,加大了不同節(jié)點間的矩陣數據交換需求,得到如下數據:

為了更好的體現測試數據的公平性,本測試隨后選擇行業(yè)領導企業(yè)的成熟網卡產品進行了實驗,得出了基本一致的數據測試結果。并且在TCP模式下,中科馭數FlexFlow-2200T設備基本達到了與國際一線廠商相同的能力水平。

隨后,本實驗將底層基礎網絡技術切換為RDMA網絡,進行了測試驗證并收集到如下數據:

通過對比可以得知在模型進行良好切分設計的情況下,RDMA網絡并未能提升整體推理性能,但是在節(jié)點間需要傳遞張量數據的情況下,RDMA網絡可大幅提升模型推理性能,同時在大并發(fā)規(guī)模時,能夠更好的保持推理集群的服務穩(wěn)定性。


通過一系列的實驗結果,我們可以得出如下結論:
一、良好的模型切分設計可以大幅提升模型性能,此時無需引入復雜的RDMA網絡運維,即可獲得最佳的推理性能體驗,從而獲得最高的投入產出比。
二、在單臺服務器GPU算力受限,不得不在節(jié)點間進行張量切分時,可以使用RDMA網絡保證推理模型的服務性能與穩(wěn)定性。但是引入RDMA帶來性能提升的同時,成本的提升比例也是一致的。大家可以按照實際應用場景,考慮多方因素后綜合選擇。

中科馭數的作為國內全品種網卡的研發(fā)企業(yè),基于全自研、國產芯片K2-Pro打造的FlexFlow-2200T網卡,可以承擔智算大模型的網絡底座,為您的智算模型增加一顆“中國芯”。
審核編輯 黃宇
-
網卡
+關注
關注
4文章
334瀏覽量
28707 -
DPU
+關注
關注
0文章
406瀏覽量
26140 -
DeepSeek
+關注
關注
2文章
822瀏覽量
2790
發(fā)布評論請先 登錄
NVIDIA Nemotron Nano 2推理模型發(fā)布
中科馭數亮相2025 CCF全國高性能計算學術大會
【「DeepSeek 核心技術揭秘」閱讀體驗】書籍介紹+第一章讀后心得
信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代
【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術:DeepSeek 核心技術揭秘
詳解 LLM 推理模型的現狀
如何使用OpenVINO運行DeepSeek-R1蒸餾模型

中科馭數高性能網卡產品 成就DeepSeek推理模型網絡底座
評論