chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

中科馭數高性能網卡產品 成就DeepSeek推理模型網絡底座

中科馭數 ? 來源:中科馭數 ? 作者:中科馭數 ? 2025-03-31 11:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2025年初,DeepSeek-V3與DeepSeek-R1推理模型的開源引爆了AI社區(qū),這兩款產品作為通用千億級模型與專用推理優(yōu)化模型,為全球AI技術生態(tài)帶來重大變革,不僅展示了中國AGI技術的突破性進展,而且開源模型發(fā)展帶來部署成本的極速下降,為定制化AGI服務,推理本地化部署,帶來發(fā)展機遇,也掀起了新的一輪智算基礎設施建設浪潮。

與按Token生成數量計費的AI云服務模式不同,出于數據安全的考慮,很多用戶選擇采用本地化部署推理集群的方式將AI能力集成到當前業(yè)務流中。由于整個推理應用的業(yè)務鏈條非常長,本地化部署需要綜合考慮如下各個方面與需求的匹配度:

硬件與基礎設施規(guī)劃:包括GPU與專用芯片選型、網絡架構優(yōu)化與隔離、存儲方案評估

模型優(yōu)化與部署策略:包括量化壓縮等推理加速技術選型、資源動態(tài)調度技術等

安全與合規(guī)性:需要綜合考慮數據使用的便捷性與合規(guī)要求

高可用與容災設計:包括故障自愈方案、數據備份等

成本控制:根據業(yè)務使用模式合理制定需求規(guī)格,嚴控成本

為了更好地服務客戶完成本地化推理集群的選型與部署工作,近期中科馭數作為國內AI網絡的頭部DPU芯片產品供應商,從網絡選型對推理集群性能影響的角度出發(fā),設計與執(zhí)行了一系列實驗并收集了翔實的一手材料數據。

本實驗環(huán)境共采用了DeepSeek-R1-Distill-Qwen-32B未量化版本作為基礎模型,基于vLLM搭建了推理集群,并采用evalscope對推理效果完成了評估。本次時延共使用了兩臺雙GPU服務器,服務器基本配置如下:

wKgZPGfqEmyAYGdXAABBxTO92jo515.png

首先,我們關注采用TCP方式作為底層推理網絡基礎時,進行了如下測試:

當采用2TP+2PP的模型切割方式時,獲得了如下基礎數據:

wKgZO2fqEm2AfHMkAACuI4a0wyQ954.png

隨后切換到4TP+1PP模型切割模式,加大了不同節(jié)點間的矩陣數據交換需求,得到如下數據:

wKgZPGfqEm2ATKkCAACg0byqwjM265.png

為了更好的體現測試數據的公平性,本測試隨后選擇行業(yè)領導企業(yè)的成熟網卡產品進行了實驗,得出了基本一致的數據測試結果。并且在TCP模式下,中科馭數FlexFlow-2200T設備基本達到了與國際一線廠商相同的能力水平。

wKgZO2fqEm2AWR7HAAESY-R7iYQ492.png

隨后,本實驗將底層基礎網絡技術切換為RDMA網絡,進行了測試驗證并收集到如下數據:

wKgZPGfqEm6ASuZiAAE2xuyU9TE948.png

通過對比可以得知在模型進行良好切分設計的情況下,RDMA網絡并未能提升整體推理性能,但是在節(jié)點間需要傳遞張量數據的情況下,RDMA網絡可大幅提升模型推理性能,同時在大并發(fā)規(guī)模時,能夠更好的保持推理集群的服務穩(wěn)定性。

wKgZO2fqEm6ANiufAAAtfole5AE22.webpwKgZPGfqEm6ABPWOAAAytATWCfA30.webp

通過一系列的實驗結果,我們可以得出如下結論:

一、良好的模型切分設計可以大幅提升模型性能,此時無需引入復雜的RDMA網絡運維,即可獲得最佳的推理性能體驗,從而獲得最高的投入產出比。

二、在單臺服務器GPU算力受限,不得不在節(jié)點間進行張量切分時,可以使用RDMA網絡保證推理模型的服務性能與穩(wěn)定性。但是引入RDMA帶來性能提升的同時,成本的提升比例也是一致的。大家可以按照實際應用場景,考慮多方因素后綜合選擇。

wKgZO2fqEm-ACDe5AAAeYNUAnHM46.webp

中科馭數的作為國內全品種網卡的研發(fā)企業(yè),基于全自研、國產芯片K2-Pro打造的FlexFlow-2200T網卡,可以承擔智算大模型的網絡底座,為您的智算模型增加一顆“中國芯”。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 網卡
    +關注

    關注

    4

    文章

    334

    瀏覽量

    28707
  • DPU
    DPU
    +關注

    關注

    0

    文章

    406

    瀏覽量

    26140
  • DeepSeek
    +關注

    關注

    2

    文章

    822

    瀏覽量

    2790
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1345次閱讀
    NVIDIA Nemotron Nano 2<b class='flag-5'>推理模型</b>發(fā)布

    中科亮相2025 CCF全國高性能計算學術大會

    在昨日開幕的中國計算機學會全國高性能計算學術大會(CCF HPC China 2025)上,中科作為高通量以太網聯盟成員參與聯盟成果發(fā)布。同期舉辦的世界算力博覽會上,
    的頭像 發(fā)表于 08-20 09:39 ?600次閱讀

    利用NVIDIA推理模型構建AI智能體

    開放式推理模型能夠更快、更廣泛地進行思考,為客戶服務、網絡安全、制造、物流和機器人等領域的 AI 智能體生成更明智的結果。
    的頭像 發(fā)表于 08-13 14:32 ?1256次閱讀
    利用NVIDIA<b class='flag-5'>推理模型</b>構建AI智能體

    【「DeepSeek 核心技術揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    DeepSeek性能突破形成直觀的認識。同時,介紹 DeepSeek模型家族 ,涵蓋通用語言模型、多模態(tài)
    發(fā)表于 07-17 11:59

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    網絡智能診斷平臺。通過對私有化網絡數據的定向訓練,信而泰打造了高性能、高可靠性的網絡診斷模型,顯著提升了AI輔助診斷的精準度與實用性。該方案
    發(fā)表于 07-16 15:29

    【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術:DeepSeek 核心技術揭秘

    。DeepSeek-V3 的發(fā)布幾乎沒有預熱和炒作,僅憑借其出色的效果和超低的成本迅速走紅。 DeepSeek-R1 則是在 DeepSeek-V3 的基礎上構建的推理模型,它在后訓練
    發(fā)表于 06-09 14:38

    詳解 LLM 推理模型的現狀

    領域的最新研究進展,特別是自DeepSeekR1發(fā)布后興起的推理時間計算擴展相關內容。在LLM中實施和改進推理簡單來說,基于LLM的推理模型是一種旨在通過生成中間
    的頭像 發(fā)表于 04-03 12:09 ?1212次閱讀
    詳解 LLM <b class='flag-5'>推理模型</b>的現狀

    如何使用OpenVINO運行DeepSeek-R1蒸餾模型

    DeepSeek-R1在春節(jié)期間引發(fā)了全球科技界的熱度,DeepSeek-R1 是由 DeepSeek 開發(fā)的開源推理模型,用于解決需要邏輯推理
    的頭像 發(fā)表于 03-12 13:45 ?2014次閱讀
    如何使用OpenVINO運行<b class='flag-5'>DeepSeek</b>-R1蒸餾<b class='flag-5'>模型</b>

    合肥市科技局蒞臨中科調研

    近日,合肥市科技局副局長呂波一行來訪中科考察調研。
    的頭像 發(fā)表于 02-27 14:27 ?1114次閱讀

    中科K2-Pro芯片助力智算中心創(chuàng)新

    以其卓越的網絡處理能力,成為支撐國產化推理集群應用需求的關鍵。該芯片不僅能夠滿足高性能計算、大數據分析等復雜任務對網絡帶寬和延遲的嚴苛要求,還在中科
    的頭像 發(fā)表于 02-19 15:00 ?814次閱讀

    OpenAI O3與DeepSeek R1:推理模型性能深度分析

    OpenAI剛推出的O3和DeepSeek的R1代表了推理模型領域的重大進步。這兩種模型都因在各種基準測試中的出色表現而備受關注,引發(fā)了人們對人工智能的未來及其對各個行業(yè)的潛在影響的討論。據我們所知
    的頭像 發(fā)表于 02-18 11:07 ?1290次閱讀

    添越智創(chuàng)基于 RK3588 開發(fā)板部署測試 DeepSeek 模型全攻略

    在 AI 技術日新月異的當下,新的模型與突破不斷涌現。近期,DeepSeek(深度求索)模型以其卓越性能和親民成本,迅速在全球開發(fā)者圈子里引發(fā)熱議。作為一款強大的語言
    發(fā)表于 02-14 17:42

    了解DeepSeek-V3 和 DeepSeek-R1兩個大模型的不同定位和應用選擇

    功能對比: 1. 核心定位差異 維度 DeepSeek-V3 DeepSeek-R1 目標場景 通用型任務(文本生成、多輪對話等) 復雜推理與數學能力優(yōu)先(如STEM領域) 優(yōu)化方向 平衡性能
    發(fā)表于 02-14 02:08

    摩爾線程宣布成功部署DeepSeek蒸餾模型推理服務

    。 據悉,DeepSeek開源模型在多語言理解與復雜推理任務中一直表現出卓越的性能,其V3、R1等系列模型更是備受業(yè)界關注。而此次摩爾線程所
    的頭像 發(fā)表于 02-06 13:49 ?1176次閱讀

    科大訊飛發(fā)布星火深度推理模型X1

    今天,科大訊飛正式發(fā)布星火深度推理模型X1,星火4.0 Turbo底座全面升級,首發(fā)星火語音同傳大模型。
    的頭像 發(fā)表于 01-15 15:54 ?1023次閱讀