chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

中科馭數(shù)高性能網(wǎng)卡產(chǎn)品 成就DeepSeek推理模型網(wǎng)絡底座

中科馭數(shù) ? 來源:中科馭數(shù) ? 作者:中科馭數(shù) ? 2025-03-31 11:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2025年初,DeepSeek-V3與DeepSeek-R1推理模型的開源引爆了AI社區(qū),這兩款產(chǎn)品作為通用千億級模型與專用推理優(yōu)化模型,為全球AI技術生態(tài)帶來重大變革,不僅展示了中國AGI技術的突破性進展,而且開源模型發(fā)展帶來部署成本的極速下降,為定制化AGI服務,推理本地化部署,帶來發(fā)展機遇,也掀起了新的一輪智算基礎設施建設浪潮。

與按Token生成數(shù)量計費的AI云服務模式不同,出于數(shù)據(jù)安全的考慮,很多用戶選擇采用本地化部署推理集群的方式將AI能力集成到當前業(yè)務流中。由于整個推理應用的業(yè)務鏈條非常長,本地化部署需要綜合考慮如下各個方面與需求的匹配度:

硬件與基礎設施規(guī)劃:包括GPU與專用芯片選型、網(wǎng)絡架構優(yōu)化與隔離、存儲方案評估

模型優(yōu)化與部署策略:包括量化壓縮等推理加速技術選型、資源動態(tài)調(diào)度技術等

安全與合規(guī)性:需要綜合考慮數(shù)據(jù)使用的便捷性與合規(guī)要求

高可用與容災設計:包括故障自愈方案、數(shù)據(jù)備份等

成本控制:根據(jù)業(yè)務使用模式合理制定需求規(guī)格,嚴控成本

為了更好地服務客戶完成本地化推理集群的選型與部署工作,近期中科馭數(shù)作為國內(nèi)AI網(wǎng)絡的頭部DPU芯片產(chǎn)品供應商,從網(wǎng)絡選型對推理集群性能影響的角度出發(fā),設計與執(zhí)行了一系列實驗并收集了翔實的一手材料數(shù)據(jù)。

本實驗環(huán)境共采用了DeepSeek-R1-Distill-Qwen-32B未量化版本作為基礎模型,基于vLLM搭建了推理集群,并采用evalscope對推理效果完成了評估。本次時延共使用了兩臺雙GPU服務器,服務器基本配置如下:

wKgZPGfqEmyAYGdXAABBxTO92jo515.png

首先,我們關注采用TCP方式作為底層推理網(wǎng)絡基礎時,進行了如下測試:

當采用2TP+2PP的模型切割方式時,獲得了如下基礎數(shù)據(jù):

wKgZO2fqEm2AfHMkAACuI4a0wyQ954.png

隨后切換到4TP+1PP模型切割模式,加大了不同節(jié)點間的矩陣數(shù)據(jù)交換需求,得到如下數(shù)據(jù):

wKgZPGfqEm2ATKkCAACg0byqwjM265.png

為了更好的體現(xiàn)測試數(shù)據(jù)的公平性,本測試隨后選擇行業(yè)領導企業(yè)的成熟網(wǎng)卡產(chǎn)品進行了實驗,得出了基本一致的數(shù)據(jù)測試結果。并且在TCP模式下,中科馭數(shù)FlexFlow-2200T設備基本達到了與國際一線廠商相同的能力水平。

wKgZO2fqEm2AWR7HAAESY-R7iYQ492.png

隨后,本實驗將底層基礎網(wǎng)絡技術切換為RDMA網(wǎng)絡,進行了測試驗證并收集到如下數(shù)據(jù):

wKgZPGfqEm6ASuZiAAE2xuyU9TE948.png

通過對比可以得知在模型進行良好切分設計的情況下,RDMA網(wǎng)絡并未能提升整體推理性能,但是在節(jié)點間需要傳遞張量數(shù)據(jù)的情況下,RDMA網(wǎng)絡可大幅提升模型推理性能,同時在大并發(fā)規(guī)模時,能夠更好的保持推理集群的服務穩(wěn)定性。

wKgZO2fqEm6ANiufAAAtfole5AE22.webpwKgZPGfqEm6ABPWOAAAytATWCfA30.webp

通過一系列的實驗結果,我們可以得出如下結論:

一、良好的模型切分設計可以大幅提升模型性能,此時無需引入復雜的RDMA網(wǎng)絡運維,即可獲得最佳的推理性能體驗,從而獲得最高的投入產(chǎn)出比。

二、在單臺服務器GPU算力受限,不得不在節(jié)點間進行張量切分時,可以使用RDMA網(wǎng)絡保證推理模型的服務性能與穩(wěn)定性。但是引入RDMA帶來性能提升的同時,成本的提升比例也是一致的。大家可以按照實際應用場景,考慮多方因素后綜合選擇。

wKgZO2fqEm-ACDe5AAAeYNUAnHM46.webp

中科馭數(shù)的作為國內(nèi)全品種網(wǎng)卡的研發(fā)企業(yè),基于全自研、國產(chǎn)芯片K2-Pro打造的FlexFlow-2200T網(wǎng)卡,可以承擔智算大模型的網(wǎng)絡底座,為您的智算模型增加一顆“中國芯”。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 網(wǎng)卡
    +關注

    關注

    4

    文章

    346

    瀏覽量

    29083
  • DPU
    DPU
    +關注

    關注

    0

    文章

    417

    瀏覽量

    27149
  • DeepSeek
    +關注

    關注

    2

    文章

    855

    瀏覽量

    3412
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    阿里巴巴發(fā)布通義千問旗艦推理模型Qwen3-Max-Thinking

    今天,我們正式發(fā)布千問旗艦推理模型Qwen3-Max-Thinking,創(chuàng)下數(shù)項權威評測全球新紀錄。
    的頭像 發(fā)表于 01-27 15:47 ?617次閱讀
    阿里巴巴發(fā)布通義千問旗艦<b class='flag-5'>推理模型</b>Qwen3-Max-Thinking

    LLM推理模型是如何推理的?

    這篇文章《(How)DoReasoningModelsReason?》對當前大型推理模型(LRM)進行了深刻的剖析,超越了表面的性能宣傳,直指其技術本質(zhì)和核心局限。以下是基于原文的詳細技術原理、關鍵
    的頭像 發(fā)表于 01-19 15:33 ?724次閱讀
    LLM<b class='flag-5'>推理模型</b>是如何<b class='flag-5'>推理</b>的?

    彰顯硬科技實力 中科數(shù)榮登VENTURE50硬科技榜 構建DPU“運力”底座

    近日,由清科控股、投資界發(fā)起的 2025 VENTURE50(簡稱 V50)評選結果正式揭曉,DPU 芯片研發(fā)領軍企業(yè)中科數(shù)憑借深厚的技術壁壘、成熟的商業(yè)化能力及突出的產(chǎn)業(yè)價值,成功榮登 “2025 VENTURE 50 硬科
    的頭像 發(fā)表于 12-13 11:26 ?1258次閱讀

    中科數(shù)西南總部落地成都天府新區(qū)

    近日,2025 天府人工智能產(chǎn)業(yè)生態(tài)大會在成都科創(chuàng)生態(tài)島盛大開幕。省委副書記、省長施小琳出席活動。在開幕式備受關注的人工智能產(chǎn)業(yè)重大項目集中簽約環(huán)節(jié),中科數(shù)與天府新區(qū)管委會正式簽署合作協(xié)議,宣告
    的頭像 發(fā)表于 10-13 15:10 ?1185次閱讀

    什么是AI模型推理能力

    NVIDIA 的數(shù)據(jù)工廠團隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎,該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的頭像 發(fā)表于 09-23 15:19 ?1502次閱讀

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?2024次閱讀
    NVIDIA Nemotron Nano 2<b class='flag-5'>推理模型</b>發(fā)布

    中科數(shù)亮相2025 CCF全國高性能計算學術大會

    在昨日開幕的中國計算機學會全國高性能計算學術大會(CCF HPC China 2025)上,中科數(shù)作為高通量以太網(wǎng)聯(lián)盟成員參與聯(lián)盟成果發(fā)布。同期舉辦的世界算力博覽會上,
    的頭像 發(fā)表于 08-20 09:39 ?1138次閱讀

    澎峰科技完成OpenAI最新開源推理模型適配

    澎峰科技現(xiàn)已完成 OpenAI 最新開源推理模型 gpt-oss-20b 在 DeepFusion 大模型一體機上的原生適配與優(yōu)化,用戶可一鍵啟用這顆“小而強悍”的新引擎,在本地享受企業(yè)級 AI 生產(chǎn)力!
    的頭像 發(fā)表于 08-14 11:34 ?1571次閱讀

    利用NVIDIA推理模型構建AI智能體

    開放式推理模型能夠更快、更廣泛地進行思考,為客戶服務、網(wǎng)絡安全、制造、物流和機器人等領域的 AI 智能體生成更明智的結果。
    的頭像 發(fā)表于 08-13 14:32 ?1776次閱讀
    利用NVIDIA<b class='flag-5'>推理模型</b>構建AI智能體

    速看!EASY-EAI教你離線部署Deepseek R1大模型

    1.Deepseek簡介DeepSeek-R1,是幻方量化旗下AI公司深度求索(DeepSeek)研發(fā)的推理模型。DeepSeek-R1采用
    的頭像 發(fā)表于 07-25 15:22 ?1593次閱讀
    速看!EASY-EAI教你離線部署<b class='flag-5'>Deepseek</b> R1大<b class='flag-5'>模型</b>

    【「DeepSeek 核心技術揭秘」閱讀體驗】+混合專家

    -V3的版本區(qū)別, 深入了解Deepseek的技術細節(jié),快速掌握大模型領域的前沿知識,洞察對行業(yè)應用的影響,提升自身在該領域的專業(yè)水平和競爭力。 本書流程非常清晰,先認識Deepseek性能
    發(fā)表于 07-22 22:14

    【「DeepSeek 核心技術揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    DeepSeek性能突破形成直觀的認識。同時,介紹 DeepSeek模型家族 ,涵蓋通用語言模型、多模態(tài)
    發(fā)表于 07-17 11:59

    信而泰×DeepSeek:AI推理引擎驅動網(wǎng)絡智能診斷邁向 “自愈”時代

    網(wǎng)絡智能診斷平臺。通過對私有化網(wǎng)絡數(shù)據(jù)的定向訓練,信而泰打造了高性能、高可靠性的網(wǎng)絡診斷模型,顯著提升了AI輔助診斷的精準度與實用性。該方案
    發(fā)表于 07-16 15:29

    【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術:DeepSeek 核心技術揭秘

    。DeepSeek-V3 的發(fā)布幾乎沒有預熱和炒作,僅憑借其出色的效果和超低的成本迅速走紅。 DeepSeek-R1 則是在 DeepSeek-V3 的基礎上構建的推理模型,它在后訓練
    發(fā)表于 06-09 14:38

    訊飛星辰MaaS平臺實現(xiàn)高性能DeepSeek V3上線

    DeepSeek模型為代表的MoE技術路線,正不斷突破通用大模型的效果上限。其創(chuàng)新的PD優(yōu)化與大EP推理方案,推動大模型邁向“
    的頭像 發(fā)表于 06-04 10:15 ?1533次閱讀