chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

中科馭數(shù)高性能網(wǎng)卡產(chǎn)品 成就DeepSeek推理模型網(wǎng)絡(luò)底座

中科馭數(shù) ? 來源:中科馭數(shù) ? 作者:中科馭數(shù) ? 2025-03-31 11:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2025年初,DeepSeek-V3與DeepSeek-R1推理模型的開源引爆了AI社區(qū),這兩款產(chǎn)品作為通用千億級模型與專用推理優(yōu)化模型,為全球AI技術(shù)生態(tài)帶來重大變革,不僅展示了中國AGI技術(shù)的突破性進展,而且開源模型發(fā)展帶來部署成本的極速下降,為定制化AGI服務,推理本地化部署,帶來發(fā)展機遇,也掀起了新的一輪智算基礎(chǔ)設(shè)施建設(shè)浪潮。

與按Token生成數(shù)量計費的AI云服務模式不同,出于數(shù)據(jù)安全的考慮,很多用戶選擇采用本地化部署推理集群的方式將AI能力集成到當前業(yè)務流中。由于整個推理應用的業(yè)務鏈條非常長,本地化部署需要綜合考慮如下各個方面與需求的匹配度:

硬件與基礎(chǔ)設(shè)施規(guī)劃:包括GPU與專用芯片選型、網(wǎng)絡(luò)架構(gòu)優(yōu)化與隔離、存儲方案評估

模型優(yōu)化與部署策略:包括量化壓縮等推理加速技術(shù)選型、資源動態(tài)調(diào)度技術(shù)等

安全與合規(guī)性:需要綜合考慮數(shù)據(jù)使用的便捷性與合規(guī)要求

高可用與容災設(shè)計:包括故障自愈方案、數(shù)據(jù)備份等

成本控制:根據(jù)業(yè)務使用模式合理制定需求規(guī)格,嚴控成本

為了更好地服務客戶完成本地化推理集群的選型與部署工作,近期中科馭數(shù)作為國內(nèi)AI網(wǎng)絡(luò)的頭部DPU芯片產(chǎn)品供應商,從網(wǎng)絡(luò)選型對推理集群性能影響的角度出發(fā),設(shè)計與執(zhí)行了一系列實驗并收集了翔實的一手材料數(shù)據(jù)。

本實驗環(huán)境共采用了DeepSeek-R1-Distill-Qwen-32B未量化版本作為基礎(chǔ)模型,基于vLLM搭建了推理集群,并采用evalscope對推理效果完成了評估。本次時延共使用了兩臺雙GPU服務器,服務器基本配置如下:

wKgZPGfqEmyAYGdXAABBxTO92jo515.png

首先,我們關(guān)注采用TCP方式作為底層推理網(wǎng)絡(luò)基礎(chǔ)時,進行了如下測試:

當采用2TP+2PP的模型切割方式時,獲得了如下基礎(chǔ)數(shù)據(jù):

wKgZO2fqEm2AfHMkAACuI4a0wyQ954.png

隨后切換到4TP+1PP模型切割模式,加大了不同節(jié)點間的矩陣數(shù)據(jù)交換需求,得到如下數(shù)據(jù):

wKgZPGfqEm2ATKkCAACg0byqwjM265.png

為了更好的體現(xiàn)測試數(shù)據(jù)的公平性,本測試隨后選擇行業(yè)領(lǐng)導企業(yè)的成熟網(wǎng)卡產(chǎn)品進行了實驗,得出了基本一致的數(shù)據(jù)測試結(jié)果。并且在TCP模式下,中科馭數(shù)FlexFlow-2200T設(shè)備基本達到了與國際一線廠商相同的能力水平。

wKgZO2fqEm2AWR7HAAESY-R7iYQ492.png

隨后,本實驗將底層基礎(chǔ)網(wǎng)絡(luò)技術(shù)切換為RDMA網(wǎng)絡(luò),進行了測試驗證并收集到如下數(shù)據(jù):

wKgZPGfqEm6ASuZiAAE2xuyU9TE948.png

通過對比可以得知在模型進行良好切分設(shè)計的情況下,RDMA網(wǎng)絡(luò)并未能提升整體推理性能,但是在節(jié)點間需要傳遞張量數(shù)據(jù)的情況下,RDMA網(wǎng)絡(luò)可大幅提升模型推理性能,同時在大并發(fā)規(guī)模時,能夠更好的保持推理集群的服務穩(wěn)定性。

wKgZO2fqEm6ANiufAAAtfole5AE22.webpwKgZPGfqEm6ABPWOAAAytATWCfA30.webp

通過一系列的實驗結(jié)果,我們可以得出如下結(jié)論:

一、良好的模型切分設(shè)計可以大幅提升模型性能,此時無需引入復雜的RDMA網(wǎng)絡(luò)運維,即可獲得最佳的推理性能體驗,從而獲得最高的投入產(chǎn)出比。

二、在單臺服務器GPU算力受限,不得不在節(jié)點間進行張量切分時,可以使用RDMA網(wǎng)絡(luò)保證推理模型的服務性能與穩(wěn)定性。但是引入RDMA帶來性能提升的同時,成本的提升比例也是一致的。大家可以按照實際應用場景,考慮多方因素后綜合選擇。

wKgZO2fqEm-ACDe5AAAeYNUAnHM46.webp

中科馭數(shù)的作為國內(nèi)全品種網(wǎng)卡的研發(fā)企業(yè),基于全自研、國產(chǎn)芯片K2-Pro打造的FlexFlow-2200T網(wǎng)卡,可以承擔智算大模型的網(wǎng)絡(luò)底座,為您的智算模型增加一顆“中國芯”。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 網(wǎng)卡
    +關(guān)注

    關(guān)注

    4

    文章

    339

    瀏覽量

    28909
  • DPU
    DPU
    +關(guān)注

    關(guān)注

    0

    文章

    414

    瀏覽量

    26971
  • DeepSeek
    +關(guān)注

    關(guān)注

    2

    文章

    835

    瀏覽量

    3266
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    阿里巴巴發(fā)布通義千問旗艦推理模型Qwen3-Max-Thinking

    今天,我們正式發(fā)布千問旗艦推理模型Qwen3-Max-Thinking,創(chuàng)下數(shù)項權(quán)威評測全球新紀錄。
    的頭像 發(fā)表于 01-27 15:47 ?385次閱讀
    阿里巴巴發(fā)布通義千問旗艦<b class='flag-5'>推理模型</b>Qwen3-Max-Thinking

    LLM推理模型是如何推理的?

    這篇文章《(How)DoReasoningModelsReason?》對當前大型推理模型(LRM)進行了深刻的剖析,超越了表面的性能宣傳,直指其技術(shù)本質(zhì)和核心局限。以下是基于原文的詳細技術(shù)原理、關(guān)鍵
    的頭像 發(fā)表于 01-19 15:33 ?490次閱讀
    LLM<b class='flag-5'>推理模型</b>是如何<b class='flag-5'>推理</b>的?

    中科數(shù)西南總部落地成都天府新區(qū)

    近日,2025 天府人工智能產(chǎn)業(yè)生態(tài)大會在成都科創(chuàng)生態(tài)島盛大開幕。省委副書記、省長施小琳出席活動。在開幕式備受關(guān)注的人工智能產(chǎn)業(yè)重大項目集中簽約環(huán)節(jié),中科數(shù)與天府新區(qū)管委會正式簽署合作協(xié)議,宣告
    的頭像 發(fā)表于 10-13 15:10 ?963次閱讀

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1786次閱讀
    NVIDIA Nemotron Nano 2<b class='flag-5'>推理模型</b>發(fā)布

    中科數(shù)亮相2025 CCF全國高性能計算學術(shù)大會

    在昨日開幕的中國計算機學會全國高性能計算學術(shù)大會(CCF HPC China 2025)上,中科數(shù)作為高通量以太網(wǎng)聯(lián)盟成員參與聯(lián)盟成果發(fā)布。同期舉辦的世界算力博覽會上,
    的頭像 發(fā)表于 08-20 09:39 ?943次閱讀

    澎峰科技完成OpenAI最新開源推理模型適配

    澎峰科技現(xiàn)已完成 OpenAI 最新開源推理模型 gpt-oss-20b 在 DeepFusion 大模型一體機上的原生適配與優(yōu)化,用戶可一鍵啟用這顆“小而強悍”的新引擎,在本地享受企業(yè)級 AI 生產(chǎn)力!
    的頭像 發(fā)表于 08-14 11:34 ?1404次閱讀

    利用NVIDIA推理模型構(gòu)建AI智能體

    開放式推理模型能夠更快、更廣泛地進行思考,為客戶服務、網(wǎng)絡(luò)安全、制造、物流和機器人等領(lǐng)域的 AI 智能體生成更明智的結(jié)果。
    的頭像 發(fā)表于 08-13 14:32 ?1595次閱讀
    利用NVIDIA<b class='flag-5'>推理模型</b>構(gòu)建AI智能體

    速看!EASY-EAI教你離線部署Deepseek R1大模型

    1.Deepseek簡介DeepSeek-R1,是幻方量化旗下AI公司深度求索(DeepSeek)研發(fā)的推理模型。DeepSeek-R1采用
    的頭像 發(fā)表于 07-25 15:22 ?1376次閱讀
    速看!EASY-EAI教你離線部署<b class='flag-5'>Deepseek</b> R1大<b class='flag-5'>模型</b>

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    DeepSeek性能突破形成直觀的認識。同時,介紹 DeepSeek模型家族 ,涵蓋通用語言模型、多模態(tài)
    發(fā)表于 07-17 11:59

    信而泰×DeepSeek:AI推理引擎驅(qū)動網(wǎng)絡(luò)智能診斷邁向 “自愈”時代

    網(wǎng)絡(luò)智能診斷平臺。通過對私有化網(wǎng)絡(luò)數(shù)據(jù)的定向訓練,信而泰打造了高性能、高可靠性的網(wǎng)絡(luò)診斷模型,顯著提升了AI輔助診斷的精準度與實用性。該方案
    發(fā)表于 07-16 15:29

    【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術(shù):DeepSeek 核心技術(shù)揭秘

    。DeepSeek-V3 的發(fā)布幾乎沒有預熱和炒作,僅憑借其出色的效果和超低的成本迅速走紅。 DeepSeek-R1 則是在 DeepSeek-V3 的基礎(chǔ)上構(gòu)建的推理模型,它在后訓練
    發(fā)表于 06-09 14:38

    中科數(shù)受邀出席2025中關(guān)村論壇

      2025中關(guān)村論壇年會3月27日至31日在京舉辦,中科數(shù)作為高性能芯片企業(yè)代表受邀參與中關(guān)村論壇,在位于中關(guān)村展示中心的常設(shè)展中展出公司最新的DPU芯片
    的頭像 發(fā)表于 04-07 09:57 ?1102次閱讀

    詳解 LLM 推理模型的現(xiàn)狀

    領(lǐng)域的最新研究進展,特別是自DeepSeekR1發(fā)布后興起的推理時間計算擴展相關(guān)內(nèi)容。在LLM中實施和改進推理簡單來說,基于LLM的推理模型是一種旨在通過生成中間
    的頭像 發(fā)表于 04-03 12:09 ?1612次閱讀
    詳解 LLM <b class='flag-5'>推理模型</b>的現(xiàn)狀

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    DeepSeek-R1 上的吞吐量提高了 30 倍 NVIDIA 發(fā)布了開源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴展 AI 工廠中的 AI 推理模型。 作為 NVIDIA
    的頭像 發(fā)表于 03-20 15:03 ?1235次閱讀

    如何使用OpenVINO運行DeepSeek-R1蒸餾模型

    DeepSeek-R1在春節(jié)期間引發(fā)了全球科技界的熱度,DeepSeek-R1 是由 DeepSeek 開發(fā)的開源推理模型,用于解決需要邏輯推理
    的頭像 發(fā)表于 03-12 13:45 ?2385次閱讀
    如何使用OpenVINO運行<b class='flag-5'>DeepSeek</b>-R1蒸餾<b class='flag-5'>模型</b>