chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Rail-Only拓撲與PCI Switch:GPU集群間高效通信的核心邏輯

星融元 ? 來源:jf_55437772 ? 作者:jf_55437772 ? 2025-03-26 10:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當前AI推理面臨兩大核心矛盾

算力需求激增:大模型應用爆發(fā)(如實時交互、多模態(tài)生成),企業(yè)亟需更低延遲、更高吞吐的推理能力;

資源浪費嚴重:傳統(tǒng)架構下,GPU算力閑置率超30%,長文本處理場景首Token延遲飆升至秒級,用戶體驗流失率增加40%。

DeepSeek-V3/R1的給我們的啟示:混合專家模型(MoE)雖需320卡起步,卻為超大規(guī)模云計算廠商提供了差異化競爭力——吞吐效率提升50%,單用戶推理成本降低20%。而對中小客戶,“高性價比”仍是剛需,Dense模型憑借靈活部署穩(wěn)占80%市場份額。

組網架構的“黃金分割”

行業(yè)需求驅動架構革新

分離架構:適合頭部云廠商(如AWS、阿里云),通過獨立優(yōu)化Prefill(算力密集型)和Decode(帶寬密集型)集群,實現(xiàn)超大規(guī)模并發(fā)下的極致性能,客戶可溢價30%提供“高端推理服務”。

統(tǒng)一架構:中小廠商的“降本利器”——單網絡支持智能流量調度,硬件投資減少25%,運維成本降低40%,兼容80%現(xiàn)有基礎設施,快速搶占中端市場。

采用星融元CX-N系列交換機+RoCEv2技術,單設備支持400G/800G帶寬,滿足“既要大吞吐又要低延遲”的矛盾需求。

從實驗室到生產線:組網設計的成本與效益平衡

Rail-Only拓撲:4 GPU/組共享PCIe鏈路,服務器內直連減少跳數(shù),適合百卡以下集群,硬件成本降低30%。

wKgZPGfjZk-AVUCAAANHgMm5JfI655.png

GPU服務器內部:每四個GPU作為一組,共享一個并行推理網卡,連接到同一個PCI Switch,兩組GPU之間的通信通過兩個PCI Switch之間的直連通道完成;

GPU服務器之間:同一組號的GPU之間的通信通過交換機直接完成;不同組號的GPU之間的通信,先通過PCI Swtitch將流量路由到另一組的網卡,然后通過交換機完成;

小規(guī)模場景:低成本敏捷部署

wKgZO2fjZn6AdNiDAAY3TFpXC4I846.png

每臺推理服務器有8張GPU,2張400G網卡,雙歸連接到兩臺CX732Q-N

16個推理服務器(128張GPU)和2個CX732Q-N組成一個PoD。Prefill和Decode服務器可能屬于不同PoD

可橫向擴展至64個PoD

中大規(guī)模場景:性能與擴展性優(yōu)先

模塊化PoD設計:以512 GPU為單元構建獨立集群,Prefill與Decode服務器同PoD內一跳互聯(lián),時延控制在10μs以內。

橫向擴展能力:可橫向擴展至64個PoD,支持萬卡級集群無縫擴容,滿足云計算平臺彈性需求。

wKgZO2fjZq6ADWM0AAbvJN4vMng448.png

未來展望:開放生態(tài)與硬件迭代的雙重助力

盡管DeepSeek尚未開源,但其PD分離架構為行業(yè)提供了關鍵思路。未來趨勢將圍繞兩大方向:

軟硬件協(xié)同優(yōu)化:如DPU卸載KV緩存?zhèn)鬏斎蝿?,進一步釋放GPU算力;

邊緣AI輕量化:通過模型剪枝與專用推理芯片,在10卡以下環(huán)境中實現(xiàn)MoE模型部署。

【參考文獻】

https://asterfusion.com/a20250306-scale-out/


審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5154

    瀏覽量

    134762
  • PCI
    PCI
    +關注

    關注

    5

    文章

    688

    瀏覽量

    133931
  • AI
    AI
    +關注

    關注

    91

    文章

    39144

    瀏覽量

    299810
  • 組網
    +關注

    關注

    1

    文章

    430

    瀏覽量

    23314
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    UPS電源核心技術深度解析:從拓撲結構到智能管理的演進之路

    ?當電網電壓如海浪般波動,當突發(fā)斷電瞬間襲來,一臺優(yōu)秀的UPS不間斷電源正如精密運行的瑞士鐘表,依靠其內部協(xié)同運作的核心技術體系,在毫秒完成電力切換與保障。這些技術不僅是電源行業(yè)的競爭壁壘,更是
    的頭像 發(fā)表于 01-07 08:42 ?181次閱讀
    UPS電源<b class='flag-5'>核心</b>技術深度解析:從<b class='flag-5'>拓撲</b>結構到智能管理的演進之路

    德州儀器PCI2250 PCI-to-PCI橋接器:功能、特性與應用詳解

    德州儀器PCI2250 PCI-to-PCI橋接器:功能、特性與應用詳解 在電子設計領域,PCI-to-PCI橋接器扮演著至關重要的角色,它能夠實現(xiàn)不同PCI總線之間的
    的頭像 發(fā)表于 12-25 17:10 ?395次閱讀

    讀懂高效通信的星型組網

    一、什么是星型組網?一種網絡拓撲,所有設備直接連接至一個中心節(jié)點,形成“中心發(fā)散”的星形結構,實現(xiàn)集中管理、高效通信。二、三大核心特點1.高可靠易維護節(jié)點獨立連接,單點故障不影響全網;
    發(fā)表于 12-09 14:17

    全球邁入 IPv6-Only 關鍵窗口期

    、高效”為核心的IPv6-Only時代,這一倡議的落地,標志著全球數(shù)字基礎設施建設進入全新發(fā)展階段。來源:全球IPv6論壇官網《倡議》明確了兩大核心行動方向:在部
    的頭像 發(fā)表于 11-25 10:23 ?460次閱讀
    全球邁入 IPv6-<b class='flag-5'>Only</b> 關鍵窗口期

    PPEC Workbench 平臺拓撲全覆蓋,滿足各類電源開發(fā)需求

    電力電子智能化設計平臺,以“全拓撲覆蓋 + 免代碼智能化高效開發(fā) + 生態(tài)化協(xié)同”為核心,為電力電子行業(yè)數(shù)字電源開發(fā)提供了一站式拓撲解決方案。 如今,電源
    發(fā)表于 10-23 11:44

    怎樣確定分布式光伏集群通信網絡的負載均衡策略?

    LZ-DZ100電能質量在線監(jiān)測裝 確定分布式光伏集群通信網絡的負載均衡策略,需結合集群的網絡拓撲、數(shù)據(jù)特征、設備特性及運行需求,通過 “現(xiàn)狀分析→目標設定→策略設計→驗證優(yōu)化” 的流
    的頭像 發(fā)表于 08-22 10:10 ?486次閱讀
    怎樣確定分布式光伏<b class='flag-5'>集群</b><b class='flag-5'>通信</b>網絡的負載均衡策略?

    睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級

    400G/800G光模塊已實現(xiàn)規(guī)模化量產,并基于AI工廠與AI云的核心需求進行深度優(yōu)化: 速率突破:采用PAM4調制技術,單通道速率達100Gbps,整模塊實現(xiàn)800Gbps傳輸能力,為GPU集群
    發(fā)表于 08-13 19:01

    高效管理Kubernetes集群的實用技巧

    作為一名經驗豐富的運維工程師,我深知在日常的Kubernetes集群管理中,熟練掌握kubectl命令是提升工作效率的關鍵。今天,我將分享15個經過實戰(zhàn)檢驗的kubectl實用技巧,幫助你像藝術家一樣優(yōu)雅地管理K8s集群。
    的頭像 發(fā)表于 08-13 15:57 ?719次閱讀

    PCIe協(xié)議分析儀在數(shù)據(jù)中心中有何作用?

    部分GPU通信因交換機拓撲不合理導致延遲高。 調整交換機端口映射,使相鄰GPU通過最短路徑通信
    發(fā)表于 07-29 15:02

    摩爾線程吳慶詳解 MUSA 軟件棧:以技術創(chuàng)新釋放 KUAE 集群潛能,引領 GPU 計算新高度?

    的分享。GPU 計算軟件開發(fā)總監(jiān)吳慶登上講臺,發(fā)表了題為《摩爾線程 MUSA 軟件棧助力 KUAE 集群釋放無限潛能》的演講。他從專業(yè)視角出發(fā),為在場聽眾深入剖析了 MUSA 軟件棧在驅動 KUAE 集群
    的頭像 發(fā)表于 07-28 13:47 ?5891次閱讀
    摩爾線程吳慶詳解 MUSA 軟件棧:以技術創(chuàng)新釋放 KUAE <b class='flag-5'>集群</b>潛能,引領 <b class='flag-5'>GPU</b> 計算新高度?

    PCIe協(xié)議分析儀能測試哪些設備?

    訓練環(huán)境中高效的數(shù)據(jù)交換。 異構計算集群 測試場景:在包含CPU、GPU、FPGA等多種計算單元的系統(tǒng)中,分析各組件的PCIe通信模式。
    發(fā)表于 07-25 14:09

    熱插拔算力集群

    熱插拔算力集群指在無需停機的情況下,動態(tài)增減計算節(jié)點或硬件的算力基礎設施,其核心價值在于實現(xiàn)資源的彈性伸縮和業(yè)務連續(xù)性。以下從關鍵技術、應用場景及優(yōu)勢三個維度分析: 一、關鍵技術支撐? 硬件熱插拔
    的頭像 發(fā)表于 06-26 09:20 ?889次閱讀

    如何破解GPU集群集合通信路徑的“黑盒”難題?

    集合通信庫(如NCCL、HCCL)的運行細節(jié)用戶完全無感知,形成“黑盒”狀態(tài)。EPS通過實時解析集合通信庫的底層運行狀態(tài),將隱蔽的通信路徑、GPU與網卡狀態(tài)等信息可視化,并提供智能路由
    的頭像 發(fā)表于 05-22 10:13 ?850次閱讀
    如何破解<b class='flag-5'>GPU</b><b class='flag-5'>集群集合通信</b>路徑的“黑盒”難題?

    如何通過Docker和K8S集群實現(xiàn)高效調用GPU

    在有GPU資源的主機安裝,改主機作為K8S集群的Node。
    的頭像 發(fā)表于 03-18 16:50 ?1109次閱讀
    如何通過Docker和K8S<b class='flag-5'>集群</b>實現(xiàn)<b class='flag-5'>高效</b>調用<b class='flag-5'>GPU</b>