chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

算力網(wǎng)絡(luò)的“神經(jīng)突觸”:AI互聯(lián)技術(shù)如何重構(gòu)分布式訓(xùn)練范式

Carol Li ? 來(lái)源:電子發(fā)燒友網(wǎng) ? 作者:電子發(fā)燒友 ? 2025-06-08 08:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)綜合報(bào)道 隨著AI技術(shù)迅猛發(fā)展,尤其是大型語(yǔ)言模型的興起,對(duì)于算力的需求呈現(xiàn)出爆炸性增長(zhǎng)。這不僅推動(dòng)了智算中心的建設(shè),還對(duì)網(wǎng)絡(luò)互聯(lián)技術(shù)提出了新的挑戰(zhàn)。

AI大模型訓(xùn)練過(guò)程中,由于單個(gè)AI芯片的算力提升速度無(wú)法跟上模型參數(shù)的增長(zhǎng)速率,再加上龐大的模型參數(shù)和訓(xùn)練數(shù)據(jù),已遠(yuǎn)遠(yuǎn)超出單個(gè)AI芯片甚至單臺(tái)服務(wù)器的能力范圍。因此,需要將數(shù)據(jù)樣本和模型結(jié)構(gòu)分散到多個(gè)計(jì)算設(shè)備上,這導(dǎo)致了設(shè)備間的頻繁通信需求。為了適應(yīng)這一變化,智算中心服務(wù)器內(nèi)部的網(wǎng)絡(luò)互聯(lián)技術(shù)變得至關(guān)重要。

芯片間互聯(lián)技術(shù)

AI服務(wù)器的互聯(lián)技術(shù)是保障其高性能計(jì)算能力的關(guān)鍵,涉及芯片間、服務(wù)器內(nèi)以及服務(wù)器間等多個(gè)層面的高速數(shù)據(jù)傳輸。

芯片間互聯(lián)技術(shù)方面,英偉達(dá)、AMD英特爾都推出了相關(guān)技術(shù),分別是NVLink、Infinity Fabric、CXL(Compute Express Link)等。NVLink是由NVIDIA開(kāi)發(fā)的GPU之間的高速互連技術(shù),能加快CPU與GPU、GPU與GPU之間的數(shù)據(jù)傳輸速度,提高系統(tǒng)性能。從2016年到2022年,NVLink歷經(jīng)多次迭代更新,例如基于Hopper架構(gòu)的第四代NVLink,單鏈可實(shí)現(xiàn)50GB/s的雙向帶寬,單芯片可支持18鏈路,即900GB/s的總雙向帶寬。在NVIDIA的DGX H100服務(wù)器中,GPU(H100)之間互聯(lián)主要通過(guò)NV Switch芯片來(lái)實(shí)現(xiàn),而NV Switch芯片與GPU之間的數(shù)據(jù)傳輸就依賴(lài)于NVLink。

AMD推出的Infinity Fabric,由傳輸數(shù)據(jù)的Infinity Scalable Data Fabric(SDF)和負(fù)責(zé)控制的Infinity Scalable Control Fabric(SCF)兩個(gè)系統(tǒng)組成,連接了on-die和off-die以及多路CPU間的通信。最新的AMD Instinct MI300X GPU采用5nm制程,支持客戶(hù)將8個(gè)GPU整合為一個(gè)性能主導(dǎo)型節(jié)點(diǎn),并且具有全互聯(lián)式點(diǎn)對(duì)點(diǎn)環(huán)形設(shè)計(jì),使用了第4代Infinity Fabric高速總線(xiàn)互聯(lián),總線(xiàn)帶寬達(dá)到896GB/s(與英偉達(dá)H100的900GB/s帶寬相當(dāng))。

CXL(Compute Express Link)是英特爾提出的一種開(kāi)放性互聯(lián)協(xié)議,CXL是建立在PCIe物理層之上的協(xié)議,可以實(shí)現(xiàn)設(shè)備之間的緩存和內(nèi)存一致性。利用廣泛存在的PCIe接口,CXL允許內(nèi)存在各種硬件上共享:CPU、NIC和DPU、GPU和其它加速器、SSD和內(nèi)存設(shè)備,從而滿(mǎn)足高性能異構(gòu)計(jì)算的要求。

服務(wù)器內(nèi)互聯(lián)技術(shù)有PCIe Switch、Retimer芯片。PCIe Switch,即PCIe開(kāi)關(guān)或PCIe交換機(jī),主要作用是實(shí)現(xiàn)PCIe設(shè)備互聯(lián)。由于PCIe的鏈路通信是一種端對(duì)端的數(shù)據(jù)傳輸,需要Switch提供擴(kuò)展或聚合能力,從而允許更多的設(shè)備連接到一個(gè)PCIe端口,以解決PCIe通道數(shù)量不夠的問(wèn)題。例如在AI服務(wù)器中,GPU與CPU連接時(shí)可能需要用到PCIe Switch,并且隨著PCIe總線(xiàn)技術(shù)的升級(jí),PCIe Switch每代速率提升,能提高數(shù)據(jù)傳輸?shù)乃俣取?br />
在AI服務(wù)器中,GPU與CPU連接時(shí)至少需要一顆Retimer芯片來(lái)保證信號(hào)質(zhì)量,很多AI服務(wù)器都會(huì)配置多顆Retimer芯片。例如Astera Labs在AI加速器中配置了4顆Retimer芯片。

AI服務(wù)器間互聯(lián)技術(shù)

服務(wù)器間互聯(lián)技術(shù)有InfiniBand、RoCE、高速以太網(wǎng)。InfiniBand是一種高性能的網(wǎng)絡(luò)互聯(lián)技術(shù),具有低延遲、高帶寬的特點(diǎn),能夠滿(mǎn)足AI服務(wù)器之間超低延遲、超高帶寬的通信需求,適用于大規(guī)模AI模型訓(xùn)練時(shí)服務(wù)器之間的高效通信和數(shù)據(jù)同步。例如訓(xùn)練超大模型往往需要成百上千臺(tái)服務(wù)器組成集群,服務(wù)器之間就需要InfiniBand這樣的網(wǎng)絡(luò)進(jìn)行高效通信。

RoCE(RDMA over Converged Ethernet),基于以太網(wǎng)的RDMA(遠(yuǎn)程直接內(nèi)存訪(fǎng)問(wèn))技術(shù),它允許數(shù)據(jù)在網(wǎng)絡(luò)中直接從一臺(tái)計(jì)算機(jī)的內(nèi)存?zhèn)鬏數(shù)搅硪慌_(tái)計(jì)算機(jī)的內(nèi)存,而無(wú)需操作系統(tǒng)內(nèi)核的介入,從而降低了延遲,提高了帶寬利用率,可用于AI服務(wù)器間的互聯(lián),提升數(shù)據(jù)傳輸效率。

高速以太網(wǎng),如400Gbps甚至800Gbps以太網(wǎng)適配器,能為AI服務(wù)器間提供高速的網(wǎng)絡(luò)連接,保障大規(guī)模集群部署時(shí)服務(wù)器之間的數(shù)據(jù)傳輸性能。例如昆侖芯超節(jié)點(diǎn)結(jié)合百度智能云自研的基于導(dǎo)軌優(yōu)化的HPN(High Performance Network)架構(gòu),可支撐從數(shù)百卡到上萬(wàn)卡的XPU集群構(gòu)建,其中就涉及到高速以太網(wǎng)技術(shù)的應(yīng)用。

小結(jié)

在AI服務(wù)器中,互聯(lián)技術(shù)的作用已從數(shù)據(jù)傳輸通道升級(jí)為算力釋放引擎。通過(guò)高帶寬、低延遲、可擴(kuò)展的互聯(lián)架構(gòu),AI服務(wù)器能夠突破單節(jié)點(diǎn)算力瓶頸,實(shí)現(xiàn)萬(wàn)億參數(shù)模型的分布式訓(xùn)練;降低推理延遲,支撐實(shí)時(shí)AI應(yīng)用的商業(yè)化落地;優(yōu)化能效比,應(yīng)對(duì)超大規(guī)模數(shù)據(jù)中心的能耗挑戰(zhàn)。


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35065

    瀏覽量

    279335
  • 算力
    +關(guān)注

    關(guān)注

    2

    文章

    1192

    瀏覽量

    15639
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    華為助力廣東移動(dòng)構(gòu)建“九州”互聯(lián)網(wǎng)

    隨著AI大模型的快速發(fā)展,社會(huì)數(shù)字化轉(zhuǎn)型邁入時(shí)代。大數(shù)據(jù)搬運(yùn)、AI分布式訓(xùn)練、視聯(lián)網(wǎng)、數(shù)聯(lián)網(wǎng)
    的頭像 發(fā)表于 07-10 09:53 ?255次閱讀

    潤(rùn)和軟件發(fā)布StackRUNS異構(gòu)分布式推理框架

    當(dāng)下,AI模型規(guī)模持續(xù)膨脹、多模態(tài)應(yīng)用場(chǎng)景日益復(fù)雜,企業(yè)正面臨異構(gòu)資源碎片化帶來(lái)的嚴(yán)峻挑戰(zhàn)。為應(yīng)對(duì)行業(yè)痛點(diǎn),江蘇潤(rùn)和軟件股份有限公司(以下簡(jiǎn)稱(chēng)“潤(rùn)和軟件”)正式發(fā)布自主研發(fā)的StackRUNS異構(gòu)
    的頭像 發(fā)表于 06-13 09:10 ?479次閱讀
    潤(rùn)和軟件發(fā)布StackRUNS異構(gòu)<b class='flag-5'>分布式</b>推理框架

    華為AI WAN智IP廣域網(wǎng)助力互聯(lián)網(wǎng)建設(shè)

    的發(fā)展機(jī)遇。數(shù)據(jù)通信網(wǎng)絡(luò)的高效性、可靠性和智能化程度,直接決定了資源能否在廣域網(wǎng)范圍內(nèi)實(shí)現(xiàn)快速、精準(zhǔn)的調(diào)配與利用,進(jìn)而影響
    的頭像 發(fā)表于 06-11 11:21 ?497次閱讀

    上海電信攜手華為打造分布式云邊協(xié)同訓(xùn)推方案

    Deepseek加速行業(yè)推理應(yīng)用,面向企業(yè)租用以及推理數(shù)據(jù)不出園區(qū)的用需求,上海電信基于“智云上?!毙滦突A(chǔ)架構(gòu),部署華為星河路由器打造400GE IP智城域POD,提供
    的頭像 發(fā)表于 05-19 11:20 ?407次閱讀

    破局智瓶頸:400G光模塊如何重構(gòu)AI時(shí)代的網(wǎng)絡(luò)神經(jīng)脈絡(luò)

    隨著5G、AI和云計(jì)算技術(shù)的爆發(fā)式增長(zhǎng),400G光模塊作為新一代高速光通信的核心組件,正在重構(gòu)數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)。本文從技術(shù)標(biāo)準(zhǔn)、封裝形態(tài)、傳
    的頭像 發(fā)表于 05-12 09:58 ?204次閱讀

    AI原生架構(gòu)升級(jí):RAKsmart服務(wù)器在超大規(guī)模模型訓(xùn)練中的突破

    近年來(lái),隨著千億級(jí)參數(shù)模型的崛起,AI訓(xùn)練對(duì)的需求呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。傳統(tǒng)服務(wù)器架構(gòu)在應(yīng)對(duì)分布式訓(xùn)練
    的頭像 發(fā)表于 04-24 09:27 ?286次閱讀

    RAKsmart智能架構(gòu):異構(gòu)計(jì)算+低時(shí)延網(wǎng)絡(luò)驅(qū)動(dòng)企業(yè)AI訓(xùn)練范式升級(jí)

    AI大模型參數(shù)量突破萬(wàn)億、多模態(tài)應(yīng)用爆發(fā)的今天,企業(yè)AI訓(xùn)練正面臨效率與成本的雙重挑戰(zhàn)。RAKsmart推出的智能
    的頭像 發(fā)表于 04-17 09:29 ?314次閱讀

    適用于數(shù)據(jù)中心和AI時(shí)代的800G網(wǎng)絡(luò)

    和性能隔離能力,以保障不同用戶(hù)任務(wù)互不干擾。 分布式AI計(jì)算與網(wǎng)絡(luò)架構(gòu)設(shè)計(jì) 分布式計(jì)算已成為AI
    發(fā)表于 03-25 17:35

    DeepSeek推動(dòng)AI需求:800G光模塊的關(guān)鍵作用

    隨著人工智能技術(shù)的飛速發(fā)展,AI需求正以前所未有的速度增長(zhǎng)。DeepSeek等大模型的訓(xùn)練與推理任務(wù)對(duì)
    發(fā)表于 03-25 12:00

    信而泰CCL仿真:解鎖AI極限,智中心網(wǎng)絡(luò)性能躍升之道

    中心RoCE網(wǎng)絡(luò)提供精準(zhǔn)評(píng)估方案,助力企業(yè)突破瓶頸,釋放AI澎湃動(dòng)力! 什么是智中心 智
    的頭像 發(fā)表于 02-24 17:34 ?440次閱讀
    信而泰CCL仿真:解鎖<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>極限,智<b class='flag-5'>算</b>中心<b class='flag-5'>網(wǎng)絡(luò)</b>性能躍升之道

    芯片 高性能 CPUGPUNPU 微架構(gòu)分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變

    線(xiàn)程調(diào)度,與Hopper架構(gòu)的細(xì)粒度同步機(jī)制,使得異構(gòu)計(jì)算場(chǎng)景下的任務(wù)協(xié)同更加靈活。在我的分布式訓(xùn)練實(shí)踐中,這些特性顯著提升了模型收斂速度。 張量處理器的設(shè)計(jì)是本書(shū)點(diǎn)睛之筆。從數(shù)學(xué)抽象來(lái)看,張量統(tǒng)一了
    發(fā)表于 11-24 17:12

    分布式通信的原理和實(shí)現(xiàn)高效分布式通信背后的技術(shù)NVLink的演進(jìn)

    大型模型的大小已經(jīng)超出了單個(gè) GPU 的范圍。所以就需要實(shí)現(xiàn)跨多個(gè) GPU 的模型訓(xùn)練,這種訓(xùn)練方式就涉及到了分布式通信和 NVLink。 當(dāng)談及分布式通信和 NVLink 時(shí),我們進(jìn)
    的頭像 發(fā)表于 11-18 09:39 ?1280次閱讀
    <b class='flag-5'>分布式</b>通信的原理和實(shí)現(xiàn)高效<b class='flag-5'>分布式</b>通信背后的<b class='flag-5'>技術(shù)</b>NVLink的演進(jìn)

    企業(yè)AI租賃是什么

    企業(yè)AI租賃是指企業(yè)通過(guò)互聯(lián)網(wǎng)向?qū)I(yè)的提供商租用所需的計(jì)算資源,以滿(mǎn)足其
    的頭像 發(fā)表于 11-14 09:30 ?2395次閱讀

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

    訓(xùn)練和推理提供了強(qiáng)大的支持,使得AI在科學(xué)研究中的應(yīng)用更加廣泛和深入。 3. 數(shù)據(jù)驅(qū)動(dòng)的研究范式 第二章還強(qiáng)調(diào)了數(shù)據(jù)在
    發(fā)表于 10-14 09:16

    AI網(wǎng)絡(luò)物理層底座: 大芯片先進(jìn)封裝技術(shù)

    隨著人工智能(AI技術(shù)的迅猛發(fā)展,我們正站在第四次工業(yè)革命的風(fēng)暴中, 這場(chǎng)風(fēng)暴也將席卷我們整個(gè)芯片行業(yè),特別是先進(jìn)封裝領(lǐng)域。Chiplet是實(shí)現(xiàn)單個(gè)芯片提升的重要
    發(fā)表于 09-11 09:47 ?1299次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>網(wǎng)絡(luò)</b>物理層底座: 大<b class='flag-5'>算</b><b class='flag-5'>力</b>芯片先進(jìn)封裝<b class='flag-5'>技術(shù)</b>