激情多p,色狐aV手机在线观看,女朋友个子小抱着做知乎

在 AI 算力建設(shè)中， RDMA 技術(shù)是支持高吞吐、低延遲網(wǎng)絡(luò)通信的關(guān)鍵。目前，RDMA技術(shù)主要通過(guò)兩種方案實(shí)現(xiàn)：Infiniband和RoCE（基于RDMA的以太網(wǎng)技術(shù)，以下簡(jiǎn)稱(chēng)為RoCE）。

RoCE與IB網(wǎng)絡(luò)架構(gòu)概述

RoCE和InfiniBand均是InfiniBand Trade Association（IBTA）定義的網(wǎng)絡(luò)協(xié)議棧，其中Infiniband是一種專(zhuān)為RDMA設(shè)計(jì)的高性能網(wǎng)絡(luò)，它從硬件層面確保了數(shù)據(jù)傳輸?shù)目煽啃?，為了進(jìn)一步發(fā)揮RDMA的優(yōu)勢(shì)，IBTA在2010年定義了RoCE。RoCE則是Infiniband與以太網(wǎng)技術(shù)的融合，它在保持Infiniband核心優(yōu)勢(shì)的同時(shí)，實(shí)現(xiàn)了與現(xiàn)有以太網(wǎng)基礎(chǔ)設(shè)施的兼容性。具體來(lái)說(shuō)，RoCE在鏈路層和網(wǎng)絡(luò)層與Infiniband有所不同，但在傳輸層和RDMA協(xié)議方面，RoCE繼承了Infiniband的精髓。

從市場(chǎng)應(yīng)用占比來(lái)看，2000年，IB架構(gòu)規(guī)范的1.0版本正式發(fā)布，2015年，InfiniBand技術(shù)在TOP500榜單中的占比首次超過(guò)了50%，但據(jù)最新統(tǒng)計(jì)，在全球TOP500的超級(jí)計(jì)算機(jī)中，RoCE和IB的占比相當(dāng)。以計(jì)算機(jī)數(shù)量計(jì)算，IB占比為47.8%，RoCE占比為39%；而以端口帶寬總量計(jì)算，IB占比為39.2%，RoCE為48.5%。

圖1 超級(jí)計(jì)算機(jī) 500 強(qiáng)中 RoCE 和 InfiniBand 的利用率

圖2 超級(jí)計(jì)算機(jī) 500 強(qiáng)中 RoCE 和 InfiniBand 的利用率

RoCE與IB報(bào)文格式對(duì)比

RoCE報(bào)文格式下圖所示：

其中，RoCEv1使用了IB的全局路由頭（Global Routing Header），IB BTH是IB的基本傳輸頭（Base Transport Header），ICRC是對(duì)InfiniBand層不變字段進(jìn)行校驗(yàn)的循環(huán)冗余校驗(yàn)碼，FCS是以太網(wǎng)鏈路層的校驗(yàn)序列碼。

RoCEv2中添加了IP Header和UDP Headrer，引入IP解決了擴(kuò)展性問(wèn)題。

圖3 RoCE數(shù)據(jù)包格式

IB報(bào)文格式如下圖所示：

在一個(gè)子網(wǎng)（Subnet）內(nèi)部，只有Local Routing Header（LRH），對(duì)應(yīng)OSI的鏈路層。在子網(wǎng)之間，還有一個(gè)Global Routing Header（GRH），對(duì)應(yīng)OSI的網(wǎng)絡(luò)層。在Routing Header之上，是Transport Header，提供端到端的傳輸服務(wù)，包括數(shù)據(jù)的分段、重組、確認(rèn)和流量控制。接著就是報(bào)文的數(shù)據(jù)部分，包含應(yīng)用層數(shù)據(jù)或上層協(xié)議信息。最后是不變字段和可變字段的循環(huán)冗余校驗(yàn)碼（CRC），用于檢測(cè)報(bào)文在傳輸過(guò)程中的錯(cuò)誤。

圖4 IB數(shù)據(jù)包格式

RoCE與IB網(wǎng)絡(luò)層級(jí)對(duì)比

IB與RoCE協(xié)議棧在傳輸層以上是相同的，在鏈路層與網(wǎng)絡(luò)層有所區(qū)別：

RoCEv1中，以太網(wǎng)替代了IB的鏈路層(交換機(jī)需要支持PFC等流控技術(shù)，在物理層保證可靠傳輸)，然而，由于RoCEv1中使用的是L2 Ethernet網(wǎng)絡(luò)，依賴(lài)于以太網(wǎng)的MAC地址和VLAN 標(biāo)簽進(jìn)行通信，而不涉及網(wǎng)絡(luò)層（IP層，即OSI模型的第三層）的路由功能，因此，RoCE v1數(shù)據(jù)包不能實(shí)現(xiàn)跨不同的IP子網(wǎng)傳輸，只能在同一廣播域或L2子網(wǎng)內(nèi)進(jìn)行傳輸。

RoCEv2在RoCEv1的基礎(chǔ)上，融合以太網(wǎng)網(wǎng)絡(luò)層，IP又替代了IB的網(wǎng)絡(luò)層，因此也稱(chēng)為IP routable RoCE，使得RoCE v2協(xié)議數(shù)據(jù)包可以在第3層進(jìn)行路由，可擴(kuò)展性更優(yōu)。

圖5 RoCE和IB協(xié)議棧對(duì)比

物理層

RoCE的物理層基于標(biāo)準(zhǔn)以太網(wǎng)，使用PAM4 (Pulse Amplitude Modulation 4)編碼方式和64/66b編碼。支持銅纜和光纖，接口有 SFP+、QSFP+ 、OSFP等。支持速率從 10GbE到800GbE。
IB的物理層則是專(zhuān)有的，采用更傳統(tǒng)的NRZ(Non-Return-to-Zero)調(diào)制技術(shù)和64/66b編碼。支持銅纜和光纖，接口通常為 QSFP、OSFP，支持速率從 10Gbps 到 400Gbps，并可以通過(guò)多通道的組合實(shí)現(xiàn)更高的總帶寬（如 800Gbps）。

對(duì)比來(lái)看，IB采用的NRZ每個(gè)符號(hào)只有兩個(gè)電平，而RoCE采用的PAM4使用 4個(gè)不同的電壓電平來(lái)表示數(shù)據(jù)，也就是說(shuō)RZ信號(hào)中，每個(gè)周期傳輸1bit的邏輯信息，PAM4每個(gè)周期可以傳輸2bit的信息，因此在相同的波特率下，PAM4的數(shù)據(jù)傳輸速率是NRZ的兩倍，具有更高的帶寬效率，在支持更高速率（如1.6T，3.2T）時(shí)具有潛在的優(yōu)勢(shì)。目前，六進(jìn)制（PAM6）和八進(jìn)制（PAM8）調(diào)制技術(shù)正處于實(shí)驗(yàn)和測(cè)試階段，而InfiniBand（IB）也在逐漸從傳統(tǒng)的NRZ（非歸零）調(diào)制技術(shù)轉(zhuǎn)型至PAM4，例如，400G光模塊現(xiàn)已能夠同時(shí)支持IB和以太網(wǎng)標(biāo)準(zhǔn)。相比之下，以太網(wǎng)在調(diào)制技術(shù)的應(yīng)用上展現(xiàn)出更為迅速的發(fā)展勢(shì)頭。

圖6 頻域中 PAM4 與 NRZ 信號(hào)的頻率內(nèi)容

鏈路層

RoCE的鏈路層是標(biāo)準(zhǔn)以太網(wǎng)，為了在傳統(tǒng)以太網(wǎng)上實(shí)現(xiàn)無(wú)損傳輸，引入了 PFC （Priority-based Flow Control），由IEEE 802.1Qbb標(biāo)準(zhǔn)定義，當(dāng)交換機(jī)的某個(gè)優(yōu)先級(jí)隊(duì)列的緩沖區(qū)接近滿(mǎn)載時(shí)，會(huì)發(fā)送 PFC幀給上游設(shè)備，通知其暫停發(fā)送該優(yōu)先級(jí)的流量，防止緩沖區(qū)溢出，避免數(shù)據(jù)包在鏈路層被丟棄。

此外，以太網(wǎng)引入了ETS(Enhanced Transmission Selection) ，它是DCB (Data Center Bridging)標(biāo)準(zhǔn)的一部分，由 IEEE 802.1Qaz 規(guī)范定義。ETS 將流量分配到不同的隊(duì)列，為每個(gè)隊(duì)列分配一個(gè)權(quán)重，控制每個(gè)流量隊(duì)列能夠使用的帶寬百分比，保證高優(yōu)先級(jí)的流量，如RDMA等，獲得足夠的帶寬資源。

IB的鏈路層是專(zhuān)有的，包頭稱(chēng)為L(zhǎng)ocal Routing Header，如圖所示。

其中，VL是虛擬通道 (Virtual Lanes)，SL是服務(wù)等級(jí) (Service Level)，Source/Destination Local Identifier則是鏈路層地址。

它內(nèi)建了對(duì)無(wú)損傳輸?shù)闹С?，這是因?yàn)樗鼘?shí)現(xiàn)了基于信用的流量控制（ Credit -based Flow Control）。接收方在每個(gè)鏈路上提供一個(gè)信用值，表示其緩沖區(qū)能夠接收的數(shù)據(jù)量。發(fā)送方根據(jù)此信用值發(fā)送數(shù)據(jù)，確保不會(huì)超過(guò)接收方的處理能力，從而避免緩沖區(qū)溢出和 數(shù)據(jù)丟失 。

IB鏈路層結(jié)合SL和VL實(shí)現(xiàn)QoS，SL共有16個(gè)業(yè)務(wù)等級(jí)，用于標(biāo)識(shí)流量?jī)?yōu)先級(jí)，每個(gè)數(shù)據(jù)包可以根據(jù)業(yè)務(wù)需求被分配到不同的服務(wù)等級(jí)，通過(guò)SL-VL映射，將不同優(yōu)先級(jí)的流量分配到不同的VL上，從而確保高優(yōu)先級(jí)流量（如RDMA）不會(huì)因低優(yōu)先級(jí)流量的擁塞而受到影響。

對(duì)比而言，IB的鏈路層由專(zhuān)用硬件實(shí)現(xiàn)，效率較高，具有超低時(shí)延的特點(diǎn)，而RoCE基于標(biāo)準(zhǔn)以太網(wǎng)硬件，時(shí)延稍長(zhǎng)。但由于兩者都達(dá)到了100ns級(jí)別，而根據(jù)UEC的最新定義，在傳輸RDMA時(shí)，端到端性能要求通常為10μs左右，它們的差別不大。

網(wǎng)絡(luò)層

RoCE的網(wǎng)絡(luò)層使用IP，可以是IPv4或IPv6。它采用成熟的BGP/OSPF等路由協(xié)議，適應(yīng)任何網(wǎng)絡(luò)拓?fù)洳⒕哂锌焖僮杂芰Γ恢С諩CN（EXPLICIT CONGESTION NOTIFICATION ），用于端到端的擁塞控制；支持DSCP，替代IB的TRAFFIC CLASS，用于實(shí)現(xiàn)QoS。
IB的網(wǎng)絡(luò)層借鑒了IPv6。Global Routing Header的格式與IPv6完全相同，具有128bit地址，只是字段命名不同。但它沒(méi)有定義路由協(xié)議，而是采用子網(wǎng)管理器（Subnet Manager）來(lái)處理路由問(wèn)題，這是一種集中式的[服務(wù)器] ，每個(gè)網(wǎng)卡端口和交換芯片都通過(guò)由SM分配的唯一[身份標(biāo)識(shí)] （Local ID，LID）進(jìn)行識(shí)別，不具備互操作性，因此很難快速響應(yīng)網(wǎng)絡(luò)的變化。

顯然，IB網(wǎng)絡(luò)層是專(zhuān)有的、集中管理的，而RoCE的網(wǎng)絡(luò)層基于標(biāo)準(zhǔn)以太網(wǎng)和UDP，在互聯(lián)網(wǎng)數(shù)以十億計(jì)算的設(shè)備上使用，技術(shù)成熟，并在持續(xù)發(fā)展中；引入SRv6等技術(shù)后，IP進(jìn)一步增強(qiáng)了流量工程、業(yè)務(wù)鏈、靈活性和可擴(kuò)展性等能力，非常適合組建超大規(guī)?？勺杂腞DMA網(wǎng)絡(luò)。

傳輸層

RoCE

RoCE采用了IB的傳輸層。RoCEv2協(xié)議棧雖然包含UDP，但它僅借用了UDP的封裝格式，傳輸層的連接、重傳、擁塞控制等功能由IB傳輸層完成。UDP層的目的端口固定分配給RDMA協(xié)議，源端口則是動(dòng)態(tài)分配的，但在一個(gè)連接過(guò)程中保持固定。這樣可以讓網(wǎng)絡(luò)設(shè)備通過(guò)源端口區(qū)分不同的RDMA 數(shù)據(jù)流 。

InfiniBand

IB的傳輸層采用了模塊化的靈活設(shè)計(jì)，通常包含一個(gè)基本傳輸頭 BTH（Base Transport Header） 和若干個(gè)（0到多個(gè)）擴(kuò)展的傳輸頭（Extended Transport Header）。

BTH（Base Transport Header） 是InfiniBand傳輸層頭部的一部分。它是InfiniBand網(wǎng)絡(luò)協(xié)議中L4傳輸層的基本頭部，用于描述數(shù)據(jù)包傳輸?shù)目刂菩畔ⅰ８袷饺缦拢?/p>

關(guān)鍵信息有：

OpCode ， 操作碼 。由8個(gè)bit組成。前3個(gè)bit代表傳輸服務(wù)類(lèi)型，如可靠連接/不可靠連接/可靠數(shù)據(jù)報(bào)/不可靠數(shù)據(jù)報(bào)/RAW數(shù)據(jù)報(bào)等。后5個(gè)bit代表操作類(lèi)型，如SEND/READ/WRITE/ACK等。
Destination QP，目的QP號(hào) （Queue Pair Number）。與TCP端口號(hào)類(lèi)似，代表了RDMA連接（稱(chēng)為Channel）的目的端。但與TCP端口不同的是，QP由Send/Recv兩個(gè)隊(duì)列組成，但用同一個(gè)號(hào)碼標(biāo)識(shí)。
Packet Sequence Number，包序列號(hào) ，簡(jiǎn)稱(chēng)PSN。與TCP序列號(hào)類(lèi)似，用于檢查數(shù)據(jù)包的傳輸順序。
Partition Key，分區(qū)鍵。 可以將一個(gè)RDMA網(wǎng)絡(luò)分為多個(gè)邏輯分區(qū)。在RoCE中可采用新一代的VxLAN等技術(shù)替代。
ECN，顯示擁塞通知。 用于擁塞控制，包含F(xiàn)orward和Backward兩個(gè)bit，分別表示在發(fā)送和返回路徑上遇到了擁塞，在RoCE中被IP頭部的ECN替代。

BTH幫助接收方理解該包屬于哪個(gè)連接以及如何處理接收到的包，包括驗(yàn)證包的順序、識(shí)別操作類(lèi)型等。

在BTH之后，還有 RDMA Extended Transport Header ，它包含遠(yuǎn)端的虛擬地址、密鑰和數(shù)據(jù)長(zhǎng)度等信息。格式如下，

其中：

VirtualAddress ，虛擬地址，代表目的端內(nèi)存地址。
DMA Length ，直接內(nèi)存訪(fǎng)問(wèn)長(zhǎng)度，是要讀寫(xiě)的數(shù)據(jù)長(zhǎng)度，以字節(jié)為單位。
Remote Key ，用于訪(fǎng)問(wèn)遠(yuǎn)端內(nèi)存的密鑰。

IB傳輸層通常由RDMA網(wǎng)卡硬件實(shí)現(xiàn)，在IB中稱(chēng)為Channel Adapter（CA），在RoCE中稱(chēng)為RoCE網(wǎng)卡，從而提升RDMA傳輸?shù)男阅?。在一些高?jí)的RoCE交換機(jī)中，還可以感知IB傳輸層信息并對(duì)RDMA數(shù)據(jù)流做加速處理。

RDMA操作

借助RDMA擴(kuò)展頭，RoCE和IB的傳輸層對(duì)遠(yuǎn)程主機(jī)的地址進(jìn)行直接的讀寫(xiě)操作（Operation）。

RDMA寫(xiě)操作 (RDMA Write)

在 QP（Queue Pair） 建立后可以直接進(jìn)行，允許發(fā)送方直接寫(xiě)入接收方的內(nèi)存，不需要接收方的CPU參與，并且無(wú)需請(qǐng)求。這種操作方式是 RDMA 高性能和低延遲的核心特性之一。

RDMA Write 是一種單向操作。寫(xiě)入方在寫(xiě)入數(shù)據(jù)后不需要等待接收方的響應(yīng)，這種操作與常規(guī)的 Send/Receive 模式不同，不需要接收方預(yù)先準(zhǔn)備接收隊(duì)列。

RDMA讀操作 (RDMA Read)

允許發(fā)送方從接收方的內(nèi)存中讀取數(shù)據(jù)，不需要接收方CPU參與。目標(biāo)地址和數(shù)據(jù)大小在發(fā)送方指定。如下圖所示，在一次請(qǐng)求后，可以通過(guò)多次響應(yīng)返回?cái)?shù)據(jù),提高了數(shù)據(jù)傳輸效率。

圖7 RDMA 讀操作

發(fā)送/接收操作 (Send/Receive)

這是傳統(tǒng)的消息傳遞操作，數(shù)據(jù)從發(fā)送方傳遞到接收方的接收隊(duì)列中，需要接收方預(yù)先準(zhǔn)備接收隊(duì)列。

在RoCE中，RDMA跳過(guò)操作系統(tǒng)的TCP/IP協(xié)議棧，直接與RoCE網(wǎng)卡上的傳輸層連接，借助DMA機(jī)制，直接訪(fǎng)問(wèn)本地和遠(yuǎn)端內(nèi)存，實(shí)現(xiàn)了零拷貝傳輸，大幅度提升了性能。

同樣，IB網(wǎng)卡在硬件上實(shí)現(xiàn)RDMA操作，零拷貝傳輸，兩者的性能相當(dāng)。

當(dāng)然，無(wú)論在RoCE還是IB中，RDMA 連接的初始化、資源分配、隊(duì)列對(duì) (QP) 管理、以及一些控制路徑上的操作（如連接建立、內(nèi)存注冊(cè)等）仍然依賴(lài)于軟件棧。

應(yīng)用層

RDMA在 數(shù)據(jù)中心 、HPC集群、超級(jí)計(jì)算機(jī)中獲得了廣泛的應(yīng)用，用于承載AI訓(xùn)練、推理、[分布式存儲(chǔ)] 等數(shù)據(jù)中心內(nèi)部的關(guān)鍵業(yè)務(wù)。

例如，在AI訓(xùn)練/推理時(shí)， xCCL或者M(jìn)PI使用RDMA實(shí)現(xiàn)點(diǎn)對(duì)點(diǎn)和集合通信；在分布式存儲(chǔ)時(shí)，NVMEoF, Ceph使用RDMA對(duì)網(wǎng)絡(luò)存儲(chǔ)器進(jìn)行讀寫(xiě)操作。

網(wǎng)絡(luò)層級(jí)對(duì)比小結(jié)

在物理層，RoCE和IB都支持800G，但PAM4相比NRZ具有更強(qiáng)的升級(jí)潛力，以太網(wǎng)成本也低于IB，RoCE更勝一籌。
在鏈路層，兩者均實(shí)現(xiàn)了無(wú)損傳輸，RoCE的ETS能夠?yàn)椴煌瑑?yōu)先的流量提供帶寬保證，且RoCE和IB的時(shí)延均達(dá)到了100ns級(jí)別，在實(shí)際應(yīng)用中差不大。
在網(wǎng)絡(luò)層，RoCE借助IP的成熟的持續(xù)發(fā)展，更能適應(yīng)大規(guī)模網(wǎng)絡(luò)。
傳輸層及以上，RoCE和IB使用同樣的協(xié)議，沒(méi)有區(qū)別。

RoCE與IB的較量，究竟誰(shuí)更勝一籌

總的來(lái)說(shuō)，RoCE和InfiniBand都由IBTA定義，沒(méi)有本質(zhì)的不同。RoCE實(shí)際上是將成熟的IB傳輸層和RDMA移植到了同樣成熟的以太網(wǎng)和IP網(wǎng)絡(luò)上，是一種強(qiáng)強(qiáng)聯(lián)合，在保持高性能的同時(shí)，降低了RDMA網(wǎng)絡(luò)的成本，能夠適應(yīng)更大規(guī)模的網(wǎng)絡(luò)。

根據(jù)亞馬遜的高級(jí)首席工程師Brian Barrett，AWS之所以放棄IB方案，主要是因?yàn)椋骸霸茢?shù)據(jù)中心很多時(shí)候是要滿(mǎn)足資源調(diào)度和共享等一系列彈性部署的需求，專(zhuān)用的IB網(wǎng)絡(luò)構(gòu)建的集群如同在汪洋大海中的孤島”。

出于AI算力建設(shè)對(duì)于成本和開(kāi)放性的考量，越來(lái)越多的公司已經(jīng)在使用以太網(wǎng)交換機(jī)用于大規(guī)模AI算力中心，例如當(dāng)前全球最大的AI超級(jí)集群（xAI Colossus，造價(jià)數(shù)億美元、配備十萬(wàn)片NVIDIA H100 GPU），便是采用64 x 800G，51.2T以太網(wǎng)方案構(gòu)建集群網(wǎng)絡(luò)。

參考文獻(xiàn)

https://mp.weixin.qq.com/s/PZ_Q5rS5a5YJlczao9SMXw

https://support.huawei.com/enterprise/zh/doc/EDOC1100203347

https://community.fs.com/cn/article/roce-technology-in-high-performance-computing.html

https://ascentoptics.com/blog/cn/understanding-infiniband-a-comprehensive-guide/

https://blog.csdn.net/jkh920184196/article/details/141461235

https://www.servethehome.com/inside-100000-nvidia-gpu-xai-colossus-cluster-supermicro-helped-build-for-elon-musk/

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

協(xié)議

協(xié)議

+關(guān)注

關(guān)注
2

文章
618

瀏覽量
41086
網(wǎng)絡(luò)

網(wǎng)絡(luò)

+關(guān)注

關(guān)注
14

文章
8265

瀏覽量
94773
iB

iB

+關(guān)注

關(guān)注
0

文章
5

瀏覽量
9610

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

RoCE與IB對(duì)比分析（一）：協(xié)議棧層級(jí)篇

RoCE與IB網(wǎng)絡(luò)架構(gòu)概述

RoCE與IB報(bào)文格式對(duì)比

RoCE與IB網(wǎng)絡(luò)層級(jí)對(duì)比

物理層