InfiniBand(IB)是由InfiniBand貿(mào)易協(xié)會(IBTA)建立的先進計算機網(wǎng)絡通信標準。它在高性能計算(HPC)中的廣泛采用歸功于它能夠為網(wǎng)絡傳輸提供卓越的吞吐量、帶寬和低延遲。
InfiniBand是計算系統(tǒng)內(nèi)部和外部的關鍵數(shù)據(jù)連接。無論是通過直接鏈路還是通過網(wǎng)絡交換機進行互連,InfiniBand都有助于實現(xiàn)服務器到存儲和存儲到存儲數(shù)據(jù)傳輸?shù)母咝阅芫W(wǎng)絡。InfiniBand網(wǎng)絡可擴展性允許通過交換網(wǎng)絡進行水平擴展,以滿足多樣化的網(wǎng)絡需求。隨著科學計算、人工智能(AI)和云數(shù)據(jù)中心的快速發(fā)展,InfiniBand在端到端高性能網(wǎng)絡的HPC超級計算應用中越來越受到青睞。
2015年6月,InfiniBand在全球最強大的超級計算機500強名單中占據(jù)了驚人的51.8%,同比增長了15.8%。
在2022年6月的Top500榜單中,InfiniBand網(wǎng)絡再次占據(jù)了超級計算機互連設備的領先地位。與之前的榜單相比,InfiniBand網(wǎng)絡展現(xiàn)了在數(shù)量和性能方面的優(yōu)勢。主要趨勢包括:
基于InfiniBand的超級計算機以189個系統(tǒng)數(shù)量遙遙領先。
基于InfiniBand的超級計算機以59臺設備數(shù)量在前100個系統(tǒng)中占據(jù)主導地位。
英偉達(NVIDIA)GPU和網(wǎng)絡產(chǎn)品,尤其是邁絡思(Mellanox)HDR Quantum QM87xx交換機和BlueField DPU,在超過三分之二的超級計算機中占據(jù)了主導互連的地位。
除了傳統(tǒng)的HPC應用之外,InfiniBand網(wǎng)絡還廣泛用于企業(yè)級數(shù)據(jù)中心和公有云。例如,領先的企業(yè)超級計算機英偉達(NVIDIA)Selene和Microsoft的Azure公有云利用InfiniBand網(wǎng)絡提供卓越的業(yè)務性能。
在2023年11月的最新Top500榜單中,InfiniBand保持著領先位置,突顯了其持續(xù)增長的趨勢。InfiniBand在Top500排行榜中備受關注,主要是因為它具有卓越的性能優(yōu)勢。
InfiniBand網(wǎng)絡的優(yōu)勢
InfiniBand技術被認為是面向未來的高性能計算(HPC)標準,在超級計算機、存儲甚至LAN網(wǎng)絡的HPC連接方面享有很高的聲譽。InfiniBand技術擁有眾多優(yōu)勢,包括簡化管理、高帶寬、完全CPU卸載、超低延遲、集群可擴展性和靈活性、服務質(zhì)量(QoS)、SHARP支持等。
輕松的網(wǎng)絡管理
InfiniBand代表了專為軟件定義網(wǎng)絡(SDN)打造的開創(chuàng)性網(wǎng)絡架構,并由子網(wǎng)管理器進行監(jiān)督。子網(wǎng)管理器負責配置本地子網(wǎng),確保網(wǎng)絡無縫運行。為了管理流量,所有通道適配器和交換機都必須實現(xiàn)與子網(wǎng)管理器協(xié)作的子網(wǎng)管理代理(SMA)。在建立或切斷鏈接時,每個子網(wǎng)至少需要一個子網(wǎng)管理器進行初始設置和重新配置。仲裁機制用于指定主子網(wǎng)管理器,其他子網(wǎng)管理器在備用模式下運行。在備用模式下,每個子網(wǎng)管理器都會保留備份拓撲信息并驗證子網(wǎng)的運行狀態(tài)。如果主子網(wǎng)管理器發(fā)生故障,備用子網(wǎng)管理器將接管控制權,從而保證子網(wǎng)管理不間斷。
更高的帶寬
自從InfiniBand問世以來,其網(wǎng)絡數(shù)據(jù)速率一直超過以太網(wǎng),主要是因為它在高性能計算中的服務器互連中得到了廣泛應用,滿足了對更高帶寬的需求。在2014年早期,流行的InfiniBand速率是40Gb/s QDR和56Gb/s FDR。目前,更高的InfiniBand速率,例如100Gb/s EDR和200Gb/s HDR,已被全球眾多超級計算機廣泛采用。最新的OpenAI工具ChatGPT的推出促使企業(yè)考慮在其高性能計算(HPC)系統(tǒng)中部署具有400Gb/s NDR數(shù)據(jù)速率的先進InfiniBand網(wǎng)絡產(chǎn)品,包括InfiniBand NDR交換機和光纜。
每種InfiniBand速率類型的縮寫如下:
SDR-單數(shù)據(jù)速率,8Gbps。
DDR-雙倍數(shù)據(jù)速率,10Gbps/16Gbps。
QDR-四倍數(shù)據(jù)速率,40Gbps/32Gbps。
FDR-十四倍數(shù)據(jù)率,56Gbps。
EDR-增強型數(shù)據(jù)速率,100Gbps。
HDR-高動態(tài)范圍,200Gbps。
NDR-下一代數(shù)據(jù)速率,400Gbps。
XDR-極致數(shù)據(jù)速率,800Gbps。
高效的CPU卸載
CPU卸載是增強計算性能的一項關鍵技術,而InfiniBand網(wǎng)絡架構通過以下方式以最少的CPU資源促進數(shù)據(jù)傳輸:
整個傳輸層協(xié)議棧的硬件卸載。
內(nèi)核繞行,零拷貝。
RDMA(遠程直接內(nèi)存訪問),一種將數(shù)據(jù)從一臺服務器的內(nèi)存直接寫入另一臺服務器的內(nèi)存的過程,無需CPU參與。
利用GPUDirect技術是另一種選擇,它允許直接訪問GPU內(nèi)存中的數(shù)據(jù),并加速數(shù)據(jù)從GPU內(nèi)存?zhèn)鬏數(shù)狡渌?jié)點。此功能可提高人工智能(AI)、深度學習訓練、機器學習等計算應用程序的性能。
低延遲
InfiniBand和以太網(wǎng)之間的延遲對比可以分為兩個主要組成部分。首先,在交換機層面上,以太網(wǎng)交換機在網(wǎng)絡傳輸模型中作為第2層設備運行,通常采用MAC表查找尋址和存儲轉(zhuǎn)發(fā)機制(某些產(chǎn)品可能采用InfiniBand的直通技術)。以太網(wǎng)交換機中,IP、MPLS、QinQ和其他處理等復雜服務會導致處理持續(xù)時間延長,延遲測量結果通常以微秒為單位(直通支持可能超過200ns)。相比之下,InfiniBand交換機簡化了第2層處理,僅依靠16位LID轉(zhuǎn)發(fā)路徑信息。此外,采用直通技術可將轉(zhuǎn)發(fā)延遲顯著降低到100ns以下,已經(jīng)超過以太網(wǎng)交換機的速率。
如前所述,在網(wǎng)卡(NIC)層面,RDMA技術消除了網(wǎng)卡遍歷CPU進行消息轉(zhuǎn)發(fā)的需要。這種加速盡可能地減少了封裝和解封裝期間消息處理的延遲。通常,InfiniBand網(wǎng)卡的發(fā)送和接收延遲(寫入、發(fā)送)為600ns,而使用以太網(wǎng)的基于以太網(wǎng)TCP UDP應用程序的發(fā)送和接收延遲通常徘徊在10us左右。這導致InfiniBand和以太網(wǎng)之間的延遲差距超過10倍。
可擴展性和靈活性
InfiniBand網(wǎng)絡的一個重要優(yōu)勢在于其能夠在單個子網(wǎng)中部署多達48,000個節(jié)點,形成一個龐大的第二層網(wǎng)絡。此外,InfiniBand網(wǎng)絡避開了ARP等廣播機制,從而避免了廣播風暴和相關的額外帶寬浪費。多個InfiniBand子網(wǎng)的連接可通過路由器和交換機實現(xiàn),展示了該技術在支持各種網(wǎng)絡拓撲方面的多功能性。
對于較小規(guī)模的情況,建議使用2層胖樹拓撲結構,而對于較大規(guī)模的情況,可以選擇3層胖樹網(wǎng)絡拓撲結構。在特定規(guī)模之上,可以采用經(jīng)濟高效的Dragonfly拓撲結構來進一步提升可擴展性。
服務質(zhì)量(QoS)支持
在管理InfiniBand網(wǎng)絡時,如果各種應用程序共存于同一子網(wǎng)上,且具有不同的優(yōu)先級要求,那么提供服務質(zhì)量(QoS)就成為一個關鍵因素。QoS表示為不同的應用程序、用戶或數(shù)據(jù)流提供不同優(yōu)先級服務的能力。在InfiniBand環(huán)境中,可以將高優(yōu)先級應用程序分配給特定的端口隊列,從而確保這些隊列中的消息得到優(yōu)先處理。
InfiniBand通過實施虛擬通道(VL)實現(xiàn)QoS。虛擬通道是共享公共物理鏈路的離散邏輯通信鏈路。每個VL能夠支持多達15個標準虛擬通道以及一個指定為VL15的管理通道。這種方法可以根據(jù)優(yōu)先級對流量進行有效隔離,從而允許在InfiniBand網(wǎng)絡內(nèi)優(yōu)先傳輸高優(yōu)先級應用程序。
穩(wěn)定性和彈性
在理想情況下,網(wǎng)絡運行穩(wěn)定且沒有故障。然而,現(xiàn)實情況中長期運行的網(wǎng)絡偶爾會出現(xiàn)故障。為了解決這些挑戰(zhàn)并確保快速恢復,InfiniBand采用了一種稱為自我修復網(wǎng)絡的機制,這是一種集成到InfiniBand交換機中的硬件功能。
NVIDIA Mellanox InfiniBand解決方案包括InfiniBand交換機、網(wǎng)卡和邁絡思(Mellanox)線纜等硬件組件,利用自我修復網(wǎng)絡實現(xiàn)從鏈路故障中快速恢復。這種基于硬件的功能能夠在驚人的1ms內(nèi)恢復鏈路故障,比正?;謴蜁r間快了5000倍。
優(yōu)化的負載均衡
提高網(wǎng)絡利用率是高性能數(shù)據(jù)中心的一項關鍵要求。在InfiniBand網(wǎng)絡中,一種有效的實現(xiàn)方法是負載均衡。
負載均衡是一種路由策略,可以在多個可用端口之間分配流量。其中自適應路由是一個關鍵特性,可以確保流量在交換機端口之間均勻分布。這個特性在交換機上得到硬件支持,并由自適應路由管理器進行管理。
當自適應路由處于活動狀態(tài)時,交換機上的隊列管理器將監(jiān)控所有組出口端口上的流量,均衡每個隊列上的負載,并將流量引導至未充分利用的端口。自適應路由可動態(tài)平衡負載,防止網(wǎng)絡擁塞并優(yōu)化網(wǎng)絡帶寬利用率。
網(wǎng)絡計算技術-SHARP
InfiniBand交換機還具有SHARP網(wǎng)絡計算技術,該技術代表可擴展的分層聚合和縮減協(xié)議。SHARP是集成到交換機硬件中的軟件,是一個集中管理的軟件包。
通過將聚合通信任務從CPU和GPU卸載到交換機,SHARP可以優(yōu)化這些通信。它可以防止節(jié)點之間的冗余數(shù)據(jù)傳輸,從而減少必須遍歷網(wǎng)絡的數(shù)據(jù)量。因此,SHARP顯著提高了加速計算的性能,尤其是在AI和機器學習等MPI應用中。
多樣化的網(wǎng)絡拓撲
InfiniBand支持各種網(wǎng)絡拓撲,如胖樹、Torus、Dragonfly+、Hypercube和HyperX,滿足網(wǎng)絡擴展、降低總擁有成本(TCO)、最小化延遲和延長傳輸距離等不同需求。
InfiniBand利用其無與倫比的技術優(yōu)勢,顯著簡化了高性能網(wǎng)絡架構,減輕了多級架構層次結構帶來的延遲。此功能為無縫升級關鍵計算節(jié)點的訪問帶寬提供了強大的支持。InfiniBand網(wǎng)絡因其高帶寬、低延遲以及與以太網(wǎng)的兼容性,越來越多地在各種場景中得到應用。
InfiniBand HDR產(chǎn)品解決方案簡介
隨著客戶端需求的不斷增長,100Gb/s EDR正逐漸退出市場。目前NDR的數(shù)據(jù)速率被認為過高,而HDR憑借其提供HDR100(100G)和HDR200(200G)的靈活性獲得廣泛采用。
InfiniBand HDR交換機
英偉達(NVIDIA)提供兩種類型的InfiniBand HDR交換機。第一種是HDR CS8500模塊化機箱交換機,這是一款29U交換機,提供多達800個HDR 200Gb/s端口。每個200G端口支持拆分為2X100G,最多支持1600個HDR100(100Gb/s)端口。第二種是QM87xx系列固定交換機,1U面板集成了40個200G QSFP56端口。這些端口可以拆分為多達80個HDR 100G端口,以連接到100G HDR網(wǎng)卡。同時,每個端口還向后支持EDR速率以連接100G EDR網(wǎng)卡卡。需要注意的是,單個200G HDR端口只能降速到100G連接EDR網(wǎng)卡,不能拆分成2X100G連接兩個EDR網(wǎng)卡。
200G HDR QM87xx交換機有兩種型號:MQM8700-HS2F和MQM8790-HS2F。這兩種型號之間的唯一區(qū)別在于管理方法。QM8700交換機具有支持帶外管理的管理端口,而QM8790交換機需要英偉達(NVIDIA)UFMR平臺進行管理。
對于QM8700和QM8790,每種交換機都提供兩種氣流選項。其中,MQM8790-HS2F交換機具有P2C(電源到線纜)氣流,可通過風扇模塊上的藍色標記來識別。如果忘記了顏色標記,也可以通過將手放在開關的進氣口和出風口前面來確定氣流方向。MQM8790-HS2R交換機采用C2P(線纜到電源)氣流,風扇模塊上有紅色標記。QM87xx系列交換機型號詳情如下:
CQM8700和QM8790交換機通常用于兩種連接應用。一種與200G HDR網(wǎng)卡連接,從而實現(xiàn)使用200G到200GAOC/DAC線纜的直接連接。另一種常見的應用是連接100G HDR網(wǎng)卡,需要使用200G轉(zhuǎn)2X100G線纜將交換機的物理200G(4X50G)QSFP56端口拆分為兩個虛擬100G(2X50G)端口。拆分后,端口符號從x/y轉(zhuǎn)換為x/Y/z,其中“x/Y”表示拆分前端口的原始符號,“z”表示單通道端口的編號(1,2),每個子物理端口被視為一個單獨的端口。
InfiniBand HDR網(wǎng)卡(NIC)
與HDR交換機相比,HDR網(wǎng)卡(NIC)種類繁多。關于速率,有兩種選擇:HDR100和HDR。
HDR100網(wǎng)卡支持100Gb/s的傳輸速率,兩個HDR100端口可以使用200G HDR轉(zhuǎn)2X100G HDR100線纜連接到HDR交換機。與100G EDR網(wǎng)卡相比,HDR100網(wǎng)卡的100G端口可以同時支持4X25G NRZ傳輸和2X50G PAM4傳輸。
200G HDR網(wǎng)卡支持200G的傳輸速率,可以使用200G直連線纜直接連接到交換機。
除了兩種接口數(shù)據(jù)速率外,每種速率的網(wǎng)卡都可以根據(jù)業(yè)務需求選擇單端口、雙端口和PCIe類型。常用的IB HDR網(wǎng)卡型號如下:
HDR InfiniBand網(wǎng)絡架構簡單明了,同時提供了多種硬件選項。對于100Gb/s速率,有100G EDR和100G HDR100解決方案。200Gb/s速率包括HDR和200G NDR200選項。各種應用中使用的交換機、網(wǎng)卡和附件存在顯著差異。InfiniBand高性能HDR和EDR交換機、智能網(wǎng)卡、納多德(NADDOD)/邁絡思(Mellanox)/思科(Cisco)/惠普(HPE)光纜&高速線纜&光模塊產(chǎn)品組合解決方案,為數(shù)據(jù)中心、高性能計算、邊緣計算、人工智能等應用場景提供更具優(yōu)勢和價值的光網(wǎng)絡產(chǎn)品和綜合解決方案。這大大增強了客戶的業(yè)務加速能力,成本低且性能優(yōu)異。
InfiniBand與以太網(wǎng)、光纖通道和Omni-Path有什么區(qū)別
InfiniBand與以太網(wǎng)
與眾不同的技術:InfiniBand和以太網(wǎng)是數(shù)據(jù)傳輸?shù)年P鍵通信技術,每種技術都適用于不同的應用。
歷史速率:InfiniBand的歷史數(shù)據(jù)傳輸速率從InfiniBand SDR 10Gb/s開始,超過了千兆以太網(wǎng)的初始速率。
當前主導地位:InfiniBand已經(jīng)發(fā)展成為主導地位,網(wǎng)絡速率達到了100G EDR或200G HDR,并且正在朝著更快的速率發(fā)展,比如400G NDR和800G XDR。
嚴格的延遲要求:InfiniBand遵守嚴格的延遲要求,接近零延遲。
理想應用:InfiniBand在需要快速和精確數(shù)據(jù)處理的應用中表現(xiàn)出色,在超級計算中得到廣泛應用,適用于大容量數(shù)據(jù)分析、機器學習、深度學習訓練、推理、對話式AI、預測和預測等任務。
以太網(wǎng)的作用:盡管速率相對較慢,以太網(wǎng)以其高可靠性而聞名,非常適合需要穩(wěn)定可靠數(shù)據(jù)傳輸?shù)木钟蚓W(wǎng)應用。
速率和可靠性的差異:這些技術之間的主要差異在于它們的速率和可靠性。在高性能計算網(wǎng)絡中,InfiniBand優(yōu)先用于需要快速數(shù)據(jù)傳輸?shù)膽贸绦?,而以太網(wǎng)的可靠性使其更適合在LAN網(wǎng)絡中進行一致的數(shù)據(jù)傳輸。
InfiniBand與光纖通道
存儲區(qū)域網(wǎng)絡(SAN)中的光纖通道:光纖通道主要用于存儲區(qū)域網(wǎng)絡(SAN),專門用于數(shù)據(jù)中心環(huán)境中的服務器、存儲設備或客戶端節(jié)點之間的高速數(shù)據(jù)傳輸。
安全通道技術:光纖通道采用專用的安全通道技術,確??焖倏煽康臄?shù)據(jù)傳輸。
存儲解決方案的多功能性:光纖通道是一種可靠且可擴展的技術,廣泛用于企業(yè)存儲解決方案。
區(qū)分數(shù)據(jù)傳輸類型:InfiniBand和光纖通道之間的主要區(qū)別在于它們通常支持的數(shù)據(jù)傳輸類型。
更好選擇:在局域網(wǎng)環(huán)境中,以太網(wǎng)被用于客戶端和服務器之間的連接,而光纖通道在存儲區(qū)域網(wǎng)絡(SAN)中的存儲應用方面表現(xiàn)出色。與此同時,InfiniBand作為一種創(chuàng)新技術,用于連接CPU和內(nèi)存組件,支持集群和與I/O控制器的連接。
InfiniBand與Omni-Path
數(shù)據(jù)中心網(wǎng)絡的演變:盡管英偉達(NVIDIA)推出了InfiniBand 400G NDR解決方案,但一些用戶仍在繼續(xù)使用100G EDR解決方案。Omni-Path和InfiniBand都是以100Gb/s速率運行的高性能數(shù)據(jù)中心網(wǎng)絡的常見選擇。
網(wǎng)絡結構區(qū)別:雖然這兩種技術提供相似的性能,但Omni-Path和InfiniBand的網(wǎng)絡結構有很大不同。舉例來說,使用InfiniBand的400節(jié)點集群只需要15臺英偉達(NVIDIA)Quantum 8000系列交換機和特定線纜,而Omni-Path需要24臺交換機和大量有源光纜。
InfiniBand EDR解決方案的優(yōu)勢:與Omni-Path相比,InfiniBand EDR解決方案在設備成本、運營和維護成本以及總體功耗方面具有顯著優(yōu)勢。這使得InfiniBand成為更環(huán)保的選擇。
審核編輯:黃飛
?
評論