自適應(yīng)路由交換是一種智能的網(wǎng)絡(luò)數(shù)據(jù)轉(zhuǎn)發(fā)技術(shù)。它能夠讓網(wǎng)絡(luò)設(shè)備(如路由器、交換機(jī))實(shí)時(shí)地根據(jù)當(dāng)前網(wǎng)絡(luò)的狀況(如鏈路擁堵、故障),自動(dòng)地、動(dòng)態(tài)地為數(shù)據(jù)包選擇一條最優(yōu)的傳輸路徑。
深入理解:與傳統(tǒng)方式的對(duì)比
自適應(yīng)路由交換也可以稱為“動(dòng)態(tài)路由交換”為了更好地理解“自適應(yīng)”,我們先來(lái)了解一下什么是靜態(tài)路由交換。
靜態(tài)路由交換
工作方式:網(wǎng)絡(luò)管理員手動(dòng)配置好固定的路徑。比如,命令數(shù)據(jù)從A到B必須經(jīng)過(guò)路徑C ( A -> C -> B)
- 優(yōu)點(diǎn):不消耗設(shè)備計(jì)算資源。
- 缺點(diǎn):不靈活。如果路徑中的C點(diǎn)發(fā)生故障或者嚴(yán)重?fù)矶?,?shù)據(jù)包依然會(huì)“固執(zhí)地”試圖走這條路徑,導(dǎo)致通信中斷或延遲,直到管理員手動(dòng)修改配置。
它是構(gòu)建中小型網(wǎng)絡(luò)或特定網(wǎng)絡(luò)區(qū)域的經(jīng)典、可靠且低成本的方法。但在大型、動(dòng)態(tài)的網(wǎng)絡(luò)中,通常會(huì)被動(dòng)態(tài)路由協(xié)議所取代或補(bǔ)充。
自適應(yīng)路由交換
工作方式:網(wǎng)絡(luò)設(shè)備之間會(huì)運(yùn)行動(dòng)態(tài)路由協(xié)議(如 OSPF, BGP 等)。這些協(xié)議會(huì)讓設(shè)備互相通信,告知彼此自己所連接的鏈路狀態(tài)、帶寬、延遲等信息。每個(gè)設(shè)備都會(huì)根據(jù)這些信息,建立一個(gè)“網(wǎng)絡(luò)地圖”。
- 優(yōu)點(diǎn):靈活、智能、高可靠性,容錯(cuò)率高當(dāng)某條鏈路中斷時(shí),設(shè)備能立刻從“地圖”上發(fā)現(xiàn),并在毫秒級(jí)內(nèi)自動(dòng)將數(shù)據(jù)流轉(zhuǎn)發(fā)到其他可用路徑。可以同時(shí)利用多條路徑來(lái)傳輸數(shù)據(jù),避免單條鏈路擁堵,提升整體網(wǎng)絡(luò)效率。
- 缺點(diǎn):配置相對(duì)復(fù)雜,設(shè)備需要消耗計(jì)算資源來(lái)運(yùn)行路由算法和交換信息。
自適應(yīng)路由交換的關(guān)鍵機(jī)制都有哪些?
網(wǎng)絡(luò)狀態(tài)感知
只有準(zhǔn)確感知網(wǎng)絡(luò)狀態(tài),才能實(shí)現(xiàn)自適應(yīng)的路由選擇。
- 隊(duì)列深度:交換機(jī)會(huì)持續(xù)監(jiān)控其輸出端口的隊(duì)列長(zhǎng)度。隊(duì)列長(zhǎng)度是衡量擁塞程度的最直接、最簡(jiǎn)單的指標(biāo)。
- 鏈路利用率:通過(guò)監(jiān)控端口在特定時(shí)間窗口內(nèi)的實(shí)際流量與理論帶寬的比值來(lái)衡量。這有助于了解鏈路的負(fù)載情況,為路由決策提供依據(jù)。
- 帶內(nèi)網(wǎng)絡(luò)遙測(cè)(INT):這是一種先進(jìn)的感知機(jī)制。數(shù)據(jù)包在傳輸過(guò)程中會(huì)“攜帶”路徑上各節(jié)點(diǎn)的狀態(tài)信息,如延遲、隊(duì)列深度等?!炬溄印?/li>
- 顯式擁塞通知(ECN):當(dāng)交換機(jī)隊(duì)列超過(guò)設(shè)定的閾值時(shí),它會(huì)在經(jīng)過(guò)的數(shù)據(jù)包頭部打上標(biāo)記。這是一種間接的、端到端的感知機(jī)制,通過(guò)這種方式,發(fā)送端可以根據(jù)擁塞情況調(diào)整發(fā)送速率,避免進(jìn)一步加重?fù)砣??!綞CN:顯式擁塞通知機(jī)制原理解析】
總的來(lái)說(shuō),網(wǎng)絡(luò)狀態(tài)感知通過(guò)以上幾種方式,為自適應(yīng)路由交換系統(tǒng)提供了全面、準(zhǔn)確的網(wǎng)絡(luò)狀態(tài)信息。
路由決策
根據(jù)感知到的信息決定數(shù)據(jù)包的走向。
- 集中式?jīng)Q策:一個(gè)中央控制器收集全網(wǎng)信息,計(jì)算最優(yōu)路徑,并將流表下發(fā)給交換機(jī)。
- 分布式?jīng)Q策:每個(gè)交換機(jī)基于本地信息和來(lái)自鄰居交換機(jī)的有限信息(如通過(guò)PFC暫停幀或特定信令傳遞的信息),自主地做出路由決策不需要依賴中央控制器。
負(fù)載均衡
它是決定如何將流量分配到不同路徑上的關(guān)鍵部分,通常有以下幾種方式:解鎖AI數(shù)據(jù)中心潛力:網(wǎng)絡(luò)利用率如何突破90%? - 星融元Asterfusion
- 逐流負(fù)載均衡:傳統(tǒng)的 ECMP 路由通常采用逐流負(fù)載分擔(dān)機(jī)制,其核心是基于數(shù)據(jù)包的特征字段(例如 IP 五元組等信息)作為計(jì)算因子去進(jìn)行哈希運(yùn)算,根據(jù)哈希值選擇轉(zhuǎn)發(fā)鏈路。
- 逐包負(fù)載均衡:逐包的負(fù)載均衡技術(shù)則是將數(shù)據(jù)包均勻地負(fù)載到各條鏈路上,又被形象地稱為“數(shù)據(jù)包噴灑”(Packet Spray)。問(wèn)題在于逐包負(fù)載均衡無(wú)法保證報(bào)文依照原有時(shí)序到達(dá)接收端。
- Flowlet負(fù)載均衡:不同于傳統(tǒng)負(fù)載均衡的逐流負(fù)載分擔(dān)或逐包負(fù)載分擔(dān),基于子流的負(fù)載均衡不光是對(duì)數(shù)據(jù)流進(jìn)行分割以實(shí)現(xiàn)更精細(xì)均勻的負(fù)載分擔(dān),而且保持了報(bào)文到達(dá)的時(shí)序性。是目前最主流的先進(jìn)機(jī)制。
如何為每個(gè)Flowlet選擇“最佳”路徑?
這就是INT發(fā)揮作用的地方了。
與傳統(tǒng)通過(guò)SNMP輪詢或NetFlow采樣不同,INT直接將測(cè)量指令和數(shù)據(jù)嵌入到正在轉(zhuǎn)發(fā)的數(shù)據(jù)包中。
- 數(shù)據(jù)包在進(jìn)入網(wǎng)絡(luò)時(shí)被“植入”一個(gè)INT頭部。
- 當(dāng)該數(shù)據(jù)包經(jīng)過(guò)每個(gè)支持INT的網(wǎng)絡(luò)設(shè)備(交換機(jī))時(shí),設(shè)備會(huì)將自己的信息(如入口/出口時(shí)間戳、隊(duì)列深度、鏈路利用率等)寫入到這個(gè)數(shù)據(jù)包的INT頭部中。
- 最終,接收端或網(wǎng)絡(luò)邊緣設(shè)備可以將這些信息收集起來(lái),形成一個(gè)精確的、逐跳的路徑狀態(tài)視圖。
工作流程示例
- 主機(jī)A開(kāi)始向主機(jī)B發(fā)送一個(gè)TCP流。
- 第一個(gè)數(shù)據(jù)包被標(biāo)記INT,它經(jīng)過(guò)路徑 Switch1 -> Switch2 -> Switch4,并在INT頭中記錄了這條路徑上各交換機(jī)的隊(duì)列深度。
- INT信息被發(fā)送到控制器??刂破靼l(fā)現(xiàn)Switch2到Switch4的鏈路隊(duì)列很長(zhǎng)。
- 此時(shí),TCP流出現(xiàn)了一個(gè)短暫的間隙(Flowlet邊界)。
- 當(dāng)下一個(gè)數(shù)據(jù)包(屬于第二個(gè)Flowlet)到達(dá)Switch1時(shí),控制器已經(jīng)計(jì)算出一條新的、不擁塞的路徑:Switch1 -> Switch3 -> Switch4。
- Switch1將所有屬于第二個(gè)Flowlet的數(shù)據(jù)包都轉(zhuǎn)發(fā)到Switch3。
- 后續(xù)的Flowlet會(huì)重復(fù)此過(guò)程,始終選擇當(dāng)前最優(yōu)的路徑。

高效、無(wú)損的自適應(yīng)路由:基于INT的Flowlet 負(fù)載均衡技術(shù)
技術(shù) | 優(yōu)點(diǎn) | 缺點(diǎn) |
自適應(yīng)路由 | 動(dòng)態(tài)避障,高網(wǎng)絡(luò)利用率 | 容易導(dǎo)致數(shù)據(jù)包亂序,損害TCP性能 |
Flowlet | 細(xì)粒度負(fù)載均衡,天然避免亂序 | 路由決策依賴準(zhǔn)確、及時(shí)的網(wǎng)絡(luò)狀態(tài)信息 |
INT | 提供精確、實(shí)時(shí)、逐跳的網(wǎng)絡(luò)狀態(tài)信息 | 增加數(shù)據(jù)包開(kāi)銷,需要硬件支持 |
CX-N系列RoCE交換機(jī) 支持基于INT的Flowlet非常先進(jìn)的數(shù)據(jù)中心網(wǎng)絡(luò)負(fù)載均衡技術(shù),它巧妙地結(jié)合了三者的優(yōu)勢(shì):
- 利用 Flowlet 解決了自適應(yīng)路由的亂序問(wèn)題。
- 利用 INT 為Flowlet路由提供了精準(zhǔn)、及時(shí)的決策依據(jù)。
最終實(shí)現(xiàn)了高效、無(wú)損的自適應(yīng)路由,顯著提升了大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)的性能。
-
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
5425瀏覽量
74337 -
Int
+關(guān)注
關(guān)注
0文章
25瀏覽量
16379
發(fā)布評(píng)論請(qǐng)先 登錄
適用于數(shù)據(jù)中心和AI時(shí)代的800G網(wǎng)絡(luò)
小型數(shù)據(jù)中心晶振選型關(guān)鍵參數(shù)全解
數(shù)據(jù)中心子系統(tǒng)的組成
如何在降低TCO的同時(shí)提高數(shù)據(jù)中心性能?
未來(lái)數(shù)據(jù)中心與光模塊發(fā)展假設(shè)
如何提高自適應(yīng)均衡器的性能?
數(shù)據(jù)中心是什么
什么是數(shù)據(jù)中心
添加熱監(jiān)控電路降低數(shù)據(jù)中心的能耗
騰銳,數(shù)據(jù)中心性能監(jiān)測(cè)系統(tǒng)的好幫手
什么是數(shù)據(jù)中心?關(guān)于數(shù)據(jù)中心的關(guān)鍵技術(shù)
通過(guò)NVIDIA Spectrum Ethernet的自適應(yīng)路由加速網(wǎng)絡(luò)

通過(guò)博通和希捷實(shí)現(xiàn)卓越的數(shù)據(jù)中心性能雙執(zhí)行器硬盤存儲(chǔ)

賽靈思Alveo數(shù)據(jù)中心智能網(wǎng)卡自適應(yīng)加速解決方案

評(píng)論