chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

從哈希極化到零擁塞:主動路徑規(guī)劃在RoCE網(wǎng)絡中的負載均衡實踐

星融元Asterfusion ? 2025-07-21 17:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

智算中心運維團隊常陷入兩難:手動配置ECMP路徑雖能緩解哈希極化,但面對萬端口級交換機集群,單次策略調(diào)整需數(shù)百人時;而動態(tài)負載均衡方案又帶來協(xié)議兼容性與部署復雜度新挑戰(zhàn)。在“精準控制”與“敏捷運維”之間尋求平衡點,成為規(guī)模組網(wǎng)落地RoCE無損網(wǎng)絡的決勝關鍵。

什么是哈希極化?

哈希極化(Hash Polarization),亦稱哈希分布不均,本質(zhì)上是靜態(tài)哈希算法的局限性與網(wǎng)絡拓撲特性及流量分布特征共同作用的結果:

1. 算法同質(zhì)化:網(wǎng)絡設備普遍采用相同或高度相似的哈希算法(如標準五元組哈希),導致路徑選擇缺乏隨機性;

2. 流量特征集中:當大量數(shù)據(jù)流具有相似關鍵特征(如共享相同源/目的IP),且該特征被用作哈希主輸入時,這些流會以極高概率被映射到相同路徑;

3. 拓撲放大效應:在多層ECMP架構(如Leaf-Spine)中:

  • Leaf層初步分散的流量
  • 經(jīng)Spine層時因相同哈希邏輯重新聚合,形成二次極化,使流量向少數(shù)路徑傾斜;

4. 大流干擾:少數(shù)主導性大流量(Elephant Flows)進一步加劇路徑負載失衡。

主動路徑規(guī)劃配置邏輯

在不引入動態(tài)負載均衡技術的情況下,我們可以通過增加參與哈希計算的因子,以及主動規(guī)范流量路徑的方式來應對 AI 算力集群規(guī)?;渴鸬耐袋c(例如負載均衡和租戶隔離等),主動路徑規(guī)劃需要網(wǎng)絡工程師按照如下轉(zhuǎn)發(fā)邏輯去配置 RoCE 交換機:

1. 智算服務器上每張網(wǎng)卡都對應一個接口,服務器產(chǎn)生跨 Spine 的上行流量會在Leaf交換機判定并執(zhí)行策略路由轉(zhuǎn)發(fā)給對應 Spine

  • 在1:1無收斂的情況下,Leaf 交換機的每個下行端口綁定一個上行端口
  • 在 n:1 的情況下,上下行端口以倍數(shù)關系(向上取整) 形成 n:1 的映射
wKgZO2h-BfGAYnpWAABsNuOSh8I737.png

2. 跨 Spine 上行流量在 Spine 上按照標準 L3 邏輯轉(zhuǎn)發(fā)在智算環(huán)境下的軌道組網(wǎng)中,多數(shù)流量僅在軌道內(nèi)傳輸,跨軌傳輸流量較小,網(wǎng)絡方案可以暫不考慮在 Spine 上擁塞的情況;
3. 跨 Spine 下行流量進入 Leaf 后根據(jù) default 路由表指導轉(zhuǎn)發(fā)。
可以看到,以上配置邏輯若完全以手動輸入命令行的方式下發(fā)到所有交換機,會是一件相當繁瑣且耗時的事情,也容易引入配置失誤。

借助 EasyRoCE 工具配置

為加速智算場景下的路由優(yōu)化配置,此前我們有介紹過 PPD 工具(主動路徑規(guī)劃,Proactive Path Definer)的1.0 版本。如今經(jīng)過一段時間的實踐打磨,PPD 工具迎來了一輪迭代,升級到2.0版本,其主要運行步驟如下:

1. 從 AID 工具(AI基礎設施藍圖規(guī)劃,AI Infrastructure Descriptor)讀取網(wǎng)絡基礎配置信息。

2. 運行 PPD 工具,生成路由配置文件。

3. 在 UG 工具 (統(tǒng)一監(jiān)控面板,Unified Glancer)中展示配置文件,用戶核對并確認配置下發(fā)。

作為 EasyRoCE 工具套件的構成部分,PPD 可以獨立運行在服務器上,也可以代碼形式被集成到第三方管理軟件中。
EasyRoCE Toolkit 是星融元依托開源、開放的網(wǎng)絡架構與技術,為AI 智算、超算等場景的RoCE網(wǎng)絡提供的一系列實用特性和小工具,如一鍵配置RoCE,高精度流量監(jiān)控等…所有功能對簽約客戶免費開放。

PPD 2.0 升級了什么?

  • 改善 AID 與 PPD 工具的對接流程,完全實現(xiàn)網(wǎng)絡基礎信息的自動化填充
  • 優(yōu)化 PPD 工具的圖形界面操作體驗,配置下發(fā)進度和結果可即時呈現(xiàn),便于管理員快速排查異常原因
  • 自動集成到統(tǒng)一監(jiān)控面板(UG),與其他 RDMA 網(wǎng)絡配置信息在一處集中查看和管理

使用演示

第一步:導入基礎網(wǎng)絡信息

AID 工具是 PPD 的“數(shù)據(jù)源”,其中有一個專門的工作表存儲了 PPD 工具所依賴的所有基礎網(wǎng)絡信息,主要是 GPU server 各網(wǎng)卡的 IP 地址、交換機接口互聯(lián)關系和其對應的 IP 地址等,以上都支持一鍵自動填充;此外,該工作表內(nèi)還預留有與多租戶網(wǎng)絡配置相關的標識信息(InstanceID和 Description),管理員可按需手動填寫以便于后續(xù)管理、使用。

第二步:運行PPD工具生成路由配置

上傳PPD相關工具到管理服務器,解壓后程序結構如下:

wKgZO2h-BlaAI6N3AACrVLqNgkA455.png

運行 start_ppd.sh 命令即可啟動PPD。

第三步:選擇下發(fā)配置

此時,所有與主動路由規(guī)劃相關的信息已經(jīng)自動集成到了統(tǒng)一監(jiān)控面板,管理員登錄UG面板可以看到 PDD 工具界面。
點擊左上配置生成按鈕,會出現(xiàn)設備可用的配置文件(XXXX.cfg)。管理員可以查看生成配置文件詳情二次核對,確認勾選,再點擊上方批量下發(fā)即可等待工具自動下發(fā)配置。
待配置全部下發(fā)完成,界面即時顯示設備當前部署結果,失敗設備提供報錯信息,排障后可嘗試二次下發(fā)。

wKgZO2h-BneAA2R_AAYcX50EPiw687.pngEasyRoCE-PPD 工具界面概覽
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Hash
    +關注

    關注

    0

    文章

    33

    瀏覽量

    13576
  • 負載均衡
    +關注

    關注

    0

    文章

    128

    瀏覽量

    12781
  • 路徑規(guī)劃

    關注

    0

    文章

    79

    瀏覽量

    15597
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    主動隊列管理建模及最優(yōu)控制策略

    的變化;給定目標函數(shù),以分組丟棄概率為控制變量,將主動隊列管理的優(yōu)化問題轉(zhuǎn)化為動態(tài)規(guī)劃問題,給出優(yōu)化策略。關 鍵 詞 主動隊列管理; 最優(yōu)控制; 路由器; 動態(tài)規(guī)劃在IP
    發(fā)表于 06-14 00:14

    鋰電池保護板被動均衡主動均衡

    主動均衡是以電量轉(zhuǎn)移的方式進行均衡,效率高,損失小。不同廠家的方法不同,均衡電流也1~10?A不等。目前市場上出現(xiàn)的很多
    發(fā)表于 12-05 10:49

    EQM系列主動均衡模塊,被動均衡輕松變主動均衡

    `EQM系列主動均衡模塊是華熒技術推出的一款應用在電池管理系統(tǒng)上的核心部件,它采用全新架構設計實現(xiàn)電池管理的主動均衡功能。在被動
    發(fā)表于 04-26 20:02

    什么是服務器網(wǎng)絡負載均衡

    什么是服務器網(wǎng)絡負載均衡 什么是負載均衡?
    發(fā)表于 01-11 10:58 ?1902次閱讀

    基于數(shù)據(jù)中心網(wǎng)絡拓撲感知型擁塞控制算法

    分布流量請求的不相交路徑策略;然后,根據(jù)帶寬需求自適應選取不相交路徑;最后,利用已選取路徑的剩余帶寬為權重動態(tài)調(diào)整每條路徑的流量分配比例,從而達到緩解
    發(fā)表于 12-12 13:55 ?0次下載

    基于流量矩陣的負載均衡路由機制

    基于流量矩陣的負載均衡路由(TM-LB,traffic matrix based lo ad b alanc ing)算法,供控制層根據(jù)實時網(wǎng)絡情況為后續(xù)流規(guī)劃傳輸
    發(fā)表于 02-12 11:18 ?0次下載

    面向SRIO網(wǎng)絡負載均衡最短路徑路由算法

    對SRIO網(wǎng)絡的節(jié)點進行枚舉并建立網(wǎng)絡拓撲信息,以路由跳數(shù)定義路由的成本,根據(jù)改進 Floyd- Marshal算法計算并保存交換節(jié)點間的K最短路徑。給岀預期
    發(fā)表于 05-11 14:47 ?9次下載

    解密負載均衡技術和負載均衡算法

    負載均衡器是一種軟件或硬件設備,它起到了將網(wǎng)絡流量分散一組服務器的作用,可以防止任何一臺服務器過載。負載
    的頭像 發(fā)表于 11-12 09:16 ?1697次閱讀

    浮動靜態(tài)路由及負載均衡

    負載均衡:當數(shù)據(jù)有多條可選路徑前往同一目的網(wǎng)絡,可以通過配置相同優(yōu)先級和開銷的靜態(tài)路由來實現(xiàn)負載均衡
    的頭像 發(fā)表于 02-27 15:26 ?2004次閱讀
    浮動靜態(tài)路由及<b class='flag-5'>負載</b><b class='flag-5'>均衡</b>

    負載均衡的策略有哪些? 負載均衡的三種方式?

    請求的數(shù)量。 IP哈希(IP Hash):根據(jù)客戶端的IP地址計算哈希值,將請求分配給特定的服務器,保證相同IP的客戶端請求始終發(fā)送到同一臺服務器。 最少連接(Least Connections):將請求分配給當前連接數(shù)最少的服務器,以實現(xiàn)
    的頭像 發(fā)表于 07-25 14:13 ?3194次閱讀

    路徑負載均衡的建議

    電子發(fā)燒友網(wǎng)站提供《多路徑負載均衡的建議.pdf》資料免費下載
    發(fā)表于 09-01 15:31 ?0次下載
    多<b class='flag-5'>路徑</b><b class='flag-5'>負載</b><b class='flag-5'>均衡</b>的建議

    如何確定適合的負載均衡比例

    其影響以及相關策略。 什么是負載均衡比例? 在網(wǎng)絡,路由器通常連接著多個網(wǎng)絡設備和服務器。當網(wǎng)絡
    的頭像 發(fā)表于 12-15 10:36 ?2609次閱讀

    如何利用traceroute命令發(fā)現(xiàn)網(wǎng)絡負載均衡

    網(wǎng)絡管理和故障排除,了解數(shù)據(jù)包的路徑和識別負載均衡節(jié)點是非常重要的。traceroute 命令是一個用于跟蹤數(shù)據(jù)包在
    的頭像 發(fā)表于 08-07 15:13 ?1083次閱讀
    如何利用traceroute命令發(fā)現(xiàn)<b class='flag-5'>網(wǎng)絡</b><b class='flag-5'>中</b>的<b class='flag-5'>負載</b><b class='flag-5'>均衡</b>

    常見網(wǎng)絡負載均衡的幾種方式

    常見網(wǎng)絡負載均衡的幾種方式包括:DNS負載均衡、反向代理負載
    的頭像 發(fā)表于 03-06 11:14 ?842次閱讀

    智能路徑調(diào)度:AI驅(qū)動負載均衡的異常路徑治理實踐

    在AI驅(qū)動的數(shù)據(jù)中心網(wǎng)絡環(huán)境,傳統(tǒng)的“盡力而為”和“無差別均分”負載均衡策略已力不從心。基于路徑綜合質(zhì)量的動態(tài)WCMP機制,通過實時感知
    的頭像 發(fā)表于 07-03 16:26 ?918次閱讀
    智能<b class='flag-5'>路徑</b>調(diào)度:AI驅(qū)動<b class='flag-5'>負載</b><b class='flag-5'>均衡</b>的異常<b class='flag-5'>路徑</b>治理<b class='flag-5'>實踐</b>