chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何實(shí)現(xiàn)高效的RoCE網(wǎng)卡狀態(tài)采集與監(jiān)控?

星融元Asterfusion ? 2025-10-29 11:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當(dāng)下大規(guī)模AI訓(xùn)練成為常態(tài),RoCEv2憑借高性能、低延遲與低CPU開銷的優(yōu)勢,已成為構(gòu)建智算中心的優(yōu)先選擇。然而,RoCE對網(wǎng)絡(luò)無損的嚴(yán)苛要求,配置不當(dāng)會放大擁塞,如 PFC、ECN、Buffer滯留等引發(fā)的高延遲、性能下降等,而這些問題統(tǒng)一表現(xiàn)為“GPU通信異?!?。而逐項(xiàng)排查的操作相當(dāng)繁瑣。

如何有效采集RoCE網(wǎng)卡狀態(tài)數(shù)據(jù)?

為解決 RoCE 網(wǎng)絡(luò)監(jiān)控運(yùn)維上的不便,我們新推出了EasyRoCE-NE(RoCE網(wǎng)卡狀態(tài)采集,NIC Exporter)RoCE網(wǎng)卡狀態(tài)采集工具。

EasyRoCE 工具集是星融元依托開源、開放的網(wǎng)絡(luò)架構(gòu)與技術(shù),為AI 智算、超算等場景的RoCE網(wǎng)絡(luò)提供的一系列實(shí)用特性和小工具,如一鍵配置RoCE,高精度流量監(jiān)控等…

wKgZO2kBjHaADN0oAAB5HtW6TZU105.png

NE 是 EasyRoCE 工具集中針對服務(wù)器網(wǎng)絡(luò)監(jiān)控部分的組件。由兩部分構(gòu)成:Exporter 客戶端(NIC Exporter)、監(jiān)控面板自動化創(chuàng)建程序(NIC Generator)

采集數(shù)據(jù)

NIC Exporter 運(yùn)行在GPU服務(wù)器內(nèi)部,采集GPU網(wǎng)卡的配置、流量狀況信息。轉(zhuǎn)換為Prometheus能讀取的標(biāo)準(zhǔn)格式并通過HTTP接口暴露。

可視化呈現(xiàn)

NIC Generator運(yùn)行在部署EasyRoCE 工具集的服務(wù)器上,從 AID 工具(AI基礎(chǔ)設(shè)施藍(lán)圖規(guī)劃,AI Infrastructure Descriptor)(數(shù)據(jù)庫組件)讀取GPU服務(wù)器的IP信息。即可自動在 UG 工具 (統(tǒng)一監(jiān)控面板,Unified Glancer)中創(chuàng)建可視化面板,將NIC Exporter采集到的信息展示出來。

wKgZO2kBjIaATrqIAAH5ghnyJPg873.pngwKgZO2kBjJ-AC5w7AAIVNlXhLoI819.png

部署指南

第一步:準(zhǔn)備工作

  1. 下載NE工具包(ne.tgz、nic_exporter)(請聯(lián)系項(xiàng)目銷售/售前人員獲取。)
  2. 先通過AID完成網(wǎng)絡(luò)規(guī)劃(GPU服務(wù)器硬件信息等),并將其上傳到服務(wù)器的EasyRoCE 工具集目錄下

第二步:開始安裝

1.將nic_exporter上傳到GPU服務(wù)器中,并后臺啟動

chmod +x nic_exporter nohup ./ nic_exporter &

2.將nic_exporter.tgz上傳到服務(wù)器的EasyRoCE工具集目錄下并解壓,解壓后其目錄結(jié)構(gòu)如下

. ├── ne_dashboard.json #UG面板文件 ├── nic_generator.py #啟動腳本 └── requirements.txt #依賴

其中ne_dashboard.json為UG的面板文件,nic_exporter.py是工具的啟動腳本。

注意:這里為了為了避免影響服務(wù)器自身的python環(huán)境,推薦使用venv作資源隔離。

python -m venv .venv source .venv/bin/activate

安裝依賴

pip install -r requirement.txt

3. 啟動

./nic_generator.py

4. 打印如下即成功創(chuàng)建UG面板

Pushing dashboard to Grafana... Dashboard pushed successfully: {'id': 116, 'slug': 'gpu-server8', 'status': 'success', 'uid': 'easyroce-ne-gpu-server8', 'url': '/d/easyroce-ne-gpu-server8/gpu-server8', 'version': 4} All dashboards processed. Total: 8. Url: http://10.106.219.5:3000/dashboards/f/2LzXeK6Hk Pushing dashboard to Grafana... Dashboard pushed successfully: {'id': 116, 'slug': 'gpu-server8', 'status': 'success', 'uid': 'easyroce-ne-gpu-server8', 'url': '/d/easyroce-ne-gpu-server8/gpu-server8', 'version': 4} All dashboards processed. Total: 8. Url: http://10.106.219.5:3000/dashboards/f/2LzXeK6Hk

【面板展示】

訪問打印信息中的URL即可訪問UG面板

wKgZPGkBj6-ANZhMAAEzle4qYn4333.pngNE面板目錄wKgZO2kBj7uAKuJnAAM6uw3gnm0318.pngNE網(wǎng)卡詳細(xì)信息展示

左上角變量就是該服務(wù)器的網(wǎng)卡,切換變量則可以展示不同網(wǎng)卡的信息。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    RoCE與IB對比分析(一):協(xié)議棧層級篇

    在 AI 算力建設(shè)中, RDMA 技術(shù)是支持高吞吐、低延遲網(wǎng)絡(luò)通信的關(guān)鍵。目前,RDMA技術(shù)主要通過兩種方案實(shí)現(xiàn):Infiniband和RoCE(基于RDMA的以太網(wǎng)技術(shù),以下簡稱為RoCE)。
    的頭像 發(fā)表于 11-15 13:58 ?3212次閱讀
    <b class='flag-5'>RoCE</b>與IB對比分析(一):協(xié)議棧層級篇

    RDMA簡介5之RoCE V2隊(duì)列分析

    (RDMA Write with immediate)操作不在此范圍內(nèi))。RoCE v2作為RoCE v2協(xié)議通信的重要機(jī)制,通常有五種隊(duì)列工作狀態(tài),分別為:重置(RESET)狀態(tài)、初
    發(fā)表于 06-05 17:28

    RDMA設(shè)計(jì)5:RoCE V2 IP架構(gòu)

    控制的核心模塊。RoCE v2 高速數(shù)據(jù)傳輸IP內(nèi)部集成了多種功能,包括 RDMA 建鏈、RDMA 隊(duì)列管理、DMA 傳輸和系統(tǒng)監(jiān)控等。 這些功能均由系統(tǒng)控制模塊進(jìn)行管理。為了對這些功能進(jìn)行高效的管理
    發(fā)表于 11-25 10:34

    高效的以太網(wǎng)卡電路怎么實(shí)現(xiàn)?

    。該文就是要設(shè)計(jì)一種高性能又不增加芯片成本的以太網(wǎng)卡電路。在仔細(xì)分析以太網(wǎng)的原理和理解CPCI總線原理的基礎(chǔ)上,以Intel 82551為例研究設(shè)計(jì)了一種高效的以太網(wǎng)卡電路。
    發(fā)表于 09-18 07:42

    基于LabWindowsCVI的數(shù)據(jù)采集監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

    基于LabWindowsCVI的數(shù)據(jù)采集監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
    發(fā)表于 05-06 08:40

    如何實(shí)現(xiàn)機(jī)房環(huán)境動力遠(yuǎn)程實(shí)時監(jiān)控

    機(jī)房監(jiān)控工業(yè)路由器,機(jī)房監(jiān)控系統(tǒng)的無線通信終端,實(shí)現(xiàn)機(jī)房環(huán)境動力遠(yuǎn)程實(shí)時監(jiān)控,對接現(xiàn)場設(shè)備及云服務(wù)器,多方式組網(wǎng)、數(shù)據(jù)采集上云、數(shù)據(jù)監(jiān)測、視
    發(fā)表于 02-16 07:36

    一種高效數(shù)據(jù)采集監(jiān)控服務(wù)器的實(shí)現(xiàn)

    分析了基于GPRS 網(wǎng)絡(luò)遠(yuǎn)程數(shù)據(jù)采集監(jiān)控系統(tǒng)中數(shù)據(jù)轉(zhuǎn)發(fā)的特點(diǎn),實(shí)現(xiàn)了一種新型高效的按需轉(zhuǎn)發(fā)服務(wù)器。該服務(wù)器克服了將遠(yuǎn)程采集的所有終端數(shù)據(jù)無篩
    發(fā)表于 01-09 14:26 ?11次下載

    RoCE技術(shù)在HPC中的應(yīng)用分析

    RoCE的延遲有幸有機(jī)會與IB實(shí)測對比了一下:以太網(wǎng)用的是25G Mellanox ConnectX-4 Lx 以太網(wǎng)卡,和Mellanox SN2410交換機(jī);IB用的是100G InfiniBand EDR網(wǎng)卡(Mellan
    發(fā)表于 09-05 10:39 ?2280次閱讀

    網(wǎng)卡啟動版本10.2iSCSI RoCE FCoE協(xié)議用戶手冊

    電子發(fā)燒友網(wǎng)站提供《網(wǎng)卡啟動版本10.2iSCSI RoCE FCoE協(xié)議用戶手冊.pdf》資料免費(fèi)下載
    發(fā)表于 07-27 15:20 ?0次下載
    <b class='flag-5'>網(wǎng)卡</b>啟動版本10.2iSCSI <b class='flag-5'>RoCE</b> FCoE協(xié)議用戶手冊

    引導(dǎo)版本10.3適用于網(wǎng)卡、iSCSI、FCoE和RoCE協(xié)議用戶手冊

    電子發(fā)燒友網(wǎng)站提供《引導(dǎo)版本10.3適用于網(wǎng)卡、iSCSI、FCoE和RoCE協(xié)議用戶手冊.pdf》資料免費(fèi)下載
    發(fā)表于 07-28 09:42 ?0次下載
    引導(dǎo)版本10.3適用于<b class='flag-5'>網(wǎng)卡</b>、iSCSI、FCoE和<b class='flag-5'>RoCE</b>協(xié)議用戶手冊

    適用于網(wǎng)卡、iSCSI、FCoE和RoCE協(xié)議用戶手冊 引導(dǎo)版本10.4

    電子發(fā)燒友網(wǎng)站提供《適用于網(wǎng)卡、iSCSI、FCoE和RoCE協(xié)議用戶手冊 引導(dǎo)版本10.4.pdf》資料免費(fèi)下載
    發(fā)表于 08-04 09:25 ?0次下載
    適用于<b class='flag-5'>網(wǎng)卡</b>、iSCSI、FCoE和<b class='flag-5'>RoCE</b>協(xié)議用戶手冊 引導(dǎo)版本10.4

    適用于網(wǎng)卡、iSCSI、FCoE和RoCE協(xié)議 引導(dǎo)版本10.6

    電子發(fā)燒友網(wǎng)站提供《適用于網(wǎng)卡、iSCSI、FCoE和RoCE協(xié)議 引導(dǎo)版本10.6.pdf》資料免費(fèi)下載
    發(fā)表于 08-23 15:27 ?0次下載
    適用于<b class='flag-5'>網(wǎng)卡</b>、iSCSI、FCoE和<b class='flag-5'>RoCE</b>協(xié)議 引導(dǎo)版本10.6

    linux 查看網(wǎng)卡狀態(tài)是否開啟

    如何查看 Linux 網(wǎng)卡狀態(tài)是否開啟 在 Linux 系統(tǒng)中,我們可以使用一些命令來查看網(wǎng)卡狀態(tài)是否開啟。本文將詳細(xì)介紹如何使用這些命令來查看和確認(rèn)
    的頭像 發(fā)表于 11-17 10:31 ?4577次閱讀

    BMS系統(tǒng)如何實(shí)現(xiàn)遠(yuǎn)程監(jiān)控高效運(yùn)維

    BMS系統(tǒng)(電池管理系統(tǒng))是用來智能化管理各個電池單元,監(jiān)控電池的狀態(tài)的系統(tǒng),通過對電壓、電流、溫度等參數(shù)采集、計(jì)算,進(jìn)而控制電池的充放電過程,能夠實(shí)現(xiàn)對電池的保護(hù)、提升電池的綜合性能
    的頭像 發(fā)表于 11-17 13:43 ?1542次閱讀

    機(jī)床數(shù)據(jù)采集網(wǎng)關(guān)助力實(shí)現(xiàn)生產(chǎn)過程的智能化與高效

    、故障診斷等功能,為生產(chǎn)過程的智能化與高效化提供了有力支持。機(jī)床作為制造業(yè)的核心設(shè)備,其數(shù)據(jù)采集監(jiān)控對于提高生產(chǎn)效率、降低故障率具有重要意義。機(jī)床數(shù)據(jù)采集網(wǎng)關(guān)作為一種連接機(jī)床與
    的頭像 發(fā)表于 12-19 10:37 ?938次閱讀