動(dòng)態(tài)
-
發(fā)布了文章 2025-10-29 11:54
如何實(shí)現(xiàn)高效的RoCE網(wǎng)卡狀態(tài)采集與監(jiān)控?
當(dāng)下大規(guī)模AI訓(xùn)練成為常態(tài),RoCEv2憑借高性能、低延遲與低CPU開銷的優(yōu)勢,已成為構(gòu)建智算中心的優(yōu)先選擇。然而,RoCE對網(wǎng)絡(luò)無損的嚴(yán)苛要求,配置不當(dāng)會(huì)放大擁塞,如 PFC、ECN、Buffer滯留等引發(fā)的高延遲、性能下降等,而這些問題統(tǒng)一表現(xiàn)為“GPU通信異?!?。而逐項(xiàng)排查的操作相當(dāng)繁瑣。1.1k瀏覽量 -
發(fā)布了文章 2025-10-22 14:23
-
發(fā)布了文章 2025-10-17 15:09
基于INT與Flowlet的自適應(yīng)路由:提升數(shù)據(jù)中心性能的關(guān)鍵
自適應(yīng)路由交換是一種智能的網(wǎng)絡(luò)數(shù)據(jù)轉(zhuǎn)發(fā)技術(shù)。它能夠讓網(wǎng)絡(luò)設(shè)備(如路由器、交換機(jī))實(shí)時(shí)地根據(jù)當(dāng)前網(wǎng)絡(luò)的狀況(如鏈路擁堵、故障),自動(dòng)地、動(dòng)態(tài)地為數(shù)據(jù)包選擇一條最優(yōu)的傳輸路徑。1.3k瀏覽量 -
發(fā)布了文章 2025-10-14 14:43
-
發(fā)布了文章 2025-10-09 14:27
如何實(shí)現(xiàn) RoCE 配置的自動(dòng)同步(基礎(chǔ)篇) - DCBX協(xié)議
DCBX(Data Center Bridging Exchange)協(xié)議是實(shí)現(xiàn)數(shù)據(jù)中心網(wǎng)絡(luò)自動(dòng)化配置的核心技術(shù),能夠顯著降低運(yùn)維負(fù)擔(dān),減少因人工配置錯(cuò)誤導(dǎo)致的網(wǎng)絡(luò)故障。DCBX 為大規(guī)模組網(wǎng)中 RoCE 配置的自動(dòng)同步奠定了技術(shù)基礎(chǔ),具體內(nèi)容將在后續(xù)文章中深入介紹。1.1k瀏覽量 -
上傳了資料 2025-09-30 11:35
-
上傳了資料 2025-09-30 11:32
EasyRoCE Toolkit
0次下載 -
發(fā)布了文章 2025-09-29 11:22
為什么網(wǎng)絡(luò)需要DHCP服務(wù)器?
DHCP是一種網(wǎng)絡(luò)協(xié)議,全稱為動(dòng)態(tài)主機(jī)配置協(xié)議(Dynamic Host Configuration Protocol)。它被用于在計(jì)算機(jī)網(wǎng)絡(luò)中自動(dòng)分配IP地址和其他網(wǎng)絡(luò)配置信息給客戶端設(shè)備。DHCP的主要目標(biāo)是簡化網(wǎng)絡(luò)管理員對于IP地址管理的工作,并提供一種自動(dòng)化的方式來配置網(wǎng)絡(luò)設(shè)備。2.1k瀏覽量 -
上傳了資料 2025-09-29 11:21
-
發(fā)布了文章 2025-09-26 14:53
ECN如何在HPC和數(shù)據(jù)中心中應(yīng)對網(wǎng)絡(luò)擁塞
ECN(Explicit Congestion Notification)是一種改進(jìn)后的擁塞控制方法,它不依賴于丟包來指示擁塞,而是在數(shù)據(jù)包的頭部標(biāo)記擁塞發(fā)生的信號(hào)。ECN通過向數(shù)據(jù)包的 IP 頭部添加一個(gè)特殊的標(biāo)記位告知發(fā)送方網(wǎng)絡(luò)發(fā)生了擁塞。2.7k瀏覽量