琳琅社区A级毛片在线播放 ,少妇人妻互换不带套

三項創(chuàng)新首度公開！構(gòu)建高效 AI 數(shù)據(jù)中心，從網(wǎng)絡(luò)仿真開始

AI 正以前所未有的速度重塑數(shù)據(jù)中心架構(gòu)。每秒數(shù)萬億字節(jié)的訓(xùn)練流量、數(shù)千 GPU 的并行通信，讓傳統(tǒng)測試方法陷入瓶頸——GPU 閑置、網(wǎng)絡(luò)擁塞、訓(xùn)練失敗屢見不鮮。

AI 創(chuàng)新，正在重構(gòu)數(shù)據(jù)中心基礎(chǔ)架構(gòu)

近幾年，多模態(tài)學(xué)習(xí)、多智能體系統(tǒng)（Multi-agent Systems,MAS）和高速 GPU 互聯(lián)技術(shù)快速發(fā)展，推動 AI 應(yīng)用在醫(yī)療、氣候建模、金融等多個領(lǐng)域?qū)崿F(xiàn)飛躍。這些突破也帶來了前所未有的挑戰(zhàn)，對網(wǎng)絡(luò)速度、吞吐量及計算性能的要求正持續(xù)飆升。

圖 1. AI 正迎來技術(shù)爆發(fā)的關(guān)鍵轉(zhuǎn)折點，未來三年各項硬件標(biāo)準(zhǔn)與性能將實現(xiàn)跨代躍升。

動輒數(shù)十萬美金，AI 數(shù)據(jù)中心成本遠高于傳統(tǒng)數(shù)據(jù)中心架構(gòu)

一臺 AI 訓(xùn)練服務(wù)器通常配備 8 塊 GPU，總成本超過 40 萬美元。而這還不包括電力、冷卻、高速光互聯(lián)等運維成本，占運營支出的 30% 至 50%。

此外，每個 AI 模型的云端存儲成本，每月可能高達 1,000 至 10,000 美元。

模型訓(xùn)練往往動輒耗時數(shù)周甚至數(shù)月，任何縮短訓(xùn)練周期的機會都意味著數(shù)百萬美元的 GPU 運算資源釋放。

但問題來了：你的基礎(chǔ)設(shè)施是否真正高效，能支撐這樣的提速？

三大核心挑戰(zhàn)，阻礙 AI 數(shù)據(jù)中心擴展

#挑戰(zhàn)一：

AI 流量密集度遠超傳統(tǒng)應(yīng)用

AI 訓(xùn)練負載需要在數(shù)千顆 GPU 之間高速傳輸 TB 級數(shù)據(jù)，通信模式集中且延遲敏感。例如，集合通信（如 all-to-all）容易引發(fā)入流擁塞，導(dǎo)致某些數(shù)據(jù)流延遲，從而拖慢整個訓(xùn)練任務(wù)。網(wǎng)絡(luò)性能的關(guān)鍵不再是“平均帶寬”，而是“最長傳輸時間”。

如圖 2 所示，即使大多數(shù) GPU 數(shù)據(jù)流能在 150 毫秒內(nèi)完成，只要存在一個延遲至 190 毫秒的節(jié)點，整個算法執(zhí)行也必須等到這最后一個完成，最終總耗時拉長至 190 毫秒。

圖 2. 即使大多數(shù)數(shù)據(jù)傳輸迅速，少數(shù)延遲較高的流也會決定 AI 訓(xùn)練任務(wù)的整體完成時間。

#挑戰(zhàn)二：

系統(tǒng)高度互聯(lián)，風(fēng)險被放大

在強耦合架構(gòu)中，任一組件故障（如光模塊異常、網(wǎng)卡配置錯誤）都可能引發(fā)連鎖反應(yīng)，導(dǎo)致任務(wù)失敗和資源浪費。如果沒有全?？梢曅院驼鎸嵤澜绲姆抡?，這些問題往往在傳統(tǒng)測試中難以被發(fā)現(xiàn)。

#挑戰(zhàn)三：

僅靠組件級驗證已無法保障系統(tǒng)穩(wěn)定

即使每個組件都符合標(biāo)準(zhǔn)，也可能因 AI 流量特性而在系統(tǒng)層級上失敗。盡管某些收發(fā)器在組件層面滿足 IEEE 合規(guī)性要求，但在系統(tǒng)級運行中，特別是在處理突發(fā) AI 流量時，仍可能出現(xiàn)性能問題。研究顯示，超過 40% 的 AI 訓(xùn)練失敗歸因于網(wǎng)絡(luò)或組件效率不足。

圖 3. 超過一半的 GPU 時間花在等待數(shù)據(jù)上，近一半的 AI 訓(xùn)練任務(wù)失敗歸因于網(wǎng)絡(luò)與計算資源問題

系統(tǒng)級仿真是你的新的超能力

系統(tǒng)級仿真使網(wǎng)絡(luò)架構(gòu)師能夠跳出理論假設(shè)，深入了解基礎(chǔ)設(shè)施在真實 AI 流量與控制機制下的實際運行行為。

數(shù)據(jù)中心的系統(tǒng)級性能依賴于系統(tǒng)級可視化能力——也就是模擬 GPU 之間的通信、觀察隊列對（Queue Pair）行為，并分析突發(fā)流量和擁塞點在整個技術(shù)棧中（從物理層到應(yīng)用層）造成的影響。數(shù)據(jù)中心的性能優(yōu)化，離不開系統(tǒng)級可視化能力。通過模擬 GPU 通信、觀察隊列行為、識別流量突發(fā)點，才能在物理層到應(yīng)用層之間全面掌控網(wǎng)絡(luò)運行狀況。

這一完整的測試流程通常包括：

?部署高密度網(wǎng)絡(luò)測試平臺。

?配置流量生成器，以太比特級速度模擬 AI 集合通信操作（如 all-reduce、broadcast、gather）的真實流量行為。

?使用性能分析工具，衡量系統(tǒng)級關(guān)鍵性能指標(biāo)（KPI），例如任務(wù)完成時間、GPU 利用率、網(wǎng)絡(luò)吞吐量和延遲。

通過這一方法，網(wǎng)絡(luò)架構(gòu)師可以快速定位 GPU 閑置時間積累的位置、識別次優(yōu)的擁塞控制設(shè)置，或發(fā)現(xiàn)引入延遲的網(wǎng)卡與收發(fā)器組合。此外，還可在無需部署大規(guī)模 GPU 集群的前提下，靈活測試路由策略、微調(diào)擁塞控制參數(shù)（如優(yōu)先級流控 PFC 和顯式擁塞通知 ECN），并評估新協(xié)議或架構(gòu)變更的效果。

某大型云服務(wù)提供商已使用是德科技的Keysight AI（KAI）數(shù)據(jù)中心構(gòu)建器對其新一代 AI 訓(xùn)練集群的網(wǎng)絡(luò)設(shè)計進行基準(zhǔn)測試，目標(biāo)是確保其高速以太網(wǎng)不僅能夠支持當(dāng)前的 GPU 型號，也能夠兼容即將發(fā)布的新一代 GPU。

圖 4. 是德科技 Keysight AI（KAI）數(shù)據(jù)中心構(gòu)建器通過仿真 AI 工作負載以驗證系統(tǒng)級性能指標(biāo)的界面截圖。

邁向 1.6T AI 數(shù)據(jù)中心：驗證方法必須與時俱進

為了支持下一代 AI 工作負載的規(guī)模和速度，數(shù)據(jù)中心正在向 1.6T 以太網(wǎng)過渡。

隨著 224 Gbps 電通道和 PAM4 調(diào)制成為常態(tài)，這些高速鏈路引入了更嚴格的時序窗口、更低的信噪比以及對互連變化更高的靈敏度。在如此高的速度下，驗證信號完整性和端到端性能不能僅僅停留在組件級規(guī)格上。即使是符合標(biāo)準(zhǔn)的設(shè)備，在突發(fā)性 AI 工作負載下，也可能會遭遇邊緣 FEC 性能或間歇性故障。銅纜、光纖、有源電纜和無源 DAC 等互連的多樣性日益增加，使驗證變得更加復(fù)雜。

傳統(tǒng)的手動和基于腳本的驗證難以應(yīng)對 1.6T 及以上速度的復(fù)雜性。全面的自動化測試策略對于識別僅在動態(tài)、高流量 AI 訓(xùn)練工作負載下才會出現(xiàn)的系統(tǒng)級瓶頸至關(guān)重要。

Keysight 推出的 1.6T 互連和網(wǎng)絡(luò)性能測試儀 + ITS (Interconnect Test System) 自動化測試平臺，提供了完整的第1層到第3層全棧驗證能力，包含：

第 1 層：FEC 前誤碼率（Pre-FEC BER）、FEC 裕度、抖動容限

第 2 層：CMIS 協(xié)議兼容性、數(shù)字光學(xué)監(jiān)控（DOM）、通道映像完整性

第 3 層：RoCEv2 流量建模、擁塞傳播、流量公平性

為了支持可重復(fù)、可擴展的測試，像1.6TE 互連和網(wǎng)絡(luò)性能測試儀這樣的集中式測試平臺可以重復(fù)使用配置、自動化通過/失敗分析并加快測試吞吐量。

是德科技1.6TE 互連和網(wǎng)絡(luò)性能測試儀具備全面的硬件功能，覆蓋第 1 層至第 3 層所需的各項測試能力，可廣泛應(yīng)用于高速以太網(wǎng)、光纖與銅纜互連、網(wǎng)絡(luò)設(shè)備以及整體網(wǎng)絡(luò)基礎(chǔ)設(shè)施的驗證。

配套的互連測試系統(tǒng)（ITS）軟件可幫助架構(gòu)師快速識別邊緣場景下的系統(tǒng)行為，并在實際大規(guī)模部署條件下，對各種電纜、網(wǎng)卡（NIC）、收發(fā)器和交換機進行壓力測試，確保系統(tǒng)穩(wěn)定可靠運行。

圖 5. Keysight Interconnect Test System (ITS) 軟件數(shù)字光監(jiān)控頁面的屏幕截圖

構(gòu)建面向未來的 AI 數(shù)據(jù)中心

構(gòu)建一個真正具備大規(guī)模運行能力的人工智能數(shù)據(jù)中心，絕不僅僅是“完成檢查清單”那樣簡單，而是要為不可預(yù)測的挑戰(zhàn)做好設(shè)計準(zhǔn)備，并應(yīng)對未來指數(shù)級的增長需求。

隨著人工智能不斷重塑現(xiàn)代數(shù)據(jù)中心的架構(gòu)，網(wǎng)絡(luò)架構(gòu)師正是連接愿景與執(zhí)行的關(guān)鍵角色。無論您正在排查尾延遲、驗證光互連，還是規(guī)劃邁向 1.6T 的下一個飛躍，有一點是確定的：網(wǎng)絡(luò)是支撐 AI 創(chuàng)新的核心。

而您團隊是否具備對每條數(shù)據(jù)路徑進行仿真、基準(zhǔn)測試與系統(tǒng)級可視化的能力，將直接決定基礎(chǔ)設(shè)施能否真正成功擴展。

關(guān)于是德科技

是德科技（NYSE：KEYS）啟迪并賦能創(chuàng)新者，助力他們將改變世界的技術(shù)帶入生活。作為一家標(biāo)準(zhǔn)普爾 500 指數(shù)公司，我們提供先進的設(shè)計、仿真和測試解決方案，旨在幫助工程師在整個產(chǎn)品生命周期中更快地完成開發(fā)和部署，同時控制好風(fēng)險。我們的客戶遍及全球通信、工業(yè)自動化、航空航天與國防、汽車、半導(dǎo)體和通用電子等市場。我們與客戶攜手，加速創(chuàng)新，創(chuàng)造一個安全互聯(lián)的世界。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

仿真

仿真

+關(guān)注

關(guān)注
54

文章
4485

瀏覽量
138303
數(shù)據(jù)中心

數(shù)據(jù)中心

+關(guān)注

關(guān)注
18

文章
5653

瀏覽量
75035
AI

AI

+關(guān)注

關(guān)注
91

文章
39807

瀏覽量
301479

原文標(biāo)題：重新定義 AI 網(wǎng)絡(luò)測試：仿真+可視化，讓 1.6T 成為現(xiàn)實

文章出處：【微信號：是德科技KEYSIGHT，微信公眾號：是德科技KEYSIGHT】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

是德科技如何應(yīng)對AI數(shù)據(jù)中心擴展瓶頸

評論