欧美激情在线观看第8页 ,在线看日本午夜视频,狠狠色伊人亚洲综合成人

引言

全球范圍內(nèi)，一場高投入的競賽正在展開：各國與各類企業(yè)不斷擴(kuò)建數(shù)據(jù)中心，以支撐其人工智能（AI）的發(fā)展。

最新研究預(yù)測

包括數(shù)據(jù)中心、網(wǎng)絡(luò)與硬件在內(nèi)的 AI 基礎(chǔ)設(shè)施投資將于 2029 年達(dá)到 4230 億美元，年復(fù)合增長率（CAGR）約 44%。然而，AI 的快速創(chuàng)新也前所未有地加劇了數(shù)據(jù)中心網(wǎng)絡(luò)的壓力。以 Meta 最近發(fā)布的 Llama 3 405B 訓(xùn)練集群為例，其預(yù)訓(xùn)練階段需要超過700 TB 內(nèi)存與1.6 萬張 NVIDIA H100 GPU。Epoch AI估計(jì)，到 2030 年，AI 模型所需計(jì)算能力將達(dá)到當(dāng)今領(lǐng)先模型的1 萬倍。

如果企業(yè)里擁有數(shù)據(jù)中心，引入 AI 就只是時間問題。關(guān)鍵問題是：

網(wǎng)絡(luò)基礎(chǔ)設(shè)施是否具備擴(kuò)展能力，可以承載復(fù)雜且大流量的 AI 訓(xùn)練負(fù)載？

本文聚焦 AI 數(shù)據(jù)中心集群擴(kuò)展，識別關(guān)鍵網(wǎng)絡(luò)挑戰(zhàn)并闡明為何網(wǎng)絡(luò)成為新瓶頸；

同時說明如何借助先進(jìn)模擬與仿真方案克服這些挑戰(zhàn)，幫助您打造可擴(kuò)展、可靠的 AI 網(wǎng)絡(luò)以匹配 AI 戰(zhàn)略目標(biāo)。

AI 集群的興起

思科（Cisco）的一項(xiàng)最新調(diào)研顯示，89% 的受訪者計(jì)劃在2026年前部署某種形式的 AI 就緒型數(shù)據(jù)中心集群。

AI 集群是一個由大量計(jì)算資源構(gòu)成、高度互聯(lián)的網(wǎng)絡(luò)，用于承載 AI工作負(fù)載。與傳統(tǒng)計(jì)算集群不同，AI集群針對模型訓(xùn)練、推理與實(shí)時分析進(jìn)行了優(yōu)化：它們依賴成千上萬張 GPU、高速互連與低時延網(wǎng)絡(luò)來滿足密集計(jì)算與數(shù)據(jù)吞吐的需求。

構(gòu)建 AI 集群

可以把 AI 集群理解為“縮微網(wǎng)絡(luò)”：通過構(gòu)建“微型計(jì)算機(jī)網(wǎng)絡(luò)”將 GPU 相互連接，使其能高效地進(jìn)行數(shù)據(jù)傳輸。在面向數(shù)千—數(shù)萬 GPU 的分布式訓(xùn)練中，穩(wěn)健的網(wǎng)絡(luò)連接是長期協(xié)同訓(xùn)練的基本保障。

AI 集群的關(guān)鍵組成

01計(jì)算節(jié)點(diǎn)：

相當(dāng)于 AI 集群的“大腦”。成千上萬的 GPU 連接到機(jī)架頂層交換機(jī)（ToR）；問題越復(fù)雜，所需 GPU 越多。

02高速互連：

如以太網(wǎng)等，用于在計(jì)算節(jié)點(diǎn)間快速傳輸數(shù)據(jù)。

03網(wǎng)絡(luò)基礎(chǔ)設(shè)施：

涵蓋網(wǎng)絡(luò)硬件與協(xié)議，支撐長期運(yùn)行、成千上萬 GPU 之間的數(shù)據(jù)通信。

擴(kuò)展 AI 數(shù)據(jù)中心集群

AI 集群規(guī)模需要隨業(yè)務(wù)需求與工作負(fù)載彈性擴(kuò)展。隨著模型日益復(fù)雜，組織不斷推動集群擴(kuò)張。Dell’Oro Group 的網(wǎng)絡(luò)報告指出，AI 集群規(guī)模幾乎每年以 4 倍速度增長，對網(wǎng)絡(luò)基礎(chǔ)設(shè)施提出巨大挑戰(zhàn)。

直至最近，網(wǎng)絡(luò)帶寬、時延與電力分配等因素將 AI 集群規(guī)模限制在約 3 萬張 GPU。然而，xAI 的 Colossus 超級計(jì)算機(jī)項(xiàng)目在 2024年將規(guī)模提升到 10 萬張 NVIDIA H100，突破歷史上限。網(wǎng)絡(luò)與內(nèi)存技術(shù)的最新創(chuàng)新，使 GPU 間數(shù)據(jù)通信更快，標(biāo)志著 AI 集群可擴(kuò)展性的重大飛躍。

擴(kuò)展中的關(guān)鍵挑戰(zhàn)

01）網(wǎng)絡(luò)挑戰(zhàn)

當(dāng)參數(shù)規(guī)模擴(kuò)展到萬億級及以上時，傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)可能無法高效擴(kuò)展。GPU 擅長并行數(shù)學(xué)計(jì)算，但在成千上萬 GPU 協(xié)同工作時，若有任意單卡因數(shù)據(jù)不足或延遲被“卡住”，其他 GPU 也會被拖慢。擁塞網(wǎng)絡(luò)帶來的時延拉長或丟包觸發(fā)重傳，顯著增加 JCT（作業(yè)完成時間），讓價值數(shù)百萬美元的 GPU 效率降低。

此外，AI 工作負(fù)載下東西向（east-west）流量暴增，若缺乏針對性優(yōu)化，極易引發(fā)擁塞與時延問題。

02）互連挑戰(zhàn)

隨著集群擴(kuò)展，傳統(tǒng)互連難以滿足吞吐需求。升級到 400G / 800G / 1.6T 等更高速的互連往往勢在必行。但在這些速率下，高速串行鏈路必須經(jīng)過精細(xì)測試及優(yōu)化，以確保最佳信號完整性（SI）、更低誤碼率（BER）與更好 FEC（前向糾錯）的性能及冗余。這需要高精度、高效率的測試系統(tǒng)在部署前完成鏈路驗(yàn)證。

03）財(cái)務(wù)挑戰(zhàn)

除 GPU 費(fèi)用外，還必須考慮電力、冷卻、網(wǎng)絡(luò)設(shè)備與更廣泛的數(shù)據(jù)中心基礎(chǔ)設(shè)施成本。AI 訓(xùn)練常持續(xù)數(shù)周甚至數(shù)月，占用昂貴的計(jì)算資源。通過更好的互連或改進(jìn)的網(wǎng)絡(luò)性能加速訓(xùn)練，不僅能縮短訓(xùn)練周期，也能更早釋放資源用于其他任務(wù)——節(jié)省的每一天都可能轉(zhuǎn)化為顯著成本優(yōu)勢。

AI 集群網(wǎng)絡(luò)的驗(yàn)證

要加速模型訓(xùn)練并最大化 ROI，必須對網(wǎng)絡(luò)結(jié)構(gòu)（fabric）與 GPU 間互連進(jìn)行測試與基準(zhǔn)評測（benchmarking）。

困難在于：硬件、體系結(jié)構(gòu)設(shè)計(jì)與動態(tài)工作負(fù)載三者之間存在復(fù)雜耦合，給統(tǒng)一、可復(fù)現(xiàn)的驗(yàn)證帶來挑戰(zhàn)。

實(shí)驗(yàn)室部署的現(xiàn)實(shí)制約

在實(shí)驗(yàn)室復(fù)制生產(chǎn)級網(wǎng)絡(luò)代價高昂：設(shè)備有限、需要專業(yè)網(wǎng)絡(luò)工程師，且實(shí)驗(yàn)室在空間/供電/散熱等方面與生產(chǎn)環(huán)境往往不一致。直接在生產(chǎn)網(wǎng)絡(luò)上測試，又會擠占算力、影響關(guān)鍵 AI 任務(wù)。另一方面，AI 工作負(fù)載與數(shù)據(jù)集高度多樣（大小與通信模式差異大），使得問題復(fù)現(xiàn)與一致性基準(zhǔn)更為困難。最終，要洞察 GPU 之間的集體通信細(xì)節(jié)，需要先進(jìn)的監(jiān)測工具來分析同步與數(shù)據(jù)交換模式，診斷性能瓶頸。

在實(shí)驗(yàn)室“模擬一切”

Keysight AI Data Center Builder 通過高密度高速率測試儀器來仿真真實(shí) AI 流量模式。

典型流程如下

先在實(shí)驗(yàn)室測試目標(biāo)方案的子集，對集合通信完成時間，算法帶寬，總線帶寬、P50/P95長尾等關(guān)鍵指標(biāo)進(jìn)行基準(zhǔn)評測。這有助于在設(shè)計(jì)階段平衡 GPU/工作負(fù)載設(shè)置與網(wǎng)絡(luò)配置。當(dāng)網(wǎng)絡(luò)架構(gòu)師與工程師對結(jié)果滿意后，便可將設(shè)置應(yīng)用到生產(chǎn)，并對新結(jié)果進(jìn)行測量。憑借此方案，工程師能夠在實(shí)驗(yàn)室或過渡環(huán)境中先設(shè)計(jì)與優(yōu)化，隨后落地到生產(chǎn)；這個過程無需在實(shí)驗(yàn)室部署專用的 AI 計(jì)算節(jié)點(diǎn)與Smart NIC。

面向未來的網(wǎng)絡(luò)部署

隨著 AI 重塑數(shù)據(jù)中心產(chǎn)業(yè)，前瞻性地建設(shè)網(wǎng)絡(luò)至關(guān)重要。Ultra Ethernet Consortium（UEC）正在推進(jìn)開放、互操作的行業(yè)標(biāo)準(zhǔn)，面向 AI 的性能與可擴(kuò)展性。UEC 引入鏈路級重試（LLR）與擁塞管理等機(jī)制，以增強(qiáng)以太網(wǎng)在 AI 工作負(fù)載場景下的可擴(kuò)展性與確定性。展望未來，Ultra Ethernet 與其他新興標(biāo)準(zhǔn)將成為“AI 就緒網(wǎng)絡(luò)”的關(guān)鍵推動力。

Keysight AI Data Center Builder 的優(yōu)勢在于：它支持AI網(wǎng)絡(luò)各層的模擬和仿真，幫助客戶優(yōu)化訓(xùn)練時間、復(fù)現(xiàn)生產(chǎn)網(wǎng)絡(luò)問題、調(diào)優(yōu) AI cluster 性能、新方案新組合的驗(yàn)證、為多廠商協(xié)作提供平臺。

是德科技攜手 Heavy Reading 發(fā)布《超越瓶頸：2025 年 AI 集群網(wǎng)絡(luò)報告》指出，AI 采用正全速推進(jìn)，而現(xiàn)有基礎(chǔ)設(shè)施的就緒度已難以同步跟進(jìn)?；谌驑颖镜恼{(diào)研，報告呼吁電信與云服務(wù)提供商將戰(zhàn)略重心從單純“擴(kuò)張”轉(zhuǎn)向“以優(yōu)化為先”，以更確定、更高效的網(wǎng)絡(luò)承載下一代 AI 工作負(fù)載。歡迎在文末“閱讀原文”下載完整版報告，或者點(diǎn)擊下載參與我們的問卷。

結(jié)語

當(dāng) AI 推動數(shù)據(jù)中心進(jìn)入全新階段，網(wǎng)絡(luò) 已成為 AI 成功的新瓶頸亦或新引擎。

借助高保真仿真與系統(tǒng)級驗(yàn)證，企業(yè)能夠在實(shí)驗(yàn)室里復(fù)刻生產(chǎn)難題，以可測、可復(fù)現(xiàn) 的方法優(yōu)化網(wǎng)絡(luò)并縮短訓(xùn)練周期，從而在 AI 基礎(chǔ)設(shè)施的競賽中占得先機(jī)。是德科技將持續(xù)以 KAI（Keysight Artificial Intelligence）方案，幫助客戶在設(shè)計(jì)—仿真—驗(yàn)證—部署的全鏈路上實(shí)現(xiàn)“從可用到卓越”的躍遷。

關(guān)于是德科技

是德科技（NYSE：KEYS）啟迪并賦能創(chuàng)新者，助力他們將改變世界的技術(shù)帶入生活。作為一家標(biāo)準(zhǔn)普爾 500 指數(shù)公司，我們提供先進(jìn)的設(shè)計(jì)、仿真和測試解決方案，旨在幫助工程師在整個產(chǎn)品生命周期中更快地完成開發(fā)和部署，同時控制好風(fēng)險。我們的客戶遍及全球通信、工業(yè)自動化、航空航天與國防、汽車、半導(dǎo)體和通用電子等市場。我們與客戶攜手，加速創(chuàng)新，創(chuàng)造一個安全互聯(lián)的世界。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴