chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

是德科技如何提升AI數(shù)據(jù)中心集群的可擴展性

是德科技KEYSIGHT ? 來源:是德科技KEYSIGHT ? 2025-09-25 17:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

引言

全球范圍內(nèi),一場高投入的競賽正在展開:各國與各類企業(yè)不斷擴建數(shù)據(jù)中心,以支撐其人工智能(AI)的發(fā)展。

最新研究預測

包括數(shù)據(jù)中心、網(wǎng)絡與硬件在內(nèi)的 AI 基礎設施投資將于 2029 年 達到 4230 億美元,年復合增長率(CAGR)約 44%。然而,AI 的快速創(chuàng)新也前所未有地加劇了數(shù)據(jù)中心網(wǎng)絡的壓力。以 Meta 最近發(fā)布的 Llama 3 405B 訓練集群為例,其預訓練階段需要超過700 TB 內(nèi)存與1.6 萬張 NVIDIA H100 GPU。Epoch AI估計,到 2030 年,AI 模型所需計算能力將達到當今領先模型的1 萬倍。

如果企業(yè)里擁有數(shù)據(jù)中心,引入 AI 就只是時間問題。關鍵問題是:

網(wǎng)絡基礎設施是否具備擴展能力,可以承載復雜且大流量的 AI 訓練負載?

本文聚焦 AI 數(shù)據(jù)中心集群擴展,識別關鍵網(wǎng)絡挑戰(zhàn)并闡明為何網(wǎng)絡成為新瓶頸;

同時說明如何借助先進模擬仿真方案克服這些挑戰(zhàn),幫助您打造可擴展、可靠的 AI 網(wǎng)絡以匹配 AI 戰(zhàn)略目標。

AI 集群的興起

思科(Cisco)的一項最新調(diào)研顯示,89% 的受訪者計劃在2026年前部署某種形式的 AI 就緒型數(shù)據(jù)中心集群。

AI 集群是一個由大量計算資源構成、高度互聯(lián)的網(wǎng)絡,用于承載 AI工作負載。與傳統(tǒng)計算集群不同,AI集群針對模型訓練、推理與實時分析進行了優(yōu)化:它們依賴成千上萬張 GPU、高速互連與低時延網(wǎng)絡來滿足密集計算與數(shù)據(jù)吞吐的需求。

構建 AI 集群

可以把 AI 集群理解為“縮微網(wǎng)絡”:通過構建“微型計算機網(wǎng)絡”將 GPU 相互連接,使其能高效地進行數(shù)據(jù)傳輸。在面向數(shù)千—數(shù)萬 GPU 的分布式訓練中,穩(wěn)健的網(wǎng)絡連接是長期協(xié)同訓練的基本保障。

AI 集群的關鍵組成

01計算節(jié)點:

相當于 AI 集群的“大腦”。成千上萬的 GPU 連接到機架頂層交換機(ToR);問題越復雜,所需 GPU 越多。

02高速互連:

以太網(wǎng)等,用于在計算節(jié)點間快速傳輸數(shù)據(jù)。

03網(wǎng)絡基礎設施:

涵蓋網(wǎng)絡硬件與協(xié)議,支撐長期運行、成千上萬 GPU 之間的數(shù)據(jù)通信

擴展 AI 數(shù)據(jù)中心集群

AI 集群規(guī)模需要隨業(yè)務需求與工作負載彈性擴展。隨著模型日益復雜,組織不斷推動集群擴張。Dell’Oro Group 的網(wǎng)絡報告指出,AI 集群規(guī)模幾乎每年以 4 倍速度增長,對網(wǎng)絡基礎設施提出巨大挑戰(zhàn)。

直至最近,網(wǎng)絡帶寬、時延 與 電力分配 等因素將 AI 集群規(guī)模限制在約 3 萬張 GPU。然而,xAI 的 Colossus 超級計算機項目在 2024年將規(guī)模提升到 10 萬張 NVIDIA H100,突破歷史上限。網(wǎng)絡與內(nèi)存技術的最新創(chuàng)新,使 GPU 間數(shù)據(jù)通信更快,標志著 AI 集群可擴展性的重大飛躍。

擴展中的關鍵挑戰(zhàn)

01)網(wǎng)絡挑戰(zhàn)

當參數(shù)規(guī)模擴展到萬億級及以上時,傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡可能無法高效擴展。GPU 擅長并行數(shù)學計算,但在成千上萬 GPU 協(xié)同工作時,若有任意單卡因數(shù)據(jù)不足或延遲被“卡住”,其他 GPU 也會被拖慢。擁塞網(wǎng)絡帶來的時延拉長或丟包觸發(fā)重傳,顯著增加 JCT(作業(yè)完成時間),讓價值數(shù)百萬美元的 GPU 效率降低。

此外,AI 工作負載下東西向(east-west)流量暴增,若缺乏針對性優(yōu)化,極易引發(fā)擁塞與時延問題。

02)互連挑戰(zhàn)

隨著集群擴展,傳統(tǒng)互連難以滿足吞吐需求。升級到 400G / 800G / 1.6T 等更高速的互連往往勢在必行。但在這些速率下,高速串行鏈路必須經(jīng)過精細測試及優(yōu)化,以確保最佳信號完整性(SI)、更低誤碼率(BER)與更好 FEC(前向糾錯)的性能及冗余。這需要高精度、高效率的測試系統(tǒng)在部署前完成鏈路驗證。

03)財務挑戰(zhàn)

除 GPU 費用外,還必須考慮電力、冷卻、網(wǎng)絡設備與更廣泛的數(shù)據(jù)中心基礎設施成本。AI 訓練常持續(xù)數(shù)周甚至數(shù)月,占用昂貴的計算資源。通過更好的互連或改進的網(wǎng)絡性能加速訓練,不僅能縮短訓練周期,也能更早釋放資源用于其他任務——節(jié)省的每一天都可能轉化為顯著成本優(yōu)勢。

AI 集群網(wǎng)絡的驗證

要加速模型訓練并最大化 ROI,必須對網(wǎng)絡結構(fabric)與 GPU 間互連進行測試與基準評測(benchmarking)。

困難在于:硬件、體系結構設計與動態(tài)工作負載三者之間存在復雜耦合,給統(tǒng)一、可復現(xiàn)的驗證帶來挑戰(zhàn)。

實驗室部署的現(xiàn)實制約

在實驗室復制生產(chǎn)級網(wǎng)絡代價高昂:設備有限、需要專業(yè)網(wǎng)絡工程師,且實驗室在空間/供電/散熱等方面與生產(chǎn)環(huán)境往往不一致。直接在生產(chǎn)網(wǎng)絡上測試,又會擠占算力、影響關鍵 AI 任務。另一方面,AI 工作負載與數(shù)據(jù)集高度多樣(大小與通信模式差異大),使得問題復現(xiàn)與一致性基準更為困難。最終,要洞察 GPU 之間的集體通信細節(jié),需要先進的監(jiān)測工具來分析同步與數(shù)據(jù)交換模式,診斷性能瓶頸。

在實驗室“模擬一切”

Keysight AI Data Center Builder 通過高密度高速率測試儀器來仿真真實 AI 流量模式。

典型流程如下

先在實驗室測試目標方案的子集,對集合通信完成時間,算法帶寬,總線帶寬、P50/P95長尾等關鍵指標進行基準評測。這有助于在設計階段平衡 GPU/工作負載設置與網(wǎng)絡配置。當網(wǎng)絡架構師與工程師對結果滿意后,便可將設置應用到生產(chǎn),并對新結果進行測量。憑借此方案,工程師能夠在實驗室或過渡環(huán)境中先設計與優(yōu)化,隨后落地到生產(chǎn);這個過程無需在實驗室部署專用的 AI 計算節(jié)點與Smart NIC。

面向未來的網(wǎng)絡部署

隨著 AI 重塑數(shù)據(jù)中心產(chǎn)業(yè),前瞻性地建設網(wǎng)絡至關重要。Ultra Ethernet Consortium(UEC)正在推進開放、互操作的行業(yè)標準,面向 AI 的性能與可擴展性。UEC 引入 鏈路級重試(LLR)與擁塞管理等機制,以增強以太網(wǎng)在 AI 工作負載場景下的可擴展性與確定性。展望未來,Ultra Ethernet 與其他新興標準將成為“AI 就緒網(wǎng)絡”的關鍵推動力。

Keysight AI Data Center Builder 的優(yōu)勢在于:它支持AI網(wǎng)絡各層的模擬和仿真,幫助客戶優(yōu)化訓練時間、復現(xiàn)生產(chǎn)網(wǎng)絡問題、調(diào)優(yōu) AI cluster 性能、新方案新組合的驗證、為多廠商協(xié)作提供平臺。

是德科技攜手 Heavy Reading 發(fā)布《超越瓶頸:2025 年 AI 集群網(wǎng)絡報告》指出,AI 采用正全速推進,而現(xiàn)有基礎設施的就緒度已難以同步跟進。基于全球樣本的調(diào)研,報告呼吁電信與云服務提供商將戰(zhàn)略重心從單純“擴張”轉向“以優(yōu)化為先”,以更確定、更高效的網(wǎng)絡承載下一代 AI 工作負載。歡迎在文末“閱讀原文”下載完整版報告,或者點擊下載參與我們的問卷。

結語

當 AI 推動數(shù)據(jù)中心進入全新階段,網(wǎng)絡 已成為 AI 成功的新瓶頸亦或新引擎。

借助高保真仿真與系統(tǒng)級驗證,企業(yè)能夠在實驗室里復刻生產(chǎn)難題,以可測、可復現(xiàn) 的方法優(yōu)化網(wǎng)絡并縮短訓練周期,從而在 AI 基礎設施的競賽中占得先機。是德科技將持續(xù)以 KAI(Keysight Artificial Intelligence) 方案,幫助客戶在設計—仿真—驗證—部署 的全鏈路上實現(xiàn)“從可用到卓越”的躍遷。

關于是德科技

是德科技(NYSE:KEYS)啟迪并賦能創(chuàng)新者,助力他們將改變世界的技術帶入生活。作為一家標準普爾 500 指數(shù)公司,我們提供先進的設計、仿真和測試解決方案,旨在幫助工程師在整個產(chǎn)品生命周期中更快地完成開發(fā)和部署,同時控制好風險。我們的客戶遍及全球通信、工業(yè)自動化、航空航天與國防、汽車、半導體和通用電子等市場。我們與客戶攜手,加速創(chuàng)新,創(chuàng)造一個安全互聯(lián)的世界。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 網(wǎng)絡
    +關注

    關注

    14

    文章

    8019

    瀏覽量

    92166
  • 數(shù)據(jù)中心

    關注

    16

    文章

    5417

    瀏覽量

    74307
  • AI
    AI
    +關注

    關注

    88

    文章

    36966

    瀏覽量

    289761

原文標題:800G / 1.6T 時代,如何讓提升 AI 數(shù)據(jù)中心集群的可擴展性?

文章出處:【微信號:是德科技KEYSIGHT,微信公眾號:是德科技KEYSIGHT】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級

    NVIDIA Quantum-2交換機等主流設備。 平滑擴展:與現(xiàn)有400G/100G設備無縫互通,降低數(shù)據(jù)中心升級成本。 多場景覆蓋:從AI訓練集群的“大象流”到
    發(fā)表于 08-13 19:01

    加速AI未來,睿海光電800G OSFP光模塊重構數(shù)據(jù)中心互聯(lián)標準

    定義數(shù)據(jù)中心互聯(lián)的新范式。 一、技術實力:800G OSFP光模塊的卓越性能表現(xiàn) 睿海光電800G OSFP光模塊系列采用行業(yè)領先的PAM4調(diào)制技術,具備以下核心優(yōu)勢: 超高速率 :單模傳輸速率達
    發(fā)表于 08-13 16:38

    PCIe協(xié)議分析儀在數(shù)據(jù)中心中有何作用?

    數(shù)據(jù)中心的整體可靠性。以下是其核心作用及具體應用場景的詳細分析:一、性能優(yōu)化:突破帶寬瓶頸,提升計算效率 鏈路帶寬利用率分析 場景:在AI訓練集群中,GPU通過PCIe與CPU交換
    發(fā)表于 07-29 15:02

    戴爾科技助力盛京醫(yī)院打造現(xiàn)代醫(yī)療數(shù)據(jù)中心

    隨著業(yè)務擴展與醫(yī)療數(shù)據(jù)激增,如何構建一個兼具安全性、敏捷性與擴展性的現(xiàn)代化數(shù)據(jù)中心,成為眾多大型醫(yī)院共同關注的命題。在這場關系全局的轉型之中,中國醫(yī)科大學附屬盛京醫(yī)院(以下簡稱“盛京醫(yī)
    的頭像 發(fā)表于 07-04 16:31 ?565次閱讀

    瑞薩電子RA系列微控制器的擴展性強的配置軟件包 (FSP)安裝下載與使用指南

    瑞薩電子RA系列微控制器的擴展性強的配置軟件包 (FSP)安裝下載與使用指南
    的頭像 發(fā)表于 06-11 17:21 ?1072次閱讀

    重新思考數(shù)據(jù)中心架構,推進AI的規(guī)模化落地

    人工智能(AI)對計算資源的貪婪需求推動了基礎設施的變革,業(yè)界正著力解決如何滿足AI在功率、擴展性以及效率等方面的需求。這促使大量投資涌入,旨在重新配置
    的頭像 發(fā)表于 05-30 13:51 ?569次閱讀
    重新思考<b class='flag-5'>數(shù)據(jù)中心</b>架構,推進<b class='flag-5'>AI</b>的規(guī)?;涞? />    </a>
</div>                              <div   id=

    NVIDIA 800V HVDC 架構賦能新一代AI數(shù)據(jù)中心 挑戰(zhàn)傳統(tǒng)機架電源系統(tǒng)極限

    800 V HVDC 不僅僅是當今的機架,而是面向未來的 AI 基礎設施。2027 年,800 V HVDC 數(shù)據(jù)中心將與 NVIDIA Kyber 機架級系統(tǒng)同步全面投產(chǎn),確保為要求日益嚴苛的 AI 模型提供無縫
    的頭像 發(fā)表于 05-29 17:15 ?2387次閱讀
    NVIDIA 800V HVDC 架構賦能新一代<b class='flag-5'>AI</b><b class='flag-5'>數(shù)據(jù)中心</b> 挑戰(zhàn)傳統(tǒng)機架電源系統(tǒng)極限

    施耐德電氣發(fā)布數(shù)據(jù)中心高密度AI集群部署解決方案

    在人工智能(AI)驅動的產(chǎn)業(yè)革命浪潮中,數(shù)據(jù)中心正迎來深刻變革。面對迅猛增長的人工智能算力需求,部署高密度AI集群已成為數(shù)據(jù)中心發(fā)展的必然選
    的頭像 發(fā)表于 04-19 16:54 ?1063次閱讀
    施耐德電氣發(fā)布<b class='flag-5'>數(shù)據(jù)中心</b>高密度<b class='flag-5'>AI</b><b class='flag-5'>集群</b>部署解決方案

    科技推出用于大規(guī)模AI數(shù)據(jù)中心的系列解決方案

    科技(NYSE: KEYS )發(fā)布Keysight AI(KAI),這是一系列端到端的解決方案,旨在幫助客戶通過使用真實世界的AI工作負載仿真從而驗證AI集群組件來
    的頭像 發(fā)表于 04-10 08:51 ?399次閱讀
    是<b class='flag-5'>德</b>科技推出用于大規(guī)模<b class='flag-5'>AI</b><b class='flag-5'>數(shù)據(jù)中心</b>的系列解決方案

    科技推出AI數(shù)據(jù)中心構建器

    科技(NYSE:KEYS)推出Keysight AI (KAI)數(shù)據(jù)中心構建器,這是一款先進的軟件套件,通過模擬真實工作負載來評估新算法、組件和協(xié)議對AI訓練性能的影響。KAI
    的頭像 發(fā)表于 04-07 11:06 ?682次閱讀

    適用于數(shù)據(jù)中心AI時代的800G網(wǎng)絡

    模塊具備靈活的互聯(lián)能力,支持與現(xiàn)有400G和100G設備兼容,有助于數(shù)據(jù)中心平滑升級至更高帶寬,保護已有投資。 總結 AI時代對數(shù)據(jù)中心網(wǎng)絡提出了更高帶寬、低延遲和
    發(fā)表于 03-25 17:35

    DeepSeek推動AI算力需求:800G光模塊的關鍵作用

    數(shù)據(jù)傳輸速率,減少帶寬瓶頸,成為數(shù)據(jù)中心AI集群架構優(yōu)化的重點。光模塊速率的躍升不僅提升了傳輸效率,也為大規(guī)模并行計算任務提供了必要的帶寬
    發(fā)表于 03-25 12:00

    新思科技助力下一代數(shù)據(jù)中心AI芯片設計

    Multi-Die設計正成為增強數(shù)據(jù)中心現(xiàn)代計算性能、擴展性和靈活性的關鍵解決方案。通過將傳統(tǒng)的單片設計拆分為更小的異構或同構芯片(也稱小芯片),開發(fā)者可以針對特定任務優(yōu)化每個組件,進而
    的頭像 發(fā)表于 02-20 09:17 ?649次閱讀
    新思科技助力下一代<b class='flag-5'>數(shù)據(jù)中心</b><b class='flag-5'>AI</b>芯片設計

    Arm Neoverse如何加速實現(xiàn)AI數(shù)據(jù)中心

    降低其 AI 數(shù)據(jù)中心總體擁有成本 (TCO)。Arm Neoverse 憑借其卓越的性能、擴展性和能效,正重新定義現(xiàn)代計算環(huán)境中的可能性。
    的頭像 發(fā)表于 11-26 09:30 ?815次閱讀

    諾基亞擴展與微軟Azure的數(shù)據(jù)中心網(wǎng)絡供應協(xié)議

    的進一步鞏固。 作為協(xié)議擴展的重要組成部分,諾基亞將向微軟Azure提供其最新的7250 IXR-10e平臺。該平臺以其卓越的性能、靈活性和擴展性,在數(shù)據(jù)中心網(wǎng)絡中發(fā)揮著關鍵作用。通
    的頭像 發(fā)表于 11-22 13:53 ?741次閱讀