chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

是德科技如何提升AI數(shù)據(jù)中心集群的可擴(kuò)展性

是德科技KEYSIGHT ? 來源:是德科技KEYSIGHT ? 2025-09-25 17:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

引言

全球范圍內(nèi),一場高投入的競賽正在展開:各國與各類企業(yè)不斷擴(kuò)建數(shù)據(jù)中心,以支撐其人工智能(AI)的發(fā)展。

最新研究預(yù)測

包括數(shù)據(jù)中心、網(wǎng)絡(luò)與硬件在內(nèi)的 AI 基礎(chǔ)設(shè)施投資將于 2029 年 達(dá)到 4230 億美元,年復(fù)合增長率(CAGR)約 44%。然而,AI 的快速創(chuàng)新也前所未有地加劇了數(shù)據(jù)中心網(wǎng)絡(luò)的壓力。以 Meta 最近發(fā)布的 Llama 3 405B 訓(xùn)練集群為例,其預(yù)訓(xùn)練階段需要超過700 TB 內(nèi)存與1.6 萬張 NVIDIA H100 GPU。Epoch AI估計(jì),到 2030 年,AI 模型所需計(jì)算能力將達(dá)到當(dāng)今領(lǐng)先模型的1 萬倍。

如果企業(yè)里擁有數(shù)據(jù)中心,引入 AI 就只是時間問題。關(guān)鍵問題是:

網(wǎng)絡(luò)基礎(chǔ)設(shè)施是否具備擴(kuò)展能力,可以承載復(fù)雜且大流量的 AI 訓(xùn)練負(fù)載?

本文聚焦 AI 數(shù)據(jù)中心集群擴(kuò)展,識別關(guān)鍵網(wǎng)絡(luò)挑戰(zhàn)并闡明為何網(wǎng)絡(luò)成為新瓶頸;

同時說明如何借助先進(jìn)模擬仿真方案克服這些挑戰(zhàn),幫助您打造可擴(kuò)展、可靠的 AI 網(wǎng)絡(luò)以匹配 AI 戰(zhàn)略目標(biāo)。

AI 集群的興起

思科(Cisco)的一項(xiàng)最新調(diào)研顯示,89% 的受訪者計(jì)劃在2026年前部署某種形式的 AI 就緒型數(shù)據(jù)中心集群。

AI 集群是一個由大量計(jì)算資源構(gòu)成、高度互聯(lián)的網(wǎng)絡(luò),用于承載 AI工作負(fù)載。與傳統(tǒng)計(jì)算集群不同,AI集群針對模型訓(xùn)練、推理與實(shí)時分析進(jìn)行了優(yōu)化:它們依賴成千上萬張 GPU、高速互連與低時延網(wǎng)絡(luò)來滿足密集計(jì)算與數(shù)據(jù)吞吐的需求。

構(gòu)建 AI 集群

可以把 AI 集群理解為“縮微網(wǎng)絡(luò)”:通過構(gòu)建“微型計(jì)算機(jī)網(wǎng)絡(luò)”將 GPU 相互連接,使其能高效地進(jìn)行數(shù)據(jù)傳輸。在面向數(shù)千—數(shù)萬 GPU 的分布式訓(xùn)練中,穩(wěn)健的網(wǎng)絡(luò)連接是長期協(xié)同訓(xùn)練的基本保障。

AI 集群的關(guān)鍵組成

01計(jì)算節(jié)點(diǎn):

相當(dāng)于 AI 集群的“大腦”。成千上萬的 GPU 連接到機(jī)架頂層交換機(jī)(ToR);問題越復(fù)雜,所需 GPU 越多。

02高速互連:

以太網(wǎng)等,用于在計(jì)算節(jié)點(diǎn)間快速傳輸數(shù)據(jù)。

03網(wǎng)絡(luò)基礎(chǔ)設(shè)施:

涵蓋網(wǎng)絡(luò)硬件與協(xié)議,支撐長期運(yùn)行、成千上萬 GPU 之間的數(shù)據(jù)通信。

擴(kuò)展 AI 數(shù)據(jù)中心集群

AI 集群規(guī)模需要隨業(yè)務(wù)需求與工作負(fù)載彈性擴(kuò)展。隨著模型日益復(fù)雜,組織不斷推動集群擴(kuò)張。Dell’Oro Group 的網(wǎng)絡(luò)報告指出,AI 集群規(guī)模幾乎每年以 4 倍速度增長,對網(wǎng)絡(luò)基礎(chǔ)設(shè)施提出巨大挑戰(zhàn)。

直至最近,網(wǎng)絡(luò)帶寬、時延 與 電力分配 等因素將 AI 集群規(guī)模限制在約 3 萬張 GPU。然而,xAI 的 Colossus 超級計(jì)算機(jī)項(xiàng)目在 2024年將規(guī)模提升到 10 萬張 NVIDIA H100,突破歷史上限。網(wǎng)絡(luò)與內(nèi)存技術(shù)的最新創(chuàng)新,使 GPU 間數(shù)據(jù)通信更快,標(biāo)志著 AI 集群可擴(kuò)展性的重大飛躍。

擴(kuò)展中的關(guān)鍵挑戰(zhàn)

01)網(wǎng)絡(luò)挑戰(zhàn)

當(dāng)參數(shù)規(guī)模擴(kuò)展到萬億級及以上時,傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)可能無法高效擴(kuò)展。GPU 擅長并行數(shù)學(xué)計(jì)算,但在成千上萬 GPU 協(xié)同工作時,若有任意單卡因數(shù)據(jù)不足或延遲被“卡住”,其他 GPU 也會被拖慢。擁塞網(wǎng)絡(luò)帶來的時延拉長或丟包觸發(fā)重傳,顯著增加 JCT(作業(yè)完成時間),讓價值數(shù)百萬美元的 GPU 效率降低。

此外,AI 工作負(fù)載下東西向(east-west)流量暴增,若缺乏針對性優(yōu)化,極易引發(fā)擁塞與時延問題。

02)互連挑戰(zhàn)

隨著集群擴(kuò)展,傳統(tǒng)互連難以滿足吞吐需求。升級到 400G / 800G / 1.6T 等更高速的互連往往勢在必行。但在這些速率下,高速串行鏈路必須經(jīng)過精細(xì)測試及優(yōu)化,以確保最佳信號完整性(SI)、更低誤碼率(BER)與更好 FEC(前向糾錯)的性能及冗余。這需要高精度、高效率的測試系統(tǒng)在部署前完成鏈路驗(yàn)證。

03)財(cái)務(wù)挑戰(zhàn)

除 GPU 費(fèi)用外,還必須考慮電力、冷卻、網(wǎng)絡(luò)設(shè)備與更廣泛的數(shù)據(jù)中心基礎(chǔ)設(shè)施成本。AI 訓(xùn)練常持續(xù)數(shù)周甚至數(shù)月,占用昂貴的計(jì)算資源。通過更好的互連或改進(jìn)的網(wǎng)絡(luò)性能加速訓(xùn)練,不僅能縮短訓(xùn)練周期,也能更早釋放資源用于其他任務(wù)——節(jié)省的每一天都可能轉(zhuǎn)化為顯著成本優(yōu)勢。

AI 集群網(wǎng)絡(luò)的驗(yàn)證

要加速模型訓(xùn)練并最大化 ROI,必須對網(wǎng)絡(luò)結(jié)構(gòu)(fabric)與 GPU 間互連進(jìn)行測試與基準(zhǔn)評測(benchmarking)。

困難在于:硬件、體系結(jié)構(gòu)設(shè)計(jì)與動態(tài)工作負(fù)載三者之間存在復(fù)雜耦合,給統(tǒng)一、可復(fù)現(xiàn)的驗(yàn)證帶來挑戰(zhàn)。

實(shí)驗(yàn)室部署的現(xiàn)實(shí)制約

在實(shí)驗(yàn)室復(fù)制生產(chǎn)級網(wǎng)絡(luò)代價高昂:設(shè)備有限、需要專業(yè)網(wǎng)絡(luò)工程師,且實(shí)驗(yàn)室在空間/供電/散熱等方面與生產(chǎn)環(huán)境往往不一致。直接在生產(chǎn)網(wǎng)絡(luò)上測試,又會擠占算力、影響關(guān)鍵 AI 任務(wù)。另一方面,AI 工作負(fù)載與數(shù)據(jù)集高度多樣(大小與通信模式差異大),使得問題復(fù)現(xiàn)與一致性基準(zhǔn)更為困難。最終,要洞察 GPU 之間的集體通信細(xì)節(jié),需要先進(jìn)的監(jiān)測工具來分析同步與數(shù)據(jù)交換模式,診斷性能瓶頸。

在實(shí)驗(yàn)室“模擬一切”

Keysight AI Data Center Builder 通過高密度高速率測試儀器來仿真真實(shí) AI 流量模式。

典型流程如下

先在實(shí)驗(yàn)室測試目標(biāo)方案的子集,對集合通信完成時間,算法帶寬,總線帶寬、P50/P95長尾等關(guān)鍵指標(biāo)進(jìn)行基準(zhǔn)評測。這有助于在設(shè)計(jì)階段平衡 GPU/工作負(fù)載設(shè)置與網(wǎng)絡(luò)配置。當(dāng)網(wǎng)絡(luò)架構(gòu)師與工程師對結(jié)果滿意后,便可將設(shè)置應(yīng)用到生產(chǎn),并對新結(jié)果進(jìn)行測量。憑借此方案,工程師能夠在實(shí)驗(yàn)室或過渡環(huán)境中先設(shè)計(jì)與優(yōu)化,隨后落地到生產(chǎn);這個過程無需在實(shí)驗(yàn)室部署專用的 AI 計(jì)算節(jié)點(diǎn)與Smart NIC。

面向未來的網(wǎng)絡(luò)部署

隨著 AI 重塑數(shù)據(jù)中心產(chǎn)業(yè),前瞻性地建設(shè)網(wǎng)絡(luò)至關(guān)重要。Ultra Ethernet Consortium(UEC)正在推進(jìn)開放、互操作的行業(yè)標(biāo)準(zhǔn),面向 AI 的性能與可擴(kuò)展性。UEC 引入 鏈路級重試(LLR)與擁塞管理等機(jī)制,以增強(qiáng)以太網(wǎng)在 AI 工作負(fù)載場景下的可擴(kuò)展性與確定性。展望未來,Ultra Ethernet 與其他新興標(biāo)準(zhǔn)將成為“AI 就緒網(wǎng)絡(luò)”的關(guān)鍵推動力。

Keysight AI Data Center Builder 的優(yōu)勢在于:它支持AI網(wǎng)絡(luò)各層的模擬和仿真,幫助客戶優(yōu)化訓(xùn)練時間、復(fù)現(xiàn)生產(chǎn)網(wǎng)絡(luò)問題、調(diào)優(yōu) AI cluster 性能、新方案新組合的驗(yàn)證、為多廠商協(xié)作提供平臺。

是德科技攜手 Heavy Reading 發(fā)布《超越瓶頸:2025 年 AI 集群網(wǎng)絡(luò)報告》指出,AI 采用正全速推進(jìn),而現(xiàn)有基礎(chǔ)設(shè)施的就緒度已難以同步跟進(jìn)?;谌驑颖镜恼{(diào)研,報告呼吁電信與云服務(wù)提供商將戰(zhàn)略重心從單純“擴(kuò)張”轉(zhuǎn)向“以優(yōu)化為先”,以更確定、更高效的網(wǎng)絡(luò)承載下一代 AI 工作負(fù)載。歡迎在文末“閱讀原文”下載完整版報告,或者點(diǎn)擊下載參與我們的問卷。

結(jié)語

當(dāng) AI 推動數(shù)據(jù)中心進(jìn)入全新階段,網(wǎng)絡(luò) 已成為 AI 成功的新瓶頸亦或新引擎。

借助高保真仿真與系統(tǒng)級驗(yàn)證,企業(yè)能夠在實(shí)驗(yàn)室里復(fù)刻生產(chǎn)難題,以可測、可復(fù)現(xiàn) 的方法優(yōu)化網(wǎng)絡(luò)并縮短訓(xùn)練周期,從而在 AI 基礎(chǔ)設(shè)施的競賽中占得先機(jī)。是德科技將持續(xù)以 KAI(Keysight Artificial Intelligence) 方案,幫助客戶在設(shè)計(jì)—仿真—驗(yàn)證—部署 的全鏈路上實(shí)現(xiàn)“從可用到卓越”的躍遷。

關(guān)于是德科技

是德科技(NYSE:KEYS)啟迪并賦能創(chuàng)新者,助力他們將改變世界的技術(shù)帶入生活。作為一家標(biāo)準(zhǔn)普爾 500 指數(shù)公司,我們提供先進(jìn)的設(shè)計(jì)、仿真和測試解決方案,旨在幫助工程師在整個產(chǎn)品生命周期中更快地完成開發(fā)和部署,同時控制好風(fēng)險。我們的客戶遍及全球通信、工業(yè)自動化、航空航天與國防、汽車、半導(dǎo)體和通用電子等市場。我們與客戶攜手,加速創(chuàng)新,創(chuàng)造一個安全互聯(lián)的世界。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 網(wǎng)絡(luò)
    +關(guān)注

    關(guān)注

    14

    文章

    8125

    瀏覽量

    93021
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    5505

    瀏覽量

    74620
  • AI
    AI
    +關(guān)注

    關(guān)注

    89

    文章

    38001

    瀏覽量

    295913

原文標(biāo)題:800G / 1.6T 時代,如何讓提升 AI 數(shù)據(jù)中心集群的可擴(kuò)展性?

文章出處:【微信號:是德科技KEYSIGHT,微信公眾號:是德科技KEYSIGHT】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何評估電能質(zhì)量在線監(jiān)測裝置的擴(kuò)展性?

    評估電能質(zhì)量在線監(jiān)測裝置的擴(kuò)展性,需圍繞 “ 硬件擴(kuò)展、軟件升級、協(xié)議兼容、場景適配 ”
    的頭像 發(fā)表于 10-22 16:35 ?361次閱讀

    睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級

    NVIDIA Quantum-2交換機(jī)等主流設(shè)備。 平滑擴(kuò)展:與現(xiàn)有400G/100G設(shè)備無縫互通,降低數(shù)據(jù)中心升級成本。 多場景覆蓋:從AI訓(xùn)練集群的“大象流”到
    發(fā)表于 08-13 19:01

    加速AI未來,睿海光電800G OSFP光模塊重構(gòu)數(shù)據(jù)中心互聯(lián)標(biāo)準(zhǔn)

    定義數(shù)據(jù)中心互聯(lián)的新范式。 一、技術(shù)實(shí)力:800G OSFP光模塊的卓越性能表現(xiàn) 睿海光電800G OSFP光模塊系列采用行業(yè)領(lǐng)先的PAM4調(diào)制技術(shù),具備以下核心優(yōu)勢: 超高速率 :單模傳輸速率達(dá)
    發(fā)表于 08-13 16:38

    PCIe協(xié)議分析儀在數(shù)據(jù)中心中有何作用?

    數(shù)據(jù)中心的整體可靠性。以下是其核心作用及具體應(yīng)用場景的詳細(xì)分析:一、性能優(yōu)化:突破帶寬瓶頸,提升計(jì)算效率 鏈路帶寬利用率分析 場景:在AI訓(xùn)練集群中,GPU通過PCIe與CPU交換
    發(fā)表于 07-29 15:02

    戴爾科技助力盛京醫(yī)院打造現(xiàn)代醫(yī)療數(shù)據(jù)中心

    隨著業(yè)務(wù)擴(kuò)展與醫(yī)療數(shù)據(jù)激增,如何構(gòu)建一個兼具安全性、敏捷性與擴(kuò)展性的現(xiàn)代化數(shù)據(jù)中心,成為眾多大型醫(yī)院共同關(guān)注的命題。在這場關(guān)系全局的轉(zhuǎn)型之中,中國醫(yī)科大學(xué)附屬盛京醫(yī)院(以下簡稱“盛京醫(yī)
    的頭像 發(fā)表于 07-04 16:31 ?684次閱讀

    瑞薩電子RA系列微控制器的擴(kuò)展性強(qiáng)的配置軟件包 (FSP)安裝下載與使用指南

    瑞薩電子RA系列微控制器的擴(kuò)展性強(qiáng)的配置軟件包 (FSP)安裝下載與使用指南
    的頭像 發(fā)表于 06-11 17:21 ?1366次閱讀

    重新思考數(shù)據(jù)中心架構(gòu),推進(jìn)AI的規(guī)?;涞?/a>

    人工智能(AI)對計(jì)算資源的貪婪需求推動了基礎(chǔ)設(shè)施的變革,業(yè)界正著力解決如何滿足AI在功率、擴(kuò)展性以及效率等方面的需求。這促使大量投資涌入,旨在重新配置
    的頭像 發(fā)表于 05-30 13:51 ?639次閱讀
    重新思考<b class='flag-5'>數(shù)據(jù)中心</b>架構(gòu),推進(jìn)<b class='flag-5'>AI</b>的規(guī)模化落地

    NVIDIA 800V HVDC 架構(gòu)賦能新一代AI數(shù)據(jù)中心 挑戰(zhàn)傳統(tǒng)機(jī)架電源系統(tǒng)極限

    800 V HVDC 不僅僅是當(dāng)今的機(jī)架,而是面向未來的 AI 基礎(chǔ)設(shè)施。2027 年,800 V HVDC 數(shù)據(jù)中心將與 NVIDIA Kyber 機(jī)架級系統(tǒng)同步全面投產(chǎn),確保為要求日益嚴(yán)苛的 AI 模型提供無縫
    的頭像 發(fā)表于 05-29 17:15 ?2805次閱讀
    NVIDIA 800V HVDC 架構(gòu)賦能新一代<b class='flag-5'>AI</b><b class='flag-5'>數(shù)據(jù)中心</b> 挑戰(zhàn)傳統(tǒng)機(jī)架電源系統(tǒng)極限

    施耐德電氣發(fā)布數(shù)據(jù)中心高密度AI集群部署解決方案

    在人工智能(AI)驅(qū)動的產(chǎn)業(yè)革命浪潮中,數(shù)據(jù)中心正迎來深刻變革。面對迅猛增長的人工智能算力需求,部署高密度AI集群已成為數(shù)據(jù)中心發(fā)展的必然選
    的頭像 發(fā)表于 04-19 16:54 ?1214次閱讀
    施耐德電氣發(fā)布<b class='flag-5'>數(shù)據(jù)中心</b>高密度<b class='flag-5'>AI</b><b class='flag-5'>集群</b>部署解決方案

    科技推出用于大規(guī)模AI數(shù)據(jù)中心的系列解決方案

    科技(NYSE: KEYS )發(fā)布Keysight AI(KAI),這是一系列端到端的解決方案,旨在幫助客戶通過使用真實(shí)世界的AI工作負(fù)載仿真從而驗(yàn)證AI集群組件來
    的頭像 發(fā)表于 04-10 08:51 ?491次閱讀
    是<b class='flag-5'>德</b>科技推出用于大規(guī)模<b class='flag-5'>AI</b><b class='flag-5'>數(shù)據(jù)中心</b>的系列解決方案

    科技推出AI數(shù)據(jù)中心構(gòu)建器以驗(yàn)證和優(yōu)化網(wǎng)絡(luò)架構(gòu)和主機(jī)設(shè)計(jì)

    : KEYS )推出Keysight AI (KAI)數(shù)據(jù)中心構(gòu)建器,這是一款先進(jìn)的軟件套件,通過模擬真實(shí)工作負(fù)載來評估新算法、組件和協(xié)議對AI訓(xùn)練性能的影響。KAI數(shù)據(jù)中心構(gòu)建器的工
    的頭像 發(fā)表于 04-10 08:50 ?484次閱讀

    科技推出AI數(shù)據(jù)中心構(gòu)建器

    科技(NYSE:KEYS)推出Keysight AI (KAI)數(shù)據(jù)中心構(gòu)建器,這是一款先進(jìn)的軟件套件,通過模擬真實(shí)工作負(fù)載來評估新算法、組件和協(xié)議對AI訓(xùn)練性能的影響。KAI
    的頭像 發(fā)表于 04-07 11:06 ?796次閱讀

    適用于數(shù)據(jù)中心AI時代的800G網(wǎng)絡(luò)

    模塊具備靈活的互聯(lián)能力,支持與現(xiàn)有400G和100G設(shè)備兼容,有助于數(shù)據(jù)中心平滑升級至更高帶寬,保護(hù)已有投資。 總結(jié) AI時代對數(shù)據(jù)中心網(wǎng)絡(luò)提出了更高帶寬、低延遲和
    發(fā)表于 03-25 17:35

    DeepSeek推動AI算力需求:800G光模塊的關(guān)鍵作用

    數(shù)據(jù)傳輸速率,減少帶寬瓶頸,成為數(shù)據(jù)中心AI集群架構(gòu)優(yōu)化的重點(diǎn)。光模塊速率的躍升不僅提升了傳輸效率,也為大規(guī)模并行計(jì)算任務(wù)提供了必要的帶寬
    發(fā)表于 03-25 12:00

    新思科技助力下一代數(shù)據(jù)中心AI芯片設(shè)計(jì)

    Multi-Die設(shè)計(jì)正成為增強(qiáng)數(shù)據(jù)中心現(xiàn)代計(jì)算性能、擴(kuò)展性和靈活性的關(guān)鍵解決方案。通過將傳統(tǒng)的單片設(shè)計(jì)拆分為更小的異構(gòu)或同構(gòu)芯片(也稱小芯片),開發(fā)者可以針對特定任務(wù)優(yōu)化每個組件,進(jìn)而
    的頭像 發(fā)表于 02-20 09:17 ?830次閱讀
    新思科技助力下一代<b class='flag-5'>數(shù)據(jù)中心</b><b class='flag-5'>AI</b>芯片設(shè)計(jì)