chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI數(shù)據(jù)中心的布線考量

康普中國(guó) ? 來源:康普中國(guó) ? 2024-12-05 09:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

簡(jiǎn)介 /

幾十年來,人工智能 (AI) 的威脅一直是科幻小說不變的主題。熒幕反派角色,比如 HAL 9000、終結(jié)者、復(fù)制人和《黑客帝國(guó)》中的機(jī)器人,都站在了人類的對(duì)立面,迫使人類必須克服這些技術(shù)帶來的威脅。最近,DALLE-2 和 ChatGPT 的發(fā)布引起了廣大公眾對(duì) AI可以做什么的極大興趣,也引發(fā)了人們關(guān)于 AI 將如何改變教育和工作性質(zhì)的討論。AI 也是當(dāng)前和未來數(shù)據(jù)中心增長(zhǎng)的主要驅(qū)動(dòng)力。

AI 包含以下三個(gè)方面: 在訓(xùn)練期間,大量數(shù)據(jù)被輸入算法,算法使用數(shù)據(jù)并從數(shù)據(jù)中“學(xué)習(xí)”。 然后,算法接觸新數(shù)據(jù)集,并將負(fù)責(zé)基于在訓(xùn)練期間學(xué)習(xí)的內(nèi)容生成新知識(shí)或結(jié)論。例如,這是一張貓的照片嗎?此過程稱作“推理 AI”。 第三個(gè)方面是“生成式 AI”,這可能比較有意思。生成式 AI 是指算法根據(jù)簡(jiǎn)單的提示“創(chuàng)建”原始輸出,包括文本、圖像、視頻、代碼等。

AI 計(jì)算由圖形處理單元 (GPU) 進(jìn)行處理,GPU 是專為并行處理而設(shè)計(jì)的芯片,非常適合 AI。用于訓(xùn)練和運(yùn)行 AI 的模型會(huì)占用大量處理能力,這通常是單臺(tái)機(jī)器無法承受的。

a58d4502-ad41-11ef-93f3-92fbcf53809c.png

圖 1:AI 模型大?。▎挝唬簆etaFLOPS)

(資料來源:https://blogs.nvidia.com/blog/2022/03/25/what-is-a-transformer-model/)

圖 1 顯示了 A I 模型的歷史增長(zhǎng)情況, 單位為petaFLOPS(每秒千萬億次浮點(diǎn)運(yùn)算)。處理這些大型模型需使用多個(gè)服務(wù)器和機(jī)架上的眾多互聯(lián)GPU。AI 數(shù)據(jù)中心部署了幾十個(gè)這樣的 AI 集群,而將所有內(nèi)容連接在一起以保持?jǐn)?shù)據(jù)流動(dòng)的布線基礎(chǔ)設(shè)施正面臨著一系列棘手挑戰(zhàn)。

以下內(nèi)容概述了 AI 數(shù)據(jù)中心布線的一些關(guān)鍵挑戰(zhàn)和機(jī)遇,以及一些最佳實(shí)踐和成功技巧。

典型數(shù)據(jù)中心架構(gòu) /

幾乎所有現(xiàn)代數(shù)據(jù)中心,尤其是超大規(guī)模數(shù)據(jù)中心,使用的都是折疊式 Clos 架構(gòu),也稱為“分支和骨干”架構(gòu)。數(shù)據(jù)中心的所有分支交換機(jī)都連接到所有骨干交換機(jī)。在數(shù)據(jù)中心中,服務(wù)器機(jī)架連接到機(jī)架頂部 (ToR) 交換機(jī)。然后,ToR 連接到行末端的分支交換機(jī)或通過光纜連接到另一個(gè)房間。機(jī)架中的服務(wù)器通過一至兩米的短銅纜連接到 ToR,傳輸 25G 或 50G信號(hào)

這種配置可讓數(shù)據(jù)中心使用很少的光纜。例如,使用 F16 架構(gòu)的 Meta 數(shù)據(jù)中心(參見圖 2),一行中每臺(tái)服務(wù)器機(jī)架有 16根雙工光纜。這些線纜從 ToR 延伸到行的末端,在那里它們與模塊連接,將雙工光纖組合成 24 根光纜。接著,這 24 根光纜延伸到另一個(gè)房間,與分支交換機(jī)連接。

數(shù)據(jù)中心在實(shí)施 AI 時(shí),會(huì)將 AI 集群部署在采用傳統(tǒng)架構(gòu)的計(jì)算集群旁。傳統(tǒng)計(jì)算有時(shí)稱為“前端網(wǎng)絡(luò)”,AI 集群有時(shí)稱為“后端網(wǎng)絡(luò)”。

a5ab8d32-ad41-11ef-93f3-92fbcf53809c.png

圖 2:FaceBook F16 數(shù)據(jù)中心網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)

(資料來源:https://engineering..com/2019/03/14/data-center-engineering/f16-minipack/)

帶有 AI 集群的數(shù)據(jù)中心 /

如上所述,AI 集群具有特有的數(shù)據(jù)處理要求,因此需要新的數(shù)據(jù)中心架構(gòu)。GPU 服務(wù)器需要更多的服務(wù)器間連接,但是由于電力和散熱的限制,每個(gè)機(jī)架不得不減少服務(wù)器的數(shù)量。因此,與傳統(tǒng)數(shù)據(jù)中心相比,AI 數(shù)據(jù)中心中的機(jī)架間布線更多。每臺(tái) GPU 服務(wù)器都連接到行內(nèi)或房間內(nèi)的交換機(jī)。這些鏈路需要在長(zhǎng)距離內(nèi)達(dá)到 100G 到 400G 的速率,而這是銅纜所無法支持的。此外,每臺(tái)服務(wù)器都需要連接到交換機(jī)網(wǎng)絡(luò)、存儲(chǔ)和帶外管理。

例如:NVIDIA

舉個(gè)例子,可以看看 AI 領(lǐng)域知名企業(yè) NVIDIA 提出的架構(gòu)。NVIDIA 發(fā)布了新款 GPU 服務(wù)器 DGX H100,該服務(wù)器具有 4 個(gè) 800G 交換機(jī)端口(作為 8 個(gè) 400GE 運(yùn)行)、4 個(gè) 400GE 存儲(chǔ)端口以及 1GE 和 10GE 管理端口。一個(gè) DGXSuperPOD(圖 3)可以包含 32 個(gè)這樣的 GPU 服務(wù)器,這些GPU 服務(wù)器可連接到單行中的 18 臺(tái)交換機(jī)。然后,每行將擁有 384 個(gè) 400GE 光纖鏈路用于交換機(jī)網(wǎng)絡(luò)和存儲(chǔ),還有 64個(gè)銅纜鏈路用于管理。數(shù)據(jù)中心中光纖鏈路的數(shù)量將顯著增加。前面提到的 F16 架構(gòu)將在服務(wù)器機(jī)架數(shù)量保持不變的情況下?lián)碛?128 (8x16) 根雙工光纜。

AI 集群的鏈路有多長(zhǎng)?/

在 NVIDIA 描繪的理想場(chǎng)景中,AI 集群中的所有 GPU 服務(wù)器將緊密結(jié)合在一起。與高性能計(jì)算 (HPC) 一樣,AI/機(jī)器學(xué)習(xí)算法對(duì)延遲極為敏感。有人估計(jì),運(yùn)行大型訓(xùn)練模型有 30%的時(shí)間花在網(wǎng)絡(luò)延遲上,70% 的時(shí)間花在計(jì)算上。由于訓(xùn)練一個(gè)大模型的成本可能高達(dá) 1000 萬美元,因此這種網(wǎng)絡(luò)延遲時(shí)間代表著一筆巨大的費(fèi)用。即使是節(jié)省 50 納秒或 10 米光纖的延遲,效果也非常明顯。AI 集群中幾乎所有的鏈路都限制在 100 米范圍內(nèi)。

不幸的是,并非所有數(shù)據(jù)中心都能夠在同一行部署 GPU 服務(wù)器機(jī)架。這些機(jī)架需要大約 40 kW 才能為 GPU 服務(wù)器供電。這一功率比典型服務(wù)器機(jī)架的更高,按較低功率要求構(gòu)建的數(shù)據(jù)中心將需要騰出專門的 GPU 機(jī)架空間。

如何選擇收發(fā)器?/

運(yùn)營(yíng)商應(yīng)仔細(xì)考慮其 AI 集群使用哪些光收發(fā)器和光纜才能更大限度地降低成本和功耗。如上所述,AI 集群中的最長(zhǎng)鏈路將限制為 100 米。由于距離短,光學(xué)設(shè)備成本將主要集中在收發(fā)器上。使用并行光纖的收發(fā)器將具有一個(gè)優(yōu)勢(shì):它們不需要使用光復(fù)用器和分解復(fù)用器進(jìn)行波分復(fù)用 (WDM)。這降低了并行光纖收發(fā)器的成本和功耗。收發(fā)器節(jié)省下的費(fèi)用遠(yuǎn)遠(yuǎn)抵消了多芯光纖取代雙工光纜所略微增加的成本。例如,使用帶有八芯光纖的 400G-DR4 收發(fā)器比采用雙工光纜的 400G-FR4 收發(fā)器更具成本效益。

單模和多模光纖應(yīng)用可以支持長(zhǎng)達(dá) 100 米的鏈路。硅光子技術(shù)的發(fā)展降低了單模收發(fā)器的成本,使其更接近等效多模收發(fā)器的成本。我們的市場(chǎng)研究表明,對(duì)于高速收發(fā)器 (400G+),單模收發(fā)器的成本是等效多模收發(fā)器成本的兩倍。雖然多模光纖的成本略高于單模光纖,但由于多芯光纖成本主要由 MPO 連接器決定,因此多模和單模光纖之間的成本差異較小。

此外,高速多模收發(fā)器的功耗比單模收發(fā)器少一兩瓦。單個(gè) AI集群具有 768 個(gè)收發(fā)器(128 個(gè)內(nèi)存鏈路 + 256 個(gè)交換機(jī)鏈路x2),使用多模光纖將節(jié)省高達(dá) 1.5 kW 的功率。與每個(gè) DGXH100 消耗的 10 kW 相比,這似乎微不足道,但對(duì)于 AI 集群來說,任何降低功耗的機(jī)會(huì)都非常寶貴。

在 2022 年,IEEE 短距離光纖工作小組完成了 IEEE 802.3db的工作,該規(guī)范為新的超短距離 (VR) 多模收發(fā)器確立了標(biāo)準(zhǔn)。此新標(biāo)準(zhǔn)針對(duì)的是 AI 集群等行內(nèi)布線,最大覆蓋范圍為50 米。這些收發(fā)器有可能更大程度地降低 AI 連接的成本和功耗。

收發(fā)器與 AOC /

許多 AI、ML 和 HPC 集群使用有源光纜 (AOC) 來互聯(lián) GPU 和交換機(jī)。AOC 是兩端集成了光發(fā)射器和接收器的光纜。大多數(shù) AOC 用于短距離,通常與多模光纖和 VCSEL 搭配使用。高速 (>40G) 有源光纜將使用與連接光收發(fā)器的光纜相同的 OM3 或 OM4 光纖。AOC 中的收發(fā)器未必和設(shè)備兼容,如果不兼容將無法工作。AOC 的收發(fā)器直接接入設(shè)備即可,但是由于安裝人員測(cè)試 AOC 中的收發(fā)器,因此不需要具備清潔和檢查光纖連接器所需的技能。

AOC 的缺點(diǎn)是它們不具備收發(fā)器所擁有的靈活性。AOC 安裝非常耗時(shí),因?yàn)椴季€時(shí)必須連接收發(fā)器。正確安裝帶有扇出功能的 AOC 尤其具有挑戰(zhàn)性。AOC 的故障率是同等收發(fā)器的兩倍。當(dāng) AOC 發(fā)生故障時(shí),必須通過網(wǎng)絡(luò)來安裝新的 AOC。這會(huì)占用計(jì)算時(shí)間。最后,當(dāng)需要升級(jí)網(wǎng)絡(luò)鏈路時(shí),必須拆除有問題的 AOC 并更換為新的 AOC。相對(duì)于 AOC 連接而言,光纖布線是基礎(chǔ)設(shè)施的一部分,并且可以在幾代數(shù)據(jù)速率迭代升級(jí)中保持生命力。

結(jié)論 /

仔細(xì)考慮 AI 集群的布線將有助于節(jié)省成本、功耗和安裝時(shí)間。合理的光纖布線將使企業(yè)能夠充分受益于人工智能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    5230

    瀏覽量

    73526
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    279926
  • 布線
    +關(guān)注

    關(guān)注

    9

    文章

    798

    瀏覽量

    85126

原文標(biāo)題:數(shù)據(jù)中心白皮書系列丨AI 數(shù)據(jù)中心的布線考量

文章出處:【微信號(hào):康普中國(guó),微信公眾號(hào):康普中國(guó)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    簡(jiǎn)單認(rèn)識(shí)安森美AI數(shù)據(jù)中心電源解決方案

    面對(duì)AI算力需求爆發(fā)式增長(zhǎng),數(shù)據(jù)中心電力系統(tǒng)正面臨前所未有的挑戰(zhàn)。安森美(onsemi)推出的AI數(shù)據(jù)中心電源解決方案,直擊能效、尺寸等痛點(diǎn),助力客戶把握
    的頭像 發(fā)表于 07-05 13:03 ?1911次閱讀
    簡(jiǎn)單認(rèn)識(shí)安森美<b class='flag-5'>AI</b><b class='flag-5'>數(shù)據(jù)中心</b>電源解決方案

    中型數(shù)據(jù)中心中的差分晶體振蕩器應(yīng)用與匹配方案

    核心網(wǎng)絡(luò)、存儲(chǔ)、通信與計(jì)算節(jié)點(diǎn)。 通過精準(zhǔn)選型與合理布線,這些高性能差分晶體振蕩器可有效提升數(shù)據(jù)中心設(shè)備間的時(shí)鐘一致性與傳輸效率,是構(gòu)建穩(wěn)定、可靠、高吞吐量數(shù)據(jù)中心的關(guān)鍵器件。
    發(fā)表于 07-01 16:33

    華為面向亞太地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡(luò)方案

    在華為數(shù)據(jù)通信創(chuàng)新峰會(huì)2025亞太站期間,以“星河AI數(shù)據(jù)中心網(wǎng)絡(luò),賦AI時(shí)代新動(dòng)能”為主題的分論壇上,華為面向亞太地區(qū)發(fā)布全新升級(jí)的星河AI
    的頭像 發(fā)表于 06-11 11:11 ?541次閱讀

    華為面向中東中亞地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡(luò)

    近日,在華為數(shù)據(jù)通信創(chuàng)新峰會(huì)2025中東中亞站期間,以“星河AI數(shù)據(jù)中心網(wǎng)絡(luò),賦AI時(shí)代新動(dòng)能”為主題的分論壇上,華為面向中東中亞地區(qū)發(fā)布全新升級(jí)的星河
    的頭像 發(fā)表于 05-21 15:49 ?317次閱讀

    是德科技推出AI數(shù)據(jù)中心構(gòu)建器

    是德科技(NYSE:KEYS)推出Keysight AI (KAI)數(shù)據(jù)中心構(gòu)建器,這是一款先進(jìn)的軟件套件,通過模擬真實(shí)工作負(fù)載來評(píng)估新算法、組件和協(xié)議對(duì)AI訓(xùn)練性能的影響。KAI數(shù)據(jù)中心
    的頭像 發(fā)表于 04-07 11:06 ?506次閱讀

    適用于數(shù)據(jù)中心AI時(shí)代的800G網(wǎng)絡(luò)

    隨著人工智能(AI)技術(shù)的迅猛發(fā)展,數(shù)據(jù)中心面臨著前所未有的計(jì)算和網(wǎng)絡(luò)壓力。從大語言模型(LLM)訓(xùn)練到生成式AI應(yīng)用,海量數(shù)據(jù)處理需求推動(dòng)了網(wǎng)絡(luò)帶寬的快速增長(zhǎng)。在此背景下,800G網(wǎng)
    發(fā)表于 03-25 17:35

    華為全新升級(jí)星河AI數(shù)據(jù)中心網(wǎng)絡(luò)

    在華為中國(guó)合作伙伴大會(huì)2025期間,以 “星河AI數(shù)據(jù)中心網(wǎng)絡(luò),賦AI時(shí)代新動(dòng)能”為主題的數(shù)據(jù)中心網(wǎng)絡(luò)分論壇圓滿落幕。本次論壇匯聚了來自全國(guó)的300多位客戶和伙伴,共同探討
    的頭像 發(fā)表于 03-24 14:46 ?478次閱讀

    優(yōu)化800G數(shù)據(jù)中心:高速線纜、有源光纜和光纖跳線解決方案

    隨著技術(shù)的飛速發(fā)展,數(shù)據(jù)中心正在從100G和400G演進(jìn)到800G時(shí)代,對(duì)高速數(shù)據(jù)傳輸?shù)男枨笈c日俱增。因此,選擇高效且可靠的布線解決方案對(duì)于800G數(shù)據(jù)中心至關(guān)重要。本文將深入探討80
    發(fā)表于 03-24 14:20

    Cadence顛覆AI數(shù)據(jù)中心設(shè)計(jì)

    日前舉辦的英偉達(dá) GTC 2025 開發(fā)者大會(huì)匯聚了眾多行業(yè)精英,共同探討人工智能的未來。而人工智能正在重塑全球數(shù)據(jù)中心的格局。據(jù)預(yù)測(cè),未來將有 1 萬億美元用于 AI 驅(qū)動(dòng)的數(shù)據(jù)中心升級(jí)。然而
    的頭像 發(fā)表于 03-21 15:43 ?451次閱讀

    數(shù)據(jù)中心發(fā)展與改造

    全球多數(shù)數(shù)據(jù)中心基礎(chǔ)設(shè)施已超六年,能耗高而效率低。隨著AI的發(fā)展,企業(yè)正致力于整合與提升能效的現(xiàn)代化改造。同時(shí)數(shù)據(jù)中心呈現(xiàn)規(guī)?;?、高密化、綠色化發(fā)展趨勢(shì)。19821800313 一、目前數(shù)據(jù)中
    的頭像 發(fā)表于 02-28 16:50 ?389次閱讀
    <b class='flag-5'>數(shù)據(jù)中心</b>發(fā)展與改造

    韓國(guó)將建全球最大AI數(shù)據(jù)中心

    據(jù)最新報(bào)道,韓國(guó)即將啟動(dòng)一項(xiàng)雄心勃勃的計(jì)劃——建設(shè)全球最大的人工智能(AI)數(shù)據(jù)中心。該數(shù)據(jù)中心不僅在規(guī)模上令人矚目,更在技術(shù)和投資上展現(xiàn)了韓國(guó)的強(qiáng)大實(shí)力。 據(jù)悉,該數(shù)據(jù)中心的電力容量
    的頭像 發(fā)表于 02-20 09:24 ?561次閱讀

    Meta AI數(shù)據(jù)中心網(wǎng)絡(luò)用了哪家的芯片

    ? 在Meta,我們相信開放的硬件會(huì)推動(dòng)創(chuàng)新。在當(dāng)今世界,越來越多的數(shù)據(jù)中心基礎(chǔ)設(shè)施致力于支持新興的AI技術(shù),開放硬件在協(xié)助分解方面發(fā)揮著重要作用。通過將傳統(tǒng)數(shù)據(jù)中心技術(shù)分解為其核心組件,我們可以
    的頭像 發(fā)表于 11-25 10:05 ?1378次閱讀
    Meta <b class='flag-5'>AI</b><b class='flag-5'>數(shù)據(jù)中心</b>網(wǎng)絡(luò)用了哪家的芯片

    簡(jiǎn)述數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的演變

    隨著全球?qū)θ斯ぶ悄埽?b class='flag-5'>AI)的需求不斷增長(zhǎng),數(shù)據(jù)中心作為AI計(jì)算的重要基礎(chǔ)設(shè)施,其網(wǎng)絡(luò)架構(gòu)與連接技術(shù)的發(fā)展變得尤為關(guān)鍵。
    的頭像 發(fā)表于 10-22 16:23 ?838次閱讀

    怎樣保障數(shù)據(jù)中心不間斷電源不斷電 提供可靠安全的供配電#數(shù)據(jù)中心

    數(shù)據(jù)中心配電系統(tǒng)
    安科瑞王金晶
    發(fā)布于 :2024年08月29日 14:51:36

    數(shù)據(jù)中心AI時(shí)代轉(zhuǎn)型:挑戰(zhàn)與機(jī)遇

    隨著人工智能(AI)的迅速發(fā)展和廣泛應(yīng)用,數(shù)據(jù)中心作為AI技術(shù)的基石,也面臨著前所未有的挑戰(zhàn)和機(jī)遇。為了滿足AI的高性能和低延遲要求,數(shù)據(jù)中心
    的頭像 發(fā)表于 07-24 08:28 ?828次閱讀
    <b class='flag-5'>數(shù)據(jù)中心</b>的<b class='flag-5'>AI</b>時(shí)代轉(zhuǎn)型:挑戰(zhàn)與機(jī)遇