chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)中心架構(gòu)克服AI內(nèi)存瓶頸的方法

juju宇哥 ? 來源:juju宇哥 ? 作者:juju宇哥 ? 2022-07-18 15:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人工智能的懷疑論者批評了當前技術中存在的內(nèi)存瓶頸,認為無法加速處理器和內(nèi)存之間的數(shù)據(jù)移動阻礙了有用的實際應用程序。

用于在數(shù)據(jù)中心訓練 AI 模型的 AI 加速器需要可用的最高內(nèi)存帶寬。雖然將整個模型存儲在處理器中會消除等式中的片外存儲器,但這不是一個可行的解決方案,因為最大的模型測量數(shù)十億或數(shù)萬億個參數(shù)。

過去的系統(tǒng)內(nèi)存受限,而今天的數(shù)據(jù)中心架構(gòu)使用各種技術來克服內(nèi)存瓶頸。

高帶寬內(nèi)存

一種流行的解決方案是使用高帶寬內(nèi)存 (HBM),其中包括通過硅中介層將 4、8 或 12 個 DRAM 裸片的 3D 堆棧連接到處理器。該技術的最新版本 HBM2E 具有比其前身更快的每針信號速率,每針高達 3.6 Gb/s,從而提高了帶寬。三星和 SK Hynix 各自提供 8 個芯片 HBM2E 堆棧,總?cè)萘繛?16 GB,提供 460 GB/s 帶寬(據(jù) SK Hynix 稱,DDR5 為 2.4 GB/s,GDDR6 為 64 GB/s)。HBM3 旨在將速度和容量推得更高。

最新版本的 Nvidia 旗艦數(shù)據(jù)中心 GPU A100 提供 80 GB 的 HBM2E 性能和 2 TB/s 的內(nèi)存帶寬。A100 包含五個 16-GB DRAM 堆棧,加入一個使用 HBM2 的 40-GB 版本,總帶寬為 1.6 TB/s。兩者之間的差異使深度學習推薦模型的 AI 模型訓練速度提高了三倍,這是一種已知的內(nèi)存消耗。

同時,數(shù)據(jù)中心 CPU 正在利用 HBM 帶寬。Intel 的下一代 Xeon 數(shù)據(jù)中心 CPU Sapphire Rapids 將 HBM 引入 Xeon 系列。它們是英特爾首款使用專為 AI 等矩陣乘法工作負載設計的新 AMX 指令擴展的數(shù)據(jù)中心 CPU。他們還將能夠使用片外 DDR5 DRAM 或 DRAM 加 HBM。“通常情況下,CPU 針對容量進行了優(yōu)化,而加速器和 GPU 針對帶寬進行了優(yōu)化,”英特爾高級首席工程師 Arijit Biswas 在最近的一次熱芯片介紹。“然而,隨著模型大小呈指數(shù)級增長,我們看到對容量和帶寬的持續(xù)需求沒有權衡取舍。Sapphire Rapids 通過原生支持這兩者來做到這一點。”

Biswas 補充說,該方法通過內(nèi)存分層得到了增強,“其中包括對軟件可見的 HBM 和 DDR 的支持,以及使用 HBM 作為 DDR 支持的緩存的軟件透明緩存,”Biswas 補充道。

然而,Sapphire Rapids 的總工程師 Nevine Nassif 告訴EE Times ,HBM 版本是以犧牲芯片面積為代價的。

“[與 HBM 兼容的]模具略有不同,”她說。“還有一個不同于 DDR5 控制器的 HBM 控制器。在沒有 HBM 的 Sapphire Rapids 版本中,我們在芯片的一個區(qū)域添加了用于加密、壓縮等的加速器。所有這些都消失了——除了數(shù)據(jù)流加速器——而是 HBM 控制器進入了。

“最重要的是,我們必須對網(wǎng)格進行一些更改,以支持 HBM 的帶寬要求,”Nassif 補充道。

除了 CPU 和 GPU,HBM 在數(shù)據(jù)中心 FPGA 中也很受歡迎。例如,英特爾的 Stratix 和賽靈思 Versal FPGA 都有 HBM 版本,一些 AI ASIC 也使用它。騰訊支持的數(shù)據(jù)中心 AI ASIC 開發(fā)商 Enflame Technology 將 HBM 用于其 DTU 1.0 設備,該設備針對云 AI 訓練進行了優(yōu)化。80-TFLOPS (FP16/BF16) 芯片使用兩個 HBM2 堆棧,提供通過片上網(wǎng)絡連接的 512-GB/s 帶寬。

每美元的性能

雖然 HBM 為數(shù)據(jù)中心 AI 加速器所需的片外內(nèi)存提供了極高的帶寬,但仍然存在一些值得注意的問題。

pYYBAGLOshKAKo3jAACy5602Vl8826.jpg


Graphcore 對不同內(nèi)存技術的容量和帶寬的比較。當其他人嘗試使用 HBM2E 解決這兩個問題時,Graphcore 在其 Colossus Mk2 AI 加速器芯片上使用了主機 DDR 內(nèi)存和片上 SRAM 的組合。(來源:Graphcore)

Graphcore 就是其中之一。在他的 Hot Chips 演示中,Graphcore 首席技術官 Simon Knowles 指出,在大型 AI 模型中更快的計算需要內(nèi)存容量和內(nèi)存帶寬。雖然其他人使用 HBM 來提高容量和帶寬,但權衡包括 HBM 的成本、功耗和熱限制。

Graphcore 的第二代智能處理單元 (IPU) 改為使用其 896 MiB 的大型片上 SRAM 來支持其 1,472 個處理器內(nèi)核所需的內(nèi)存帶寬。Knowles 說,這足以避免卸載 DRAM 所需的更高帶寬。為了支持內(nèi)存容量,太大而無法在芯片上安裝的 AI 模型使用服務器級 DDR 形式的低帶寬遠程 DRAM。該配置連接到主機處理器,允許中型模型分布在 IPU 集群中的 SRAM 上。

鑒于該公司以每美元性能為基礎推廣其 IPU,Graphcore 拒絕 HBM 的主要原因似乎是成本。

“與 AI 處理器集成的 HBM 的凈成本是服務器級 DDR 每字節(jié)成本的 10 倍以上,”Knowles 說?!凹词谷萘窟m中,HBM 也主導著處理器模塊的成本。如果 AI 計算機可以使用 DDR,它可以部署更多 AI 處理器,但總擁有成本相同?!?/p>

據(jù) Knowles 稱,40 GB 的 HBM 有效地將封裝的標線大小處理器的成本提高了三倍。Graphcore 的 8 GB HBM2 與 8 GB DDR4 的成本細分估計 HBM 芯片的尺寸是 DDR4 芯片的兩倍(將 20-nm HBM 與 Knowles 認為是同時代的 18-nm DDR4 進行比較),從而增加了制造費用。然后是 TSV 蝕刻、堆疊、組裝和封裝的成本,以及內(nèi)存和處理器制造商的利潤率。

poYBAGLOshaAH28aAAD_KQEd3f8899.jpg


Graphcore 對 HBM2 與 DDR4 內(nèi)存的成本分析顯示,前者的成本是后者的 10 倍。(來源:Graphcore)

“DDR DIMM 不會發(fā)生這種邊距堆疊,因為用戶可以直接從內(nèi)存制造商處采購,”Knowles 說?!笆聦嵣希刹灏蔚挠嬎銠C組件生態(tài)系統(tǒng)出現(xiàn)的一個主要原因是為了避免保證金堆積?!?/p>

走得更遠

從 Hot Chips 的隱形模式中脫穎而出,Esperanto Technologies 提供了另一種解決內(nèi)存瓶頸問題的方法。該公司的 1000 核 RISC-V AI 加速器針對的是超大規(guī)模推薦模型推理,而不是上面提到的 AI 訓練工作負載。

世界語的創(chuàng)始人兼執(zhí)行主席戴夫·迪策爾指出,數(shù)據(jù)中心推理不需要巨大的片上內(nèi)存?!拔覀兊目蛻舨幌胍?250 MB 的芯片,”Ditzel 說。“他們想要 100 MB——他們想用推理做的所有事情都適合 100 MB。任何比這更大的東西都需要更多?!?/p>

Ditzel 補充說,客戶更喜歡將大量 DRAM 與處理器放在同一張卡上,而不是在芯片上?!八麄兘ㄗh我們,‘只需將所有內(nèi)容都放到卡上,然后使用您的快速接口。然后,只要你能比通過 PCIe 總線更快地獲得 100 GB 的內(nèi)存,這就是勝利。'”

將 Esperanto 的方法與其他數(shù)據(jù)中心推理加速器進行比較,Ditzel 說其他人專注于消耗整個功率預算的單個巨型處理器。這家初創(chuàng)公司堅稱,Esperanto 的方法——安裝在雙 M.2 加速卡上的多個低功耗處理器——可以更好地使用片外內(nèi)存。單芯片競爭對手“引腳數(shù)量非常有限,因此他們必須使用 HBM 之類的產(chǎn)品才能在少量引腳上獲得非常高的帶寬——但 HBM 確實很昂貴、難以獲得且功率很高,”迪策爾說。

pYYBAGLOshuAYwx1AAC3N37GGag708.jpg


Esperanto 聲稱通過使用六個較小的芯片而不是單個大芯片解決了內(nèi)存瓶頸,留下了可用于連接 LPDDR4x 芯片的引腳。(來源:世界語技術)

Esperanto 的多芯片方法使更多引腳可用于與片外 DRAM 通信。除了六個處理器芯片外,該公司還使用了 24 個專為手機設計的廉價 LPDDR4x DRAM 芯片,在低電壓下運行,“每比特能量與 HBM 大致相同”,Ditzel 說。

“因為 [LPDDR4x] 的帶寬 [比 HBM] 低,我們可以通過更寬來獲得更多帶寬,”他補充道。“我們在加速卡上的內(nèi)存系統(tǒng)上使用 1,500 位寬,[而單芯片競爭對手] 買不起 1,500 位寬的內(nèi)存系統(tǒng),因為對于每個數(shù)據(jù)引腳,你必須有幾個電源還有幾個接地針,針太多了。

“之前處理過這個問題,我們說,'讓我們把它分開,'”Ditzel 說。

通過 822-GB/s 的內(nèi)存帶寬訪問 192 GB 的總內(nèi)存容量。所有 64 位 DRAM 芯片的總和計算出 1,536 位寬的內(nèi)存系統(tǒng),分成 96 個 16 位通道以更好地處理內(nèi)存延遲。這一切都符合 120 W 的功率預算。

流水線權重

晶圓級 AI 加速器公司 Cerebras Systems 設計了一個規(guī)模遠端的內(nèi)存瓶頸解決方案。在 Hot Chips 上,該公司發(fā)布了 MemoryX,這是一款用于其 CS-2 AI 加速器系統(tǒng)的內(nèi)存擴展系統(tǒng),旨在實現(xiàn)高性能計算和科學工作負載。MemoryX 旨在訓練具有一萬億或更多參數(shù)的大型 AI 模型。

pYYBAGLOsiGAcxwLAAGNm7ckWrk661.jpg

Cerebras Systems 的 MemoryX 是其 CS-2 晶圓級引擎系統(tǒng)的片外內(nèi)存擴展,其行為就像在片上一樣。(來源:Cerebras 系統(tǒng))

MemoryX 是 DRAM 和閃存的組合,其行為就像片上一樣。該架構(gòu)被宣傳為具有彈性,旨在容納 4 TB 到 2.4 PB(2000 億到 120 萬億個參數(shù))——足以容納世界上最大的 AI 模型。

該公司的聯(lián)合創(chuàng)始人兼首席硬件架構(gòu)師 Sean Lie 表示,為了使其片外內(nèi)存表現(xiàn)得像片上一樣,Cerebras 優(yōu)化了 MemoryX,以消除延遲影響的方式將參數(shù)和權重數(shù)據(jù)流式傳輸?shù)教幚砥鳌?/p>

“我們將內(nèi)存與計算分開,從根本上分解它們,”他說?!巴ㄟ^這樣做,我們使溝通變得優(yōu)雅而直接。我們可以這樣做的原因是神經(jīng)網(wǎng)絡對模型的不同組件使用不同的內(nèi)存。因此,我們可以為每種類型的內(nèi)存和每種類型的計算設計一個專門構(gòu)建的解決方案。”

結(jié)果,這些組件被解開,從而“簡化了縮放問題,”Lie 說。

在訓練期間,必須立即訪問對延遲敏感的激活記憶。因此,Cerebras 將激活保留在芯片上。

點擊查看完整大小的圖片

pYYBAGLOsieAfvWyAADUx9zK2IY012.jpg


Cerebras 使用流水線在 AI 訓練期間消除對延遲敏感的通信。(來源:Cerebras 系統(tǒng))

Cerebras 將權重存儲在 MemoryX 上,然后根據(jù)需要將它們流式傳輸?shù)叫酒?。Lie 說,在沒有背靠背依賴性的情況下,權重記憶的使用相對較少。這可以用來避免延遲和性能瓶頸。粗粒度流水線還避免了層之間的依賴關系;層的權重在前一層完成之前開始流式傳輸。

同時,細粒度流水線避免了訓練迭代之間的依賴關系;后向傳播中的權重更新與同一層的后續(xù)前向傳播重疊。

“通過使用這些流水線技術,權重流執(zhí)行模型可以隱藏外部權重的額外延遲,并且我們可以達到與權重在晶圓本地 [訪問] 相同的性能,”Lie 說。

本文最初發(fā)表于EE Times。


審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 內(nèi)存
    +關注

    關注

    8

    文章

    3125

    瀏覽量

    75270
  • 數(shù)據(jù)中心

    關注

    16

    文章

    5230

    瀏覽量

    73527
  • AI
    AI
    +關注

    關注

    88

    文章

    35164

    瀏覽量

    279979
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    重新思考數(shù)據(jù)中心架構(gòu),推進AI的規(guī)?;涞?/a>

    人工智能(AI)對計算資源的貪婪需求推動了基礎設施的變革,業(yè)界正著力解決如何滿足AI在功率、可擴展性以及效率等方面的需求。這促使大量投資涌入,旨在重新配置數(shù)據(jù)中心架構(gòu),以更好應對上述及
    的頭像 發(fā)表于 05-30 13:51 ?422次閱讀
    重新思考<b class='flag-5'>數(shù)據(jù)中心</b><b class='flag-5'>架構(gòu)</b>,推進<b class='flag-5'>AI</b>的規(guī)模化落地

    華為面向中東中亞地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡

    聯(lián)接、AI網(wǎng)元三層網(wǎng)絡架構(gòu),為企業(yè)構(gòu)建智聯(lián)滿載算力,業(yè)務永續(xù)護航的數(shù)據(jù)中心網(wǎng)絡,助力中東中亞地區(qū)網(wǎng)絡基礎設施升級與業(yè)務創(chuàng)新。
    的頭像 發(fā)表于 05-21 15:49 ?317次閱讀

    是德科技推出AI數(shù)據(jù)中心構(gòu)建器以驗證和優(yōu)化網(wǎng)絡架構(gòu)和主機設計

    : KEYS )推出Keysight AI (KAI)數(shù)據(jù)中心構(gòu)建器,這是一款先進的軟件套件,通過模擬真實工作負載來評估新算法、組件和協(xié)議對AI訓練性能的影響。KAI數(shù)據(jù)中心構(gòu)建器的工
    的頭像 發(fā)表于 04-10 08:50 ?273次閱讀

    是德科技推出AI數(shù)據(jù)中心構(gòu)建器

    是德科技(NYSE:KEYS)推出Keysight AI (KAI)數(shù)據(jù)中心構(gòu)建器,這是一款先進的軟件套件,通過模擬真實工作負載來評估新算法、組件和協(xié)議對AI訓練性能的影響。KAI數(shù)據(jù)中心
    的頭像 發(fā)表于 04-07 11:06 ?506次閱讀

    適用于數(shù)據(jù)中心AI時代的800G網(wǎng)絡

    ,成為新一代AI數(shù)據(jù)中心的核心驅(qū)動力。 AI時代的兩大數(shù)據(jù)中心AI工廠與AI
    發(fā)表于 03-25 17:35

    DeepSeek推動AI算力需求:800G光模塊的關鍵作用

    數(shù)據(jù)傳輸速率,減少帶寬瓶頸,成為數(shù)據(jù)中心AI集群架構(gòu)優(yōu)化的重點。光模塊速率的躍升不僅提升了傳輸效率,也為大規(guī)模并行計算任務提供了必要的帶寬
    發(fā)表于 03-25 12:00

    華為全新升級星河AI數(shù)據(jù)中心網(wǎng)絡

    在華為中國合作伙伴大會2025期間,以 “星河AI數(shù)據(jù)中心網(wǎng)絡,賦AI時代新動能”為主題的數(shù)據(jù)中心網(wǎng)絡分論壇圓滿落幕。本次論壇匯聚了來自全國的300多位客戶和伙伴,共同探討
    的頭像 發(fā)表于 03-24 14:46 ?478次閱讀

    優(yōu)化800G數(shù)據(jù)中心:高速線纜、有源光纜和光纖跳線解決方案

    和800G OSFP XDR8光模塊直連設計。MTP/MPO布線解決方案為數(shù)據(jù)中心提供了高密度、可靠性和靈活性,可用于核心層、脊架構(gòu)和葉架構(gòu)之間的連接。該線纜還具備即插即用、易于管理、出色的抗彎曲
    發(fā)表于 03-24 14:20

    Cadence顛覆AI數(shù)據(jù)中心設計

    日前舉辦的英偉達 GTC 2025 開發(fā)者大會匯聚了眾多行業(yè)精英,共同探討人工智能的未來。而人工智能正在重塑全球數(shù)據(jù)中心的格局。據(jù)預測,未來將有 1 萬億美元用于 AI 驅(qū)動的數(shù)據(jù)中心升級。然而
    的頭像 發(fā)表于 03-21 15:43 ?451次閱讀

    華為發(fā)布新一代站點能源架構(gòu)AI數(shù)據(jù)中心建設理念

    西班牙巴塞羅那2025年3月13日?/美通社/ -- 在MWC25巴塞羅那期間舉辦的產(chǎn)品與解決方案發(fā)布會上,華為數(shù)據(jù)中心能源及關鍵供電產(chǎn)品線總裁何波發(fā)布新一代站點能源架構(gòu)"Single
    的頭像 發(fā)表于 03-13 15:38 ?296次閱讀
    華為發(fā)布新一代站點能源<b class='flag-5'>架構(gòu)</b>及<b class='flag-5'>AI</b><b class='flag-5'>數(shù)據(jù)中心</b>建設理念

    Solidigm高密度方案解決數(shù)據(jù)中心存儲難題,賦能AI創(chuàng)新發(fā)展

    QLC在內(nèi)的豐富產(chǎn)品組合,打破從數(shù)據(jù)中心到邊緣應用面臨的存儲瓶頸,提升人工智能效率,釋放人工智能潛能。 當AI的發(fā)展突破界限,算力與存力的天平被重新校準。在AI 浪潮下,傳統(tǒng)HDD存儲
    的頭像 發(fā)表于 03-13 15:36 ?520次閱讀

    華為發(fā)布新一代站點能源架構(gòu)AI數(shù)據(jù)中心建設原則

    在MWC25巴塞羅那期間舉辦的產(chǎn)品與解決方案發(fā)布會上,華為數(shù)據(jù)中心能源及關鍵供電產(chǎn)品線總裁何波發(fā)布新一代站點能源架構(gòu)“Single SitePower”及AI數(shù)據(jù)中心建設原則RASTM
    的頭像 發(fā)表于 03-06 11:16 ?600次閱讀

    韓國將建全球最大AI數(shù)據(jù)中心

    據(jù)最新報道,韓國即將啟動一項雄心勃勃的計劃——建設全球最大的人工智能(AI)數(shù)據(jù)中心。該數(shù)據(jù)中心不僅在規(guī)模上令人矚目,更在技術和投資上展現(xiàn)了韓國的強大實力。 據(jù)悉,該數(shù)據(jù)中心的電力容量
    的頭像 發(fā)表于 02-20 09:24 ?561次閱讀

    簡述數(shù)據(jù)中心網(wǎng)絡架構(gòu)的演變

    隨著全球?qū)θ斯ぶ悄埽?b class='flag-5'>AI)的需求不斷增長,數(shù)據(jù)中心作為AI計算的重要基礎設施,其網(wǎng)絡架構(gòu)與連接技術的發(fā)展變得尤為關鍵。
    的頭像 發(fā)表于 10-22 16:23 ?838次閱讀

    美光推出全新MRDIMM內(nèi)存,引領數(shù)據(jù)中心內(nèi)存新紀元

    工智能(AI)等內(nèi)存密集型應用場景,對內(nèi)存技術的要求也達到了前所未有的高度。近日,全球領先的DRAM大廠美光科技宣布了一項重大技術突破——多重存取雙列直插式內(nèi)存模組(MRDIMM)的正
    的頭像 發(fā)表于 07-22 15:19 ?1038次閱讀