chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AWS推出由AWS設(shè)計的AWS Trainium2芯片系列

旺材芯片 ? 來源:旺材芯片 ? 2023-11-29 17:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一年多來,我們一直期待Amazon Web Services在今年的re:Invent大會上為其本土服務(wù)器推出 Graviton4 處理器。正如預(yù)期,AWS首席執(zhí)行官Adam Selipsky推出了第四代 Graviton CPU系列,包括去年針對HPC工作負載的超頻Graviton3E處理器。

Selipsky在主題演講期間沒有強制舉起Graviton4 芯片,這很奇怪。

Graviton4 提高了各種工作負載的性價比和能效標準

正如我們所預(yù)料的那樣,Graviton4 也基于 Arm Ltd 的“Demeter”Neoverse V2 內(nèi)核,該內(nèi)核與 Nvidia 的“Grace”CG100 CPU 一樣基于 Armv9 架構(gòu)。(Nvidia 官方并沒有給 Grace 一個與其 GPU 命名方案一致的產(chǎn)品名稱,所以我們就暫且這樣命名。C代表CPU,G代表Grace。)我們在2017年對Demeter V2核心進行了深入研究。9月份,Arm發(fā)布了“Genesis”計算子系統(tǒng),與之前由AWS部署在Graviton3和Graviton3E處理器中使用的“Zeus”V1 內(nèi)核相比,V2 內(nèi)核的每時鐘指令數(shù)提高了13%。

顯然,這在 IPC中并不是一個大的跳躍,因為核心數(shù)量也在跳躍,這就是為什么我們還假設(shè) AWS已經(jīng)放棄了代工合作伙伴臺積電用于蝕刻 Graviton3 和 Graviton3E 芯片的5納米工藝,而是更密集且有些成熟的4納米工藝。同樣的4N工藝還用于制造 Nvidia 的 Grace CPU 及其“Hopper”GH100 GPU——這兩款產(chǎn)品都席卷了生成式 AI 世界。

Graviton4 封裝上有 96 個 V2 核心,比 Graviton3 和 Graviton3E 提升了 50%,而且與 8 個 DDR5 內(nèi)存控制器相比,Graviton4 上有 12 個 DDR5 控制器,并且Graviton4使用的 DDR5內(nèi)存速度頻率提升了16.7%,達到5.6 GHz。通過數(shù)學(xué)計算,Graviton4 每個插槽的內(nèi)存帶寬為536.7 GB/秒,比之前的Graviton3和Graviton3E處理器提供的307.2 GB/秒高出 75%。

在 Selipsky 的演示以及 AWS 發(fā)布的有關(guān) Graviton4 的有限規(guī)格中,該公司表示通用 Web 應(yīng)用程序在 Graviton4 上的運行速度比在 Graviton3 上快 30%(不是 Graviton3E,它超頻且很熱),但數(shù)據(jù)庫的運行速度將提高 40%,大型 Java 應(yīng)用程序的運行速度將提高 45%?,F(xiàn)在,這可能意味著AWS已經(jīng)在V2核心中實現(xiàn)了同步多線程 (SMT),為每個核心提供兩個線程,就像英特爾AMD 的 X86 處理器以及一些 Arm 芯片過去所做的那樣。

我們不這么認為,下面的比較顯著特征表顯示每個套接字有 96 個線程,而不是 192 個線程。我們認為每個套接字有 96 個線程,并且每個核心的二級緩存加倍至2MB對Java和數(shù)據(jù)庫應(yīng)用程序的性能產(chǎn)生了巨大的影響。您可以通過添加雙向SMT獲得3倍的vCPU,但這不會為您提供3倍的內(nèi)存。與 Graviton3 芯片相比,它的內(nèi)存仍然只有 1.5 倍。

AWS 在其博客中提到的有關(guān)使用 Graviton4 芯片的新 R8g 實例的其他內(nèi)容也讓我們猶豫不決:“R8g 實例提供了更大的實例大小,比當前一代 R7g 實例多出 3 倍的 vCPU 和 3 倍的內(nèi)存。”

R8g 擁有 96 個核心和十幾個內(nèi)存控制器(均比 Graviton3 提升了 1.5 倍),您只會期望 R8g 的 vCPU 數(shù)量是使用 Graviton3 芯片的 R7g 實例的 1.5 倍,而內(nèi)存容量僅是使用 Graviton3 芯片的 R7g 實例的 1.5 倍。因此,我們認為這是 Graviton 系列的第一個雙插槽實現(xiàn)。這也是我們認為 Graviton4 芯片擁有大約 9500 萬到 1 億個晶體管的原因之一,而不是您預(yù)期的 8250 萬個晶體管(如果 AWS 只是在 Graviton3 設(shè)計中添加 50% 的核心并保持不變)。我們認為,L2 緩存加倍、增加四個 DDR5 內(nèi)存控制器以及一對現(xiàn)在也進行線速加密的 I/O 控制器也增加了晶體管預(yù)算。

Graviton4在另一個方面也值得注意。過去,Neoverse模塊以32核或64核模塊完成,Arm建議使用具有UCI-Express或CCIX互連的小芯片來構(gòu)建更大的處理器復(fù)合體。制作自己的 Arm CPU設(shè)計的公司總是可以實現(xiàn)單片芯片,出于延遲和功耗的原因,您會這樣做。這些互連不是免費的,尤其是具有 96 個內(nèi)核的芯片,其產(chǎn)量會比 32 個內(nèi)核或 64 核心低得多。這也是有代價的。

因此,從上面的芯片照片來看,我們認為 Graviton4 是一個雙小芯片封裝,其中一個小芯片與另一個小芯片旋轉(zhuǎn)了 180 度。這可能就是為什么封裝上中央核心復(fù)合體左側(cè)和右側(cè)的存儲控制器小芯片彼此偏移的原因。

我們認為 Graviton4 與前幾代芯片的比較如下:

4bb344a4-8e99-11ee-939d-92fbcf53809c.jpg

誠然猜測,我們認為 Graviton4 的性能比 Graviton3E 稍差,但達到該目標所需的功耗卻低了近一半,并且內(nèi)存容量高出 50%,帶寬高出 75%,功耗大約為 130 瓦。功率包絡(luò)具有更低且更理想的 2.7 GHz 時鐘速度。

根據(jù)我們估計的這些數(shù)字(粗體紅色斜體顯示),Graviton4 芯片的每瓦性能(按 ECU 性能單位測量)與 Graviton3 大致相同,這幾乎是您在工藝適度縮減的情況下所希望的一切。

隨著更多細節(jié)的出現(xiàn),我們將更新這個故事。

還有一件事:AWS 在其公告中表示(但 Selipsky 并沒有在他的主題演講中吹噓),迄今為止,它已在其機群中部署了超過 200 萬個 Graviton 處理器,并擁有超過 50,000 個客戶使用過它們。

這是一個非常可觀的 CPU 數(shù)量,如果 AWS 沒有開始內(nèi)部生產(chǎn) Graviton,這些芯片將全部來自 Intel、AMD,甚至可能來自 Ampere Computing。但他們沒有。這就是為什么將您的業(yè)務(wù)計劃固定給超大規(guī)模提供商和云構(gòu)建商是一個冒險的提議。

Trainum2旨在云中提供最高性能、最節(jié)能的AI模型訓(xùn)練基礎(chǔ)設(shè)施

此外,AWS還在大會上推出了由 AWS 設(shè)計的AWS Trainium2 芯片系列。

Graviton4 和 Trainium2 標志著 AWS 芯片設(shè)計的最新創(chuàng)新。隨著每一代芯片的推出,AWS 都提供了更好的性價比和能效,除了采用 AMD、Intel 和 NVIDIA 等第三方最新芯片的芯片/實例組合之外,還為客戶提供了更多選擇,以運行幾乎任何應(yīng)用程序或Amazon Elastic Compute Cloud (Amazon EC2) 上的工作負載。

據(jù)了解,Trainium2 的設(shè)計速度比第一代 Trainium 芯片快 4 倍,并且能夠部署在多達 100,000 個芯片的 EC2 UltraCluster 中,從而可以在一個簡單的環(huán)境中訓(xùn)練基礎(chǔ)模型 (FM) 和大型語言模型 (LLM)。時間的一小部分,同時將能源效率提高了 2 倍。

AWS 計算和網(wǎng)絡(luò)副總裁 David Brown 表示:“硅支撐著每個客戶工作負載,使其成為 AWS 創(chuàng)新的關(guān)鍵領(lǐng)域?!薄巴ㄟ^將我們的芯片設(shè)計重點放在對客戶重要的實際工作負載上,我們能夠為他們提供最先進的云基礎(chǔ)設(shè)施。Graviton4 標志著我們在短短五年內(nèi)推出的第四代芯片,是我們?yōu)楦鞣N工作負載打造的最強大、最節(jié)能的芯片。隨著人們對生成式 AI 興趣的高漲,Tranium2 將幫助客戶以更低的成本和更高的能源效率更快地訓(xùn)練他們的 ML 模型。”

當今新興的生成式人工智能應(yīng)用背后的 FM 和 LLM 接受過海量數(shù)據(jù)集的培訓(xùn)。這些模型使客戶能夠通過創(chuàng)建各種新內(nèi)容(包括文本、音頻、圖像、視頻甚至軟件代碼)來完全重新想象用戶體驗。當今最先進的 FM 和 LLM 的參數(shù)范圍從數(shù)千億到數(shù)萬億不等,需要可靠的高性能計算能力,能夠擴展到數(shù)萬個機器學(xué)習(xí)芯片。AWS 已經(jīng)提供了最廣泛、最深入的采用 ML 芯片的 Amazon EC2 實例選擇,包括最新的 NVIDIA GPU、Trainium 和 Inferentia2。如今,包括 Databricks、Helixon、Money Forward 和 Amazon Search 團隊在內(nèi)的客戶使用 Trainium 來訓(xùn)練大規(guī)模深度學(xué)習(xí)模型,充分利用 Trainium 的高性能、規(guī)模、可靠性和低成本。但即使擁有當今最快的加速實例,客戶也希望獲得更高的性能和規(guī)模,以便以更低的成本更快地訓(xùn)練這些日益復(fù)雜的模型,同時減少他們使用的能源量。

Trainium2 芯片專為 FM 和 LLM 的高性能訓(xùn)練而設(shè)計,參數(shù)高達數(shù)萬億個。與第一代 Trainium 芯片相比,Trainium2 的訓(xùn)練性能提高了 4 倍,內(nèi)存容量提高了 3 倍,同時能效(性能/瓦特)提高了 2 倍。Trainium2 將在 Amazon EC2 Trn2 實例中提供,單個實例中包含 16 個 Trainium 芯片。Trn2 實例旨在使客戶能夠在下一代 EC2 UltraCluster 中擴展多達 100,000 個 Trainium2 芯片,與 AWS Elastic Fabric Adapter (EFA) 拍級網(wǎng)絡(luò)互連,提供高達 65 exaflops 的計算能力,并為客戶提供對超級計算機的按需訪問一流的性能。憑借這種規(guī)模,客戶可以在數(shù)周而不是數(shù)月內(nèi)培訓(xùn) 3000 億個參數(shù)的 LLM。通過以顯著降低的成本提供最高的橫向擴展 ML 訓(xùn)練性能,Trn2 實例可以幫助客戶解鎖并加速生成 AI 的下一波進步。

一家人工智能安全和研究公司Anthropic表示,“我們正在與 AWS 密切合作,使用 Trainium 芯片開發(fā)未來的基礎(chǔ)模型。Trainium2 將幫助我們大規(guī)模構(gòu)建和訓(xùn)練模型,對于我們的一些關(guān)鍵工作負載,我們預(yù)計它的速度至少比第一代 Trainium 芯片快 4 倍。我們與 AWS 的合作將幫助各種規(guī)模的組織釋放新的可能性,因為他們將 Anthropic 最先進的人工智能系統(tǒng)與 AWS 安全、可靠的云技術(shù)結(jié)合使用?!?/p>

來源:EETOP







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 控制器
    +關(guān)注

    關(guān)注

    114

    文章

    17749

    瀏覽量

    191666
  • smt
    smt
    +關(guān)注

    關(guān)注

    45

    文章

    3179

    瀏覽量

    75655
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8547

    瀏覽量

    136596
  • AWS
    AWS
    +關(guān)注

    關(guān)注

    0

    文章

    444

    瀏覽量

    26425
  • DDR5
    +關(guān)注

    關(guān)注

    1

    文章

    472

    瀏覽量

    25688

原文標題:AWS推出下一代自研芯片

文章出處:【微信號:wc_ysj,微信公眾號:旺材芯片】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    AWS安全入門:數(shù)據(jù)上云前必知的基礎(chǔ)防線

    前言智能廢料分揀系統(tǒng)在工廠邊緣運行,通過AWS云服務(wù)將分揀準確率從70%提升至97%,背后是一套完整的云安全體系在默默守護。亞馬遜云科技作為全球領(lǐng)先的云計算服務(wù)提供商,在全球擁有數(shù)百萬活躍客戶,包括
    的頭像 發(fā)表于 01-07 13:43 ?1186次閱讀
    <b class='flag-5'>AWS</b>安全入門:數(shù)據(jù)上云前必知的基礎(chǔ)防線

    NVIDIA和AWS擴展全棧合作伙伴關(guān)系

    亞馬遜云科技(AWS)將 NVIDIA NVLink Fusion 集成到其定制芯片中,包括新一代 Tranium4 芯片、Graviton 和 AWS Nitro System。
    的頭像 發(fā)表于 12-13 09:20 ?872次閱讀

    亞馬遜發(fā)布新一代AI芯片Trainium3,性能提升4倍

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)在拉斯維加斯舉辦的2025年亞馬遜云科技re:Invent全球大會上,亞馬遜云科技(AWS推出新一代人工智能(AI)訓(xùn)練芯片Trainium 3,預(yù)告了
    的頭像 發(fā)表于 12-09 08:37 ?8399次閱讀
    亞馬遜發(fā)布新一代AI<b class='flag-5'>芯片</b><b class='flag-5'>Trainium</b>3,性能提升4倍

    FreeRTOS與uC/OS-II如何選擇?

    選擇 FreeRTOS : 成本是首要考慮因素(MIT 許可證非常友好)。 你需要最龐大的社區(qū)支持和最豐富的學(xué)習(xí)資源(尤其是新手)。 你的項目涉及物聯(lián)網(wǎng)連接、云服務(wù)(AWS FreeRTOS 集成
    發(fā)表于 11-13 07:15

    Tata Communications與AWS達成合作

    Communications與Amazon.com, Inc.旗下公司Amazon Web Services(AWS)聯(lián)合宣布,雙方將在印度構(gòu)建先進的AI就緒網(wǎng)絡(luò)。 此次戰(zhàn)略合作將建立連接AWS三大基礎(chǔ)設(shè)施節(jié)點
    的頭像 發(fā)表于 07-30 21:47 ?888次閱讀

    NVIDIA Dynamo新增對亞馬遜云科技服務(wù)的支持

    亞馬遜云科技 (AWS) 開發(fā)者和解決方案架構(gòu)師現(xiàn)在可以在基于 NVIDIA GPU 的 Amazon EC2 上使用 NVIDIA Dynamo,包括 NVIDIA Blackwell 加速
    的頭像 發(fā)表于 07-28 14:31 ?913次閱讀
    NVIDIA Dynamo新增對亞馬遜云科技服務(wù)的支持

    Grameenphone參與愛立信與AWS Gen-AI實驗室項目

    愛立信×AWS 「Gen-AI實驗室」旨在推動運營商在OSS/BSS中的AI應(yīng)用突破。通過結(jié)構(gòu)化、結(jié)果導(dǎo)向的協(xié)作方式,實驗室將愛立信在OSS/BSS產(chǎn)品組合和行業(yè)專業(yè)知識方面的深厚積累,與AWS
    的頭像 發(fā)表于 07-16 10:49 ?1.6w次閱讀

    請問55912是否支持WLAN卸載和AnyCloud(AWS+MQTT) 功能嗎?

    我可以知道 55912 是否支持 WLAN 卸載和 AnyCloud(AWS+MQTT) 功能嗎? 如果是的話,我可以知道什么時候計劃在 ModusToolbox 系統(tǒng)上線嗎?
    發(fā)表于 07-09 06:42

    在 MQTT 回調(diào)處理程序中遇到了隨機 MQTT 斷開連接的問題,怎么解決?

    MCU:CYW55913。 MQTT Broker 端點:Amazon AWS 云。 保持活動超時:60 秒 ping 響應(yīng)超時:5 秒 我們在 MQTT 回調(diào)處理程序中遇到了隨機 MQTT
    發(fā)表于 06-05 07:14

    【新品發(fā)布】艾為車規(guī)級AWS79062SPR-Q1,高帶寬軌到軌運算放大器的新巔峰

    近年來隨著新能源汽車的發(fā)展,汽車行業(yè)呈現(xiàn)智能化、更安全發(fā)展趨勢,對芯片性能、適配性、可靠性、安全性等方面提出了更高要求。艾為推出AWS79062SPR-Q1車規(guī)級低噪聲CMOS雙通道運算放大器
    的頭像 發(fā)表于 05-29 18:03 ?769次閱讀
    【新品發(fā)布】艾為車規(guī)級<b class='flag-5'>AWS</b>79062SPR-Q1,高帶寬軌到軌運算放大器的新巔峰

    艾為電子推出AWS73431系列并聯(lián)電壓基準

    隨著信息時代科學(xué)技術(shù)的飛速發(fā)展,工業(yè)設(shè)備和電子產(chǎn)品呈現(xiàn)出智能化、共享化、高度集成化的發(fā)展趨勢,這對芯片的性能、適配性、可靠性以及安全性等方面都提出了更高的要求。
    的頭像 發(fā)表于 05-15 09:36 ?759次閱讀
    艾為電子<b class='flag-5'>推出</b><b class='flag-5'>AWS</b>73431<b class='flag-5'>系列</b>并聯(lián)電壓基準

    Arm+AWS實現(xiàn)AI定義汽車 基于Arm KleidiAI優(yōu)化并由AWS提供支持

    文中介紹的車載生成式 AI 應(yīng)用演示 Arm KleidiAI 進行優(yōu)化并由 AWS 所提供的服務(wù)進行支持,展示了新興技術(shù)如何幫助解決汽車行業(yè)的實際挑戰(zhàn)。該解決方案可實現(xiàn) 1 至 3 秒的響應(yīng)時間并將開發(fā)時間縮短數(shù)周,證明更高效且離線可用的生成式 AI 應(yīng)用不僅能夠?qū)崿F(xiàn)
    的頭像 發(fā)表于 04-03 19:24 ?1827次閱讀
    Arm+<b class='flag-5'>AWS</b>實現(xiàn)AI定義汽車  基于Arm KleidiAI優(yōu)化并由<b class='flag-5'>AWS</b>提供支持

    在Amazon Web Services* Compute Cloud實例中運行時Benchmark_App失敗了的原因?

    AWS* EC2 實例上使用 [i]-infer_precision CPU:bf16 參數(shù)時,ran Benchmark_App 失敗,但未能完成。
    發(fā)表于 03-05 10:08

    Evo 2 AI模型可通過NVIDIA BioNeMo平臺使用

    Evo 2 是一個強大的新型 AI 模型,它基于亞馬遜云科技(AWS)上的 NVIDIA DGX Cloud 構(gòu)建而成,能夠幫助用戶深入了解不同物種的 DNA、RNA 和蛋白質(zhì)。
    的頭像 發(fā)表于 02-28 09:57 ?1410次閱讀

    AWS Graviton4處理器上運行大語言模型的性能評估

    亞馬遜云科技 (AWS) 新一代基于 Arm 架構(gòu)的定制 CPU —— AWS Graviton4 處理器已于 2024 年 7 月正式上線。這款先進的處理器基于 64 位 Arm 指令集架構(gòu)的 Arm Neoverse V2
    的頭像 發(fā)表于 02-24 10:28 ?1421次閱讀
    在<b class='flag-5'>AWS</b> Graviton4處理器上運行大語言模型的性能評估