fule视频,性欧美XXXX乳毛茸茸

新的芯片設計反映了 NVIDIA 在 AI、高性能計算和邊緣計算領域平臺創(chuàng)新的廣度和深度。

在為期兩天的四場演講中，NVIDIA 高級工程師介紹了現(xiàn)代數(shù)據(jù)中心和網(wǎng)絡邊緣系統(tǒng)在加速計算方面的創(chuàng)新。

虛擬 Hot Chips 大會是處理器和系統(tǒng)架構師的年度聚會。NVIDIA 高級工程師在演講中披露了 NVIDIA 首款服務器 CPU、Hopper GPU、新版 NVSwitch 互連芯片和 NVIDIA Jetson Orin 系統(tǒng)模塊 (SoM) 的性能數(shù)據(jù)和其他技術細節(jié)。

這些演講就 NVIDIA 平臺如何在性能、效率、規(guī)模和安全性方面達到更高水平提供了新見解。

具體來說，演講展示了某種設計理念，即在 GPU、 CPU 和 DPU 充當對等處理器的整個芯片、系統(tǒng)和軟件堆棧中進行創(chuàng)新。他們共同創(chuàng)建的平臺已經(jīng)在云服務提供商、超級計算中心、企業(yè)數(shù)據(jù)中心和自主系統(tǒng)內(nèi)運行 AI、數(shù)據(jù)分析和高性能計算工作。

了解 NVIDIA 首款服務器 CPU

數(shù)據(jù)中心需要靈活的 CPU、GPU 和其他加速器集群共享海量內(nèi)存池，以提供當今工作負載所需的高效性能。

為滿足這一需求，NVIDIA 的杰出工程師兼 15 年資深員工 Jonathon Evans 介紹了 NVIDIA NVLink-C2C。它以每秒 900 GB 的速度連接 CPU 和 GPU，歸功于每比特僅消耗 1.3 皮焦耳的數(shù)據(jù)傳輸，其能效是現(xiàn)有 PCIe 5.0 標準的 5 倍。

NVLink-C2C 連接兩個 CPU 芯片，可創(chuàng)建具有 144 個 Arm Neoverse 核心和 512 GB 內(nèi)存的 NVIDIA Grace CPU——用于解決全球大型計算問題的處理器。

為更大限度地提高效率，Grace CPU 使用 LPDDR5X 內(nèi)存。它可實現(xiàn)每秒 1 TB 的內(nèi)存帶寬，同時將整個復合體的功耗保持在 500 瓦。

一個鏈接，多種用途

NVLink-C2C 還在 NVIDIA Grace Hopper 超級芯片中將 Grace CPU 和 Hopper GPU 芯片作為內(nèi)存共享對等體關聯(lián)，更大限度地加速像 AI 訓練這樣對性能要求很高的作業(yè)。

任何人都可以使用 NVLink-C2C 構建定制小芯片，以協(xié)調(diào)地連接 NVIDIA GPU、CPU、DPU 和 SoC，擴展這一新的集成產(chǎn)品類別。互連將支持 Arm 和 x86 處理器各自使用的 AMBA CHI 和 CXL 協(xié)議。

Grace 和 Grace Hopper 的首個內(nèi)存基準測試

為了在系統(tǒng)層面進行擴展，新的 NVIDIA NVSwitch 將多臺服務器連接到一臺 AI 超級計算機。它使用 NVLink，互聯(lián)速度為每秒 900 GB，是 PCIe 5.0 帶寬的 7 倍以上。

NVSwitch 使用戶能夠?qū)?32 個 NVIDIA DGX H100 系統(tǒng)連接到一臺 AI 超級計算機中，這臺超級計算機可以提供百億億次級峰值 AI 性能。

NVIDIA 的兩位資深工程師 Alexander Ishii 和 Ryan Wells 介紹該交換機如何助力用戶構建可支持多達 256 個 GPU 的系統(tǒng)，以處理要求嚴苛的工作負載，例如訓練具有超過 1 萬億參數(shù)的 AI 模型。

該交換機包括使用 NVIDIA SHARP 技術加速數(shù)據(jù)傳輸?shù)囊妗HARP 是網(wǎng)絡計算功能，最初在 NVIDIA Quantum InfiniBand 網(wǎng)絡上使用。它可以使通信密集型 AI 應用的數(shù)據(jù)吞吐量翻倍。

NVSwitch 系統(tǒng)支持百億億次級 AI 超級計算機

Jack Choquette 是在 NVIDIA 任職 14 年的杰出高級工程師，他詳細介紹了 NVIDIA H100 Tensor Core GPU（也稱為 Hopper）。

除使用新的互連技術擴展到新的高度外，它還包括許多先進功能，可提升加速器的性能、效率和安全性。

與上一代相比，Hopper 的新 Transformer 引擎和升級版 Tensor Core 可在使用全球大型神經(jīng)網(wǎng)絡模型進行 AI 推理時，將速度提升 30 倍。此外，它采用全球首款 HBM3 內(nèi)存系統(tǒng)，可提供高達 3 TB 的內(nèi)存帶寬，這是 NVIDIA 有史以來幅度超大的代際提升。

其他新功能包括：

Hopper 添加了針對多租戶、多用戶配置的虛擬化支持。

新的 DPX 指令集可加快選定映射、DNA 和蛋白質(zhì)分析應用的遞歸循環(huán)速度。

Hopper 還支持通過機密計算增強安全性。

Choquette 在職業(yè)生涯早期曾是任天堂 64 游戲機的首席芯片設計師，他還介紹了一些 Hopper 進步背后的并行計算技術。

Michael Ditty 是 Orin 的首席架構師并在 NVIDIA 任職 17 年，他講解了 NVIDIA Jetson AGX Orin（適用于邊緣 AI、機器人開發(fā)和高級自主機器的引擎）的新性能規(guī)格。

NVIDIA Jetson AGX Orin 集成了 12 個 Arm Cortex-A78 核心和一個 NVIDIA Ampere 架構 GPU，可為 AI 推理作業(yè)提供每秒高達 275 萬億次運算。相較上一代，能效提升 2.3 倍，性能提升高達 8 倍。

新的生產(chǎn)模塊包含高達 32 GB 的內(nèi)存，是兼容系列的一部分，可縮小至口袋大小的 5W Jetson Nano 開發(fā)者套件。

NVIDIA Orin 的性能基準測試

所有新芯片都支持 NVIDIA 軟件堆棧，該堆棧可加速 700 多個應用，為 250 萬名開發(fā)者所用。

它基于 CUDA 編程模型，包含數(shù)十個面向垂直市場的 NVIDIA SDK，例如汽車 (DRIVE) 和醫(yī)療健康 (Clara)，以及推薦系統(tǒng) (Merlin) 和對話式 AI (Riva) 等技術。

各大云服務和系統(tǒng)制造商均提供 NVIDIA AI 平臺。