英偉達(dá)超強(qiáng)汽車芯片來襲——GeForce RTX 40 系列顯卡

英偉達(dá)GTC秋季大會近日盛大開幕。會上，英偉達(dá)CEO黃仁勛不但帶來了最新一代的RTX 4090以及 “Ada Lovelace”架構(gòu)。同時，他還修正了公司的汽車SoC路線圖，拋棄 Atlan，計劃推出具備2000 TFLOPS性能的Thor。在會上，黃仁勛還披露，H100已經(jīng)全面投產(chǎn)。

現(xiàn)在，我們來看一下這次大會上的重點(diǎn)。

GeForce RTX 40 系列顯卡：速度提升高達(dá)4倍

據(jù)報道，英偉達(dá)RTX 4090 將有 128 個 SM 和 2,520 MHz 升壓時鐘（boost clock），再加上 24GB GDDR6X 內(nèi)存，運(yùn)行速度為 21 Gbps，具有 384 位接口。內(nèi)存配置與RTX 3090 Ti相比基本沒有變化，這從表面上看基本是對的。然而，就像 AMD 對 RDNA 2 的 Infinity Cache 所做的那樣，Nvidia 顯然會在 AD102 中打包 96MB 的 L2 緩存，而 GA102 中只有 6MB 的 L2 緩存——但這還沒有得到官方證實(shí)。

與 Ampere 相比，新產(chǎn)品的核心數(shù)量增加了 50% 以上，最多有 128 個 SM，而不是最多只有 84 個 SM — 未來仍有進(jìn)一步提升到140-144 個 SM 型號產(chǎn)品的空間，也許是新的Titan RTX，或者至少是未來的 RTX 4090 Ti。僅核心數(shù)量就可以大幅提升性能，但 Nvidia 還調(diào)整了 Ada 以達(dá)到更高的時鐘頻率，這再次類似于 AMD 對 RDNA 2 所做的，結(jié)果是已發(fā)布型號上預(yù)期的 2.5-2.6 GHz 提升時鐘。這比 RTX 3090 的 1,695 MHz 升壓時鐘高出近 50%，比 RTX 3090 Ti 的 1,860 MHz 高出 35%。黃仁勛透露，Nvidia 在其實(shí)驗(yàn)室中通過超頻達(dá)到了超過 3.0 GHz 的時鐘速度。（您好，800W 定制 RTX 4090 卡?。?/p>

結(jié)合起來，GPU 著色器計數(shù)和時鐘速度產(chǎn)生了理論上的最大性能數(shù)據(jù)。RTX 3090 的額定值為 35.6 teraflops，RTX 3090 Ti 將其提升至 40 teraflops，而現(xiàn)在 RTX 4090 將指針推高至 82.6 teraflops——換句話說，計算量增加了一倍多。雖然僅 teraflops 可能是一個毫無意義的數(shù)字，但它在類似的架構(gòu)中仍然有用，而且我們正在研究自 GeForce 品牌首次出現(xiàn)以來我們從 Nvidia 看到的最大的代際性能飛躍。

Nvidia 尚未說明各種卡中具體使用了哪些 GPU，盡管之前的傳言稱我們正在研究三個獨(dú)立的芯片：AD102、AD103 和 AD104。再次考慮到核心數(shù)量的差異，這似乎仍然很可能，盡管 4080 12GB 可能會使用收獲的 AD103 芯片——如果不是現(xiàn)在，那么在未來的某個時候。

當(dāng)然，更大的問題將是現(xiàn)實(shí)世界的收益，而內(nèi)存帶寬缺乏實(shí)質(zhì)性收益確實(shí)會引發(fā)一些問題。但是，請記住，當(dāng) AMD 基本上在其 RDNA 設(shè)計上添加了一堆 L3 緩存然后提高時鐘速度時，像 RX 6600 XT 這樣的卡能夠保持領(lǐng)先于上一代 RX 5700 XT，后者的內(nèi)存幾乎是其兩倍帶寬 — Navi 23 上只有 32MB。96MB 的二級緩存應(yīng)該使 Nvidia 緩存命中率達(dá)到 50% 或更高，這意味著有效內(nèi)存帶寬增加了一倍。

理論性能看起來異常強(qiáng)大，但其余部分呢？Nvidia 提供了上述基準(zhǔn)測試結(jié)果，將三款新 GPU 與現(xiàn)有 RTX 3090 Ti 進(jìn)行了比較。您可以看到，在傳統(tǒng)游戲中，在左側(cè)，RTX 4080 12GB 可能會比 3090 Ti 稍慢，但要快很多?？紤]到其他細(xì)節(jié)，我們懷疑某些測試是在啟用 DLSS 3 的情況下完成的，這僅在 RTX 40 系列卡上可用，從而使它們具有相當(dāng)大的性能優(yōu)勢。

在右邊，情況確實(shí)如此。RacerX、Portal RTX 和 Cyberpunk 2077 “RT Overdrive”都將光線追蹤效果提升到了新的極致。我們沒有基準(zhǔn) fps 數(shù)據(jù)，但在某些情況下，RTX 4080 12GB 的速度是 3090 Ti 的兩倍多，而 RTX 4090 的速度則高達(dá)四倍。是否仍允許 RTX 3090 Ti 使用 DLSS 2？

讓我們簡要介紹一下架構(gòu)更新，以了解更多背景信息。據(jù)介紹，英偉達(dá)全新的Ada Lovelace產(chǎn)品使用臺積電4n工藝打造，擁有760億的晶體管。

核心數(shù)量和時鐘速度有所提高，但更重要的是，架構(gòu)更新可以進(jìn)一步提升性能。在 GPU 著色器上，Nvidia 表示 Ada 內(nèi)核的功率效率高達(dá)兩倍。著色器還支持稱為 SER 的新功能，即著色器執(zhí)行重新排序，它似乎主要有助于提高光線追蹤性能，但在傳統(tǒng)渲染模式中也可能有用。

轉(zhuǎn)向 RT 核心本身，Nvidia 增加了更多的射線/三角形相交硬件，從而使該區(qū)域的吞吐量提高了兩倍。新的不透明度微圖引擎還可以加快透明紋理的光線追蹤。同樣，微網(wǎng)格引擎顯然可以在沒有 BVH 構(gòu)建和存儲成本的情況下添加幾何“豐富度”——這意味著 BVH 的三角形更少，但最終渲染的三角形更多。Nvidia 表示，第三代 RT 內(nèi)核生成 BVH 結(jié)構(gòu)的速度比第二代內(nèi)核快 10 倍，同時使用的內(nèi)存減少了 20 倍，即 VRAM 需求的 5%。

最后，通過 Hopper 對 FP8 數(shù)據(jù)類型的支持升級了 Tensor 核心。假設(shè)工作負(fù)載可以降低精度，這有效地使計算吞吐量翻了一番。請注意，每個 SM 的 Tensor 核心數(shù)量似乎沒有變化，F(xiàn)P16 操作中每個 Tensor 核心的吞吐量保持不變。但是新的 Tensor 核心顯然是 DLSS 3 的要求。

雖然架構(gòu)更新很棒，但 Nvidia 也一直在努力進(jìn)行軟件更新。DLSS 3 現(xiàn)已正式發(fā)布（在新標(biāo)簽中打開），在主題演講期間展示的幾款游戲中都支持它，并且可能還會有更多游戲。Nvidia 在《賽博朋克 2077》中使用 DLSS 3 與 DLSSS 2 相比，性能提升了 63%，大概在最終輸出上具有相似的視覺保真度。

顯然，我們無法測試 DLSS 3，所以我們必須拭目以待，但 DLSS 2 已經(jīng)為整體升級質(zhì)量設(shè)定了很高的標(biāo)準(zhǔn)。DLSS 3 將采用現(xiàn)有的輸入——幀數(shù)據(jù)、運(yùn)動矢量、深度緩沖區(qū)和前一幀——并添加一個新的光流加速器。

提供的信息表明，DLSS 3 和 OFA 可以通過查看先前的數(shù)據(jù)從單個源圖像中生成多個幀。所以理論上，它可能會使幀速率翻倍，并且在運(yùn)動中，它可能有助于使游戲看起來更流暢，盡管我們確實(shí)想知道單個幀比較如何站起來。在很多方面，這幾乎聽起來像是來自 VR 的異步空間扭曲 (ASW)，它獲得了一些 AI 增強(qiáng)功能并與升級一起應(yīng)用，如果你想提高幀率，這實(shí)際上聽起來很聰明。

然而，最大的問題之一是 DLSS 3 僅適用于 RTX 40 系列（及更高版本）GPU。如果游戲開發(fā)者想要迎合更廣泛的游戲玩家，他們基本上需要同時包含 DLSS 2 和 DLSS 3 支持，此時他們不妨也添加 FSR 2.0 和 XeSS 支持。這可能不會發(fā)生，但由于 Ampere 和更早的 RTX GPU 沒有新的光流加速器，也許有一種備用模式，它們只需使用 DLSS 2.x 算法運(yùn)行。

值得注意的是，到目前為止，所有版本的 DLSS 都可以在每張 RTX 卡上運(yùn)行，從低端的RTX 2060和RTX 3050一直到RTX 3090 Ti. 然而，這些 GPU 上潛在的 Tensor 核心計算存在巨大差異，RTX 2060 僅提供約 52 teraflops 的 FP16，而 3090 Ti（具有稀疏性）則高達(dá) 640 teraflops?，F(xiàn)在，借助 RTX 40 系列上的 FP8，即使是假設(shè)的 20 SM RTX 4050 也將提供大約 200 teraflops 的計算，而 RTX 4090 的吞吐量高達(dá) 1.4 petaflops。

英偉達(dá)放棄 Atlan，推出具備2000 TFLOPS性能的Thor

作為其秋季 GTC 2022 活動的一部分，NVIDIA 今天發(fā)布的大量公告中，該公司正在對其 DRIVE 汽車 SoC 計劃進(jìn)行令人驚訝的更行，且立即生效。NVIDIA表示將取消Atlan，這是他們計劃用于 2025 年汽車的后 Orin SoC。取而代之的是，NVIDIA 宣布推出 Thor，這是一款功能更強(qiáng)大的 SoC，將于 2025 年推出。

NVIDIA 的 Atlan SoC 于 2021 年春季 GTC 首次亮相，NVIDIA 宣布將其作為下一代汽車 SoC，以接替（現(xiàn)在的）Orin SoC。在宣布時，Atlan 計劃成為一款高性能 SoC，提供 1000 TOPS 的 INT8 推理性能，采用下一代（Lovelace）GPU 設(shè)計和下一代 Grace CPU 設(shè)計。該芯片甚至集成了 BlueField DPU 作為網(wǎng)絡(luò)和安全處理器，旨在提供一個可以處理自動駕駛汽車所需的所有計算功能的 SoC。

但無論 Atlan本應(yīng)是什么，現(xiàn)在都已不復(fù)存在。截至 NVIDIA 新的 DRIVE SoC 路線圖，Atlan 已被廢棄。取而代之的是一個新的 SoC——Thor，它比Atlan 更強(qiáng)大。

與 2021 年的 Atlan 公告一樣，NVIDIA 僅在發(fā)布之前發(fā)布了有關(guān) Thor 的少數(shù)細(xì)節(jié)。高級細(xì)節(jié)包括，沒有命名特定的 NVIDIA CPU 和 GPU 架構(gòu)，但 SoC 正在利用 Grace CPU、Ampere GPU 架構(gòu)和 Lovelace GPU 架構(gòu)首次引入的功能。與此同時，NVIDIA 關(guān)于此事的博客文章確實(shí)更進(jìn)一步，指出 SoC 使用了 Arm 迄今為止秘密的 Poseidon CPU 內(nèi)核的汽車增強(qiáng) (AE) 版本。我們對Poseidon 知之甚少，它是 Arm 正在開發(fā)的下一代高性能 CPU 內(nèi)核，將用于其下一代 Neoverse V 系列平臺，取代剛剛發(fā)布的Neoverse V2。

從性能的角度來看，Thor 計劃使用新標(biāo)準(zhǔn)化的 FP8 數(shù)據(jù)格式提供 2 PFLOPS (2000 TFLOPS) 的浮點(diǎn)推理性能。盡管與 Atlan 的 1000 TFLOPS INT8 數(shù)字相比，這不是一個公平的比較，但它仍然代表了 8 位精度計算吞吐量的兩倍。SoC 的張量核心還將采用 NVIDIA 的 transformer engines，使 SoC 能夠進(jìn)一步加速transformer networks的處理。

值得注意的是，整合所有這些性能將使 Thor 成為一個非常龐大的芯片。雖然 NVIDIA 沒有宣布工藝節(jié)點(diǎn)，但他們已經(jīng)表示它將使用 770 億個晶體管，這比他們的新旗艦 GH100 GPU 少了 30 億個晶體管。NVIDIA 的性能聲明并未表明是否使用了矩陣稀疏性，但即使是這樣，Thor 的 FP8 性能也將是 NVIDIA 旗艦 GPU 的一半。所有這些都突顯了 NVIDIA 對計劃中的 SoC 的極端性能目標(biāo)。

雖然 NVIDIA 的芯片模型在 AGX 板上以單芯片配置顯示它，但今天的公告還明確提到了 NVLink 芯片到芯片 (NVLink-C2C) 芯片互連技術(shù)。這是一個奇怪的提及，因?yàn)?NVIDIA 的關(guān)鍵藝術(shù)并沒有顯示 Thor 是基于chiplet的。這可能意味著 NVIDIA 將轉(zhuǎn)而使用 NVLink-C2C 來實(shí)現(xiàn)更強(qiáng)大的多芯片 DRIVE AGX 板（ala Pegasus），或者很可能 Thor 是基于chiplet的設(shè)計，而 NVIDIA 故意將其通用化藝術(shù)。

除此之外，NVIDIA 沒有提供有關(guān) SoC 的任何進(jìn)一步技術(shù)細(xì)節(jié)。因此，有關(guān)使用的內(nèi)存類型、GPU 架構(gòu)和其他功能塊的詳細(xì)信息仍有待觀察。

在這一點(diǎn)上，NVIDIA 也沒有詳細(xì)說明為什么他們?nèi)∠?Atlan 來代替 Thor。Thor 無疑是一個更強(qiáng)大的設(shè)計，并且似乎包含了一些在 Atlan 上找不到（或至少從未公開過）的新功能。這是否意味著 NVIDIA 正在以某種方式引入本應(yīng)是后 Atlan 芯片的芯片，或者他們是否因?yàn)榭蛻粜枰玫淖詣玉{駛汽車 AI 推理性能而放棄了 Atlan，還有待觀察。

拋開硬件升級不談，很明顯，NVIDIA 正在為與 Atlan 相同的細(xì)分市場設(shè)計 Thor。也就是說，它是一種高性能的單芯片設(shè)計，用于處理自動駕駛汽車的所有計算需求，從信息娛樂系統(tǒng)和傳感器融合到實(shí)際的自動駕駛算法本身。與 Atlan 一樣，其目標(biāo)是用一臺可以完成所有工作的計算機(jī)取代目前汽車內(nèi)的獨(dú)立計算機(jī)，利用具有廣泛隔離（包括 MIG）的功能安全設(shè)計技術(shù)來防止單獨(dú)的任務(wù)相互干擾。

然而，也許最令人驚訝的是，SoC 的這種變化預(yù)計不會影響 NVIDIA 的 SoC 交付日期。英偉達(dá)表示，他們將在 2025 年為汽車廠商提供Thor，這與亞特蘭的計劃到達(dá)時間相同。因此，雖然魔鬼在細(xì)節(jié)中，但在高水平上，英偉達(dá)的目標(biāo)是提供接近相同的Thor時間，因?yàn)樗麄儠桓禔tlan 。不過值得注意的是，雖然 NVIDIA 此前曾宣布 Atlan 將在 2023 年出樣，但尚未發(fā)布關(guān)于 Thor 的此類公告。因此，Thor 的送樣日期可能最終會晚于 Atlan 的送樣日期。

H100已經(jīng)全面投產(chǎn)

在企業(yè)方面，英偉達(dá)今天會上期待最久的更新之一是 NVIDIA 的 H100 “Hopper”加速器的出貨狀態(tài)。因?yàn)楦鶕?jù)之前說法，該加速器最初預(yù)計在今年第三季度登陸。。據(jù) NVIDIA 稱，該加速器已全面投入生產(chǎn)，首批系統(tǒng)將于 10 月從 OEM 處發(fā)貨。

H100在 3 月份的 NVIDIA 年度春季 GTC 活動中首次亮相，是 NVIDIA面向服務(wù)器、超大規(guī)模計算機(jī)和類似市場的下一代高性能加速器。H100 基于 Hopper 架構(gòu)，基于臺積電的 4nm“4N”工藝，是 NVIDIA 非常成功的 A100 加速器的后續(xù)產(chǎn)品。除其他變化外，該公司最新的加速器實(shí)現(xiàn)了 HBM3 內(nèi)存，在其張量內(nèi)核中支持transformer模型，支持動態(tài)編程，具有更強(qiáng)大隔離的多實(shí)例 GPU 的更新版本，以及兩者的計算吞吐量都大大提高矢量和張量數(shù)據(jù)類型?；?NVIDIA 的 800 億晶體管 GH100 GPU，H100 加速器也在功耗方面突破極限，最大 TDP 為 700 瓦。

鑒于 NVIDIA 的春季 GTC 活動與他們這一代的制造窗口不完全一致，今年早些時候的 H100 公告稱 NVIDIA 將在第三季度出貨第一批 H100 系統(tǒng)。但是，NVIDIA 今天概述的更新交付目標(biāo)意味著第三季度的日期已經(jīng)推遲。好消息是，正如 NVIDIA 所說，H100 正在“全面生產(chǎn)”。壞消息是，生產(chǎn)和集成似乎并沒有按時開始。目前，該公司預(yù)計第一批生產(chǎn)系統(tǒng)要到 10 月，也就是第四季度開始時才能到達(dá)客戶手中。

更進(jìn)一步，系統(tǒng)和產(chǎn)品推出的順序基本上與 NVIDIA 的慣常策略相反。NVIDIA 的合作伙伴并沒有首先從基于其最高性能 SXM 外形部件的系統(tǒng)開始，而是從性能較低的 PCIe 卡開始。也就是說，10 月份出貨的第一批系統(tǒng)將使用 PCIe 卡，而 NVIDIA 的合作伙伴將在今年晚些時候推出集成了更快的 SXM 卡和他們的 HGX 載板的系統(tǒng)。

值得一提的是，NVIDIA 的旗艦 DGX 系統(tǒng)通常是最早發(fā)布的系統(tǒng)之一，現(xiàn)在將成為最后一批。NVIDIA 今天開始接受 DGX H100 系統(tǒng)的預(yù)訂，預(yù)計在 2023 年第一季度（即從現(xiàn)在起的 4 到 7 個月）交付。這對 NVIDIA 的服務(wù)器合作伙伴來說是個好消息，他們在過去幾代人中不得不等待 NVIDIA，但這也意味著 H100 作為產(chǎn)品在開始在系統(tǒng)中出貨時將無法發(fā)揮最大的作用下個月。

在與媒體的預(yù)先簡報中，英偉達(dá)沒有詳細(xì)解釋為什么 H100 最終會延遲。盡管在高層發(fā)言，但公司代表確實(shí)表示延遲不是出于組件原因。同時，該公司引用了 PCIe 卡相對簡單的原因，因?yàn)?PCIe 系統(tǒng)首先出貨。這些在通用 PCIe 基礎(chǔ)架構(gòu)中主要是即插即用的，而 H100 HGX/SXM 系統(tǒng)更復(fù)雜，需要更長的時間才能完成。

兩種外形尺寸之間也存在一些顯著的功能差異。SXM 版本是唯一使用 HBM3 內(nèi)存的版本（PCIe 使用 HBM2e），而 PCIe 版本需要更少的工作 SM（114 對 132）。因此，NVIDIA 有一些回旋余地來隱藏早期產(chǎn)量問題，如果這確實(shí)是一個因素的話。

讓 NVIDIA 更復(fù)雜的是，DGX H100 系統(tǒng)基于英特爾反復(fù)延遲的第 4代Xeon 可擴(kuò)展處理器 ( Sapphire Rapids )，目前還沒有完全確定的發(fā)布數(shù)據(jù)。不太樂觀的預(yù)測是它在第一季度推出，這與 NVIDIA 自己的發(fā)布日期一致——盡管這很可能只是巧合。無論哪種方式，Sapphire Rapids 缺乏普遍可用性都沒有給 NVIDIA 帶來任何好處。

最終，由于 NVIDIA 無法在明年之前推出 DGX，它將成為 NVIDIA 的服務(wù)器合作伙伴，率先推出 HGX 系統(tǒng)——可能使用當(dāng)前一代主機(jī)，或者如果及時準(zhǔn)備好，可能使用 AMD 的 Genoa 平臺。在計劃推出 H100 系統(tǒng)的公司中，包括 Supermicro、戴爾、HPE、技嘉、富士通、思科和 Atos。

同時，對于急于在購買任何硬件之前試用 H100 的客戶，H100 現(xiàn)在可在 NVIDIA 的 LaunchPad 服務(wù)中使用。

最后，當(dāng)我們討論 H100 的主題時，NVIDIA 還利用本周的 GTC 宣布更新其 NVIDIA AI Enterprise 軟件堆棧的許可。H100 現(xiàn)在附帶一個 5 年的軟件許可證，這是值得注意的，因?yàn)?5 年訂閱通常是每個 CPU 插槽 8000 美元。

編輯：黃飛

閱讀全文