英偉達(dá)GTC秋季大會(huì)近日盛大開(kāi)幕。會(huì)上,英偉達(dá)CEO黃仁勛不但帶來(lái)了最新一代的RTX 4090以及 “Ada Lovelace”架構(gòu)。同時(shí),他還修正了公司的汽車(chē)SoC路線圖,拋棄 Atlan,計(jì)劃推出具備2000 TFLOPS性能的Thor。在會(huì)上,黃仁勛還披露,H100已經(jīng)全面投產(chǎn)。
現(xiàn)在,我們來(lái)看一下這次大會(huì)上的重點(diǎn)。
GeForce RTX 40 系列顯卡:速度提升高達(dá)4倍
據(jù)報(bào)道,英偉達(dá)RTX 4090 將有 128 個(gè) SM 和 2,520 MHz 升壓時(shí)鐘(boost clock),再加上 24GB GDDR6X 內(nèi)存,運(yùn)行速度為 21 Gbps,具有 384 位接口。內(nèi)存配置與RTX 3090 Ti相比基本沒(méi)有變化,這從表面上看基本是對(duì)的。然而,就像 AMD 對(duì) RDNA 2 的 Infinity Cache 所做的那樣,Nvidia 顯然會(huì)在 AD102 中打包 96MB 的 L2 緩存,而 GA102 中只有 6MB 的 L2 緩存——但這還沒(méi)有得到官方證實(shí)。
與 Ampere 相比,新產(chǎn)品的核心數(shù)量增加了 50% 以上,最多有 128 個(gè) SM,而不是最多只有 84 個(gè) SM — 未來(lái)仍有進(jìn)一步提升到140-144 個(gè) SM 型號(hào)產(chǎn)品的空間,也許是新的Titan RTX,或者至少是未來(lái)的 RTX 4090 Ti。僅核心數(shù)量就可以大幅提升性能,但 Nvidia 還調(diào)整了 Ada 以達(dá)到更高的時(shí)鐘頻率,這再次類(lèi)似于 AMD 對(duì) RDNA 2 所做的,結(jié)果是已發(fā)布型號(hào)上預(yù)期的 2.5-2.6 GHz 提升時(shí)鐘。這比 RTX 3090 的 1,695 MHz 升壓時(shí)鐘高出近 50%,比 RTX 3090 Ti 的 1,860 MHz 高出 35%。黃仁勛透露,Nvidia 在其實(shí)驗(yàn)室中通過(guò)超頻達(dá)到了超過(guò) 3.0 GHz 的時(shí)鐘速度。(您好,800W 定制 RTX 4090 卡?。?/p>
結(jié)合起來(lái),GPU 著色器計(jì)數(shù)和時(shí)鐘速度產(chǎn)生了理論上的最大性能數(shù)據(jù)。RTX 3090 的額定值為 35.6 teraflops,RTX 3090 Ti 將其提升至 40 teraflops,而現(xiàn)在 RTX 4090 將指針推高至 82.6 teraflops——換句話說(shuō),計(jì)算量增加了一倍多。雖然僅 teraflops 可能是一個(gè)毫無(wú)意義的數(shù)字,但它在類(lèi)似的架構(gòu)中仍然有用,而且我們正在研究自 GeForce 品牌首次出現(xiàn)以來(lái)我們從 Nvidia 看到的最大的代際性能飛躍。
Nvidia 尚未說(shuō)明各種卡中具體使用了哪些 GPU,盡管之前的傳言稱(chēng)我們正在研究三個(gè)獨(dú)立的芯片:AD102、AD103 和 AD104。再次考慮到核心數(shù)量的差異,這似乎仍然很可能,盡管 4080 12GB 可能會(huì)使用收獲的 AD103 芯片——如果不是現(xiàn)在,那么在未來(lái)的某個(gè)時(shí)候。
當(dāng)然,更大的問(wèn)題將是現(xiàn)實(shí)世界的收益,而內(nèi)存帶寬缺乏實(shí)質(zhì)性收益確實(shí)會(huì)引發(fā)一些問(wèn)題。但是,請(qǐng)記住,當(dāng) AMD 基本上在其 RDNA 設(shè)計(jì)上添加了一堆 L3 緩存然后提高時(shí)鐘速度時(shí),像 RX 6600 XT 這樣的卡能夠保持領(lǐng)先于上一代 RX 5700 XT,后者的內(nèi)存幾乎是其兩倍帶寬 — Navi 23 上只有 32MB。96MB 的二級(jí)緩存應(yīng)該使 Nvidia 緩存命中率達(dá)到 50% 或更高,這意味著有效內(nèi)存帶寬增加了一倍。
理論性能看起來(lái)異常強(qiáng)大,但其余部分呢?Nvidia 提供了上述基準(zhǔn)測(cè)試結(jié)果,將三款新 GPU 與現(xiàn)有 RTX 3090 Ti 進(jìn)行了比較。您可以看到,在傳統(tǒng)游戲中,在左側(cè),RTX 4080 12GB 可能會(huì)比 3090 Ti 稍慢,但要快很多??紤]到其他細(xì)節(jié),我們懷疑某些測(cè)試是在啟用 DLSS 3 的情況下完成的,這僅在 RTX 40 系列卡上可用,從而使它們具有相當(dāng)大的性能優(yōu)勢(shì)。
在右邊,情況確實(shí)如此。RacerX、Portal RTX 和 Cyberpunk 2077 “RT Overdrive”都將光線追蹤效果提升到了新的極致。我們沒(méi)有基準(zhǔn) fps 數(shù)據(jù),但在某些情況下,RTX 4080 12GB 的速度是 3090 Ti 的兩倍多,而 RTX 4090 的速度則高達(dá)四倍。是否仍允許 RTX 3090 Ti 使用 DLSS 2?
讓我們簡(jiǎn)要介紹一下架構(gòu)更新,以了解更多背景信息。據(jù)介紹,英偉達(dá)全新的Ada Lovelace產(chǎn)品使用臺(tái)積電4n工藝打造,擁有760億的晶體管。
核心數(shù)量和時(shí)鐘速度有所提高,但更重要的是,架構(gòu)更新可以進(jìn)一步提升性能。在 GPU 著色器上,Nvidia 表示 Ada 內(nèi)核的功率效率高達(dá)兩倍。著色器還支持稱(chēng)為 SER 的新功能,即著色器執(zhí)行重新排序,它似乎主要有助于提高光線追蹤性能,但在傳統(tǒng)渲染模式中也可能有用。
轉(zhuǎn)向 RT 核心本身,Nvidia 增加了更多的射線/三角形相交硬件,從而使該區(qū)域的吞吐量提高了兩倍。新的不透明度微圖引擎還可以加快透明紋理的光線追蹤。同樣,微網(wǎng)格引擎顯然可以在沒(méi)有 BVH 構(gòu)建和存儲(chǔ)成本的情況下添加幾何“豐富度”——這意味著 BVH 的三角形更少,但最終渲染的三角形更多。Nvidia 表示,第三代 RT 內(nèi)核生成 BVH 結(jié)構(gòu)的速度比第二代內(nèi)核快 10 倍,同時(shí)使用的內(nèi)存減少了 20 倍,即 VRAM 需求的 5%。
最后,通過(guò) Hopper 對(duì) FP8 數(shù)據(jù)類(lèi)型的支持升級(jí)了 Tensor 核心。假設(shè)工作負(fù)載可以降低精度,這有效地使計(jì)算吞吐量翻了一番。請(qǐng)注意,每個(gè) SM 的 Tensor 核心數(shù)量似乎沒(méi)有變化,F(xiàn)P16 操作中每個(gè) Tensor 核心的吞吐量保持不變。但是新的 Tensor 核心顯然是 DLSS 3 的要求。
?
?
雖然架構(gòu)更新很棒,但 Nvidia 也一直在努力進(jìn)行軟件更新。DLSS 3 現(xiàn)已正式發(fā)布(在新標(biāo)簽中打開(kāi)),在主題演講期間展示的幾款游戲中都支持它,并且可能還會(huì)有更多游戲。Nvidia 在《賽博朋克 2077》中使用 DLSS 3 與 DLSSS 2 相比,性能提升了 63%,大概在最終輸出上具有相似的視覺(jué)保真度。
顯然,我們無(wú)法測(cè)試 DLSS 3,所以我們必須拭目以待,但 DLSS 2 已經(jīng)為整體升級(jí)質(zhì)量設(shè)定了很高的標(biāo)準(zhǔn)。DLSS 3 將采用現(xiàn)有的輸入——幀數(shù)據(jù)、運(yùn)動(dòng)矢量、深度緩沖區(qū)和前一幀——并添加一個(gè)新的光流加速器。
提供的信息表明,DLSS 3 和 OFA 可以通過(guò)查看先前的數(shù)據(jù)從單個(gè)源圖像中生成多個(gè)幀。所以理論上,它可能會(huì)使幀速率翻倍,并且在運(yùn)動(dòng)中,它可能有助于使游戲看起來(lái)更流暢,盡管我們確實(shí)想知道單個(gè)幀比較如何站起來(lái)。在很多方面,這幾乎聽(tīng)起來(lái)像是來(lái)自 VR 的異步空間扭曲 (ASW),它獲得了一些 AI 增強(qiáng)功能并與升級(jí)一起應(yīng)用,如果你想提高幀率,這實(shí)際上聽(tīng)起來(lái)很聰明。
然而,最大的問(wèn)題之一是 DLSS 3 僅適用于 RTX 40 系列(及更高版本)GPU。如果游戲開(kāi)發(fā)者想要迎合更廣泛的游戲玩家,他們基本上需要同時(shí)包含 DLSS 2 和 DLSS 3 支持,此時(shí)他們不妨也添加 FSR 2.0 和 XeSS 支持。這可能不會(huì)發(fā)生,但由于 Ampere 和更早的 RTX GPU 沒(méi)有新的光流加速器,也許有一種備用模式,它們只需使用 DLSS 2.x 算法運(yùn)行。
值得注意的是,到目前為止,所有版本的 DLSS 都可以在每張 RTX 卡上運(yùn)行,從低端的RTX 2060和RTX 3050一直到RTX 3090 Ti. 然而,這些 GPU 上潛在的 Tensor 核心計(jì)算存在巨大差異,RTX 2060 僅提供約 52 teraflops 的 FP16,而 3090 Ti(具有稀疏性)則高達(dá) 640 teraflops。現(xiàn)在,借助 RTX 40 系列上的 FP8,即使是假設(shè)的 20 SM RTX 4050 也將提供大約 200 teraflops 的計(jì)算,而 RTX 4090 的吞吐量高達(dá) 1.4 petaflops。
英偉達(dá)放棄 Atlan,推出具備2000 TFLOPS性能的Thor
作為其秋季 GTC 2022 活動(dòng)的一部分,NVIDIA 今天發(fā)布的大量公告中,該公司正在對(duì)其 DRIVE 汽車(chē) SoC 計(jì)劃進(jìn)行令人驚訝的更行,且立即生效。NVIDIA表示將取消Atlan,這是他們計(jì)劃用于 2025 年汽車(chē)的后 Orin SoC。取而代之的是,NVIDIA 宣布推出 Thor,這是一款功能更強(qiáng)大的 SoC,將于 2025 年推出。
NVIDIA 的 Atlan SoC 于 2021 年春季 GTC 首次亮相,NVIDIA 宣布將其作為下一代汽車(chē) SoC,以接替(現(xiàn)在的)Orin SoC。在宣布時(shí),Atlan 計(jì)劃成為一款高性能 SoC,提供 1000 TOPS 的 INT8 推理性能,采用下一代(Lovelace)GPU 設(shè)計(jì)和下一代 Grace CPU 設(shè)計(jì)。該芯片甚至集成了 BlueField DPU 作為網(wǎng)絡(luò)和安全處理器,旨在提供一個(gè)可以處理自動(dòng)駕駛汽車(chē)所需的所有計(jì)算功能的 SoC。
但無(wú)論 Atlan本應(yīng)是什么,現(xiàn)在都已不復(fù)存在。截至 NVIDIA 新的 DRIVE SoC 路線圖,Atlan 已被廢棄。取而代之的是一個(gè)新的 SoC——Thor,它比Atlan 更強(qiáng)大。
與 2021 年的 Atlan 公告一樣,NVIDIA 僅在發(fā)布之前發(fā)布了有關(guān) Thor 的少數(shù)細(xì)節(jié)。高級(jí)細(xì)節(jié)包括,沒(méi)有命名特定的 NVIDIA CPU 和 GPU 架構(gòu),但 SoC 正在利用 Grace CPU、Ampere GPU 架構(gòu)和 Lovelace GPU 架構(gòu)首次引入的功能。與此同時(shí),NVIDIA 關(guān)于此事的博客文章確實(shí)更進(jìn)一步,指出 SoC 使用了 Arm 迄今為止秘密的 Poseidon CPU 內(nèi)核的汽車(chē)增強(qiáng) (AE) 版本。我們對(duì)Poseidon 知之甚少,它是 Arm 正在開(kāi)發(fā)的下一代高性能 CPU 內(nèi)核,將用于其下一代 Neoverse V 系列平臺(tái),取代剛剛發(fā)布的Neoverse V2。
從性能的角度來(lái)看,Thor 計(jì)劃使用新標(biāo)準(zhǔn)化的 FP8 數(shù)據(jù)格式提供 2 PFLOPS (2000 TFLOPS) 的浮點(diǎn)推理性能。盡管與 Atlan 的 1000 TFLOPS INT8 數(shù)字相比,這不是一個(gè)公平的比較,但它仍然代表了 8 位精度計(jì)算吞吐量的兩倍。SoC 的張量核心還將采用 NVIDIA 的 transformer engines,使 SoC 能夠進(jìn)一步加速transformer networks的處理。
值得注意的是,整合所有這些性能將使 Thor 成為一個(gè)非常龐大的芯片。雖然 NVIDIA 沒(méi)有宣布工藝節(jié)點(diǎn),但他們已經(jīng)表示它將使用 770 億個(gè)晶體管,這比他們的新旗艦 GH100 GPU 少了 30 億個(gè)晶體管。NVIDIA 的性能聲明并未表明是否使用了矩陣稀疏性,但即使是這樣,Thor 的 FP8 性能也將是 NVIDIA 旗艦 GPU 的一半。所有這些都突顯了 NVIDIA 對(duì)計(jì)劃中的 SoC 的極端性能目標(biāo)。
雖然 NVIDIA 的芯片模型在 AGX 板上以單芯片配置顯示它,但今天的公告還明確提到了 NVLink 芯片到芯片 (NVLink-C2C) 芯片互連技術(shù)。這是一個(gè)奇怪的提及,因?yàn)?NVIDIA 的關(guān)鍵藝術(shù)并沒(méi)有顯示 Thor 是基于chiplet的。這可能意味著 NVIDIA 將轉(zhuǎn)而使用 NVLink-C2C 來(lái)實(shí)現(xiàn)更強(qiáng)大的多芯片 DRIVE AGX 板(ala Pegasus),或者很可能 Thor 是基于chiplet的設(shè)計(jì),而 NVIDIA 故意將其通用化藝術(shù)。
除此之外,NVIDIA 沒(méi)有提供有關(guān) SoC 的任何進(jìn)一步技術(shù)細(xì)節(jié)。因此,有關(guān)使用的內(nèi)存類(lèi)型、GPU 架構(gòu)和其他功能塊的詳細(xì)信息仍有待觀察。
在這一點(diǎn)上,NVIDIA 也沒(méi)有詳細(xì)說(shuō)明為什么他們?nèi)∠?Atlan 來(lái)代替 Thor。Thor 無(wú)疑是一個(gè)更強(qiáng)大的設(shè)計(jì),并且似乎包含了一些在 Atlan 上找不到(或至少?gòu)奈垂_(kāi)過(guò))的新功能。這是否意味著 NVIDIA 正在以某種方式引入本應(yīng)是后 Atlan 芯片的芯片,或者他們是否因?yàn)榭蛻?hù)需要更好的自動(dòng)駕駛汽車(chē) AI 推理性能而放棄了 Atlan,還有待觀察。
拋開(kāi)硬件升級(jí)不談,很明顯,NVIDIA 正在為與 Atlan 相同的細(xì)分市場(chǎng)設(shè)計(jì) Thor。也就是說(shuō),它是一種高性能的單芯片設(shè)計(jì),用于處理自動(dòng)駕駛汽車(chē)的所有計(jì)算需求,從信息娛樂(lè)系統(tǒng)和傳感器融合到實(shí)際的自動(dòng)駕駛算法本身。與 Atlan 一樣,其目標(biāo)是用一臺(tái)可以完成所有工作的計(jì)算機(jī)取代目前汽車(chē)內(nèi)的獨(dú)立計(jì)算機(jī),利用具有廣泛隔離(包括 MIG)的功能安全設(shè)計(jì)技術(shù)來(lái)防止單獨(dú)的任務(wù)相互干擾。
然而,也許最令人驚訝的是,SoC 的這種變化預(yù)計(jì)不會(huì)影響 NVIDIA 的 SoC 交付日期。英偉達(dá)表示,他們將在 2025 年為汽車(chē)廠商提供Thor,這與亞特蘭的計(jì)劃到達(dá)時(shí)間相同。因此,雖然魔鬼在細(xì)節(jié)中,但在高水平上,英偉達(dá)的目標(biāo)是提供接近相同的Thor時(shí)間,因?yàn)樗麄儠?huì)交付Atlan 。不過(guò)值得注意的是,雖然 NVIDIA 此前曾宣布 Atlan 將在 2023 年出樣,但尚未發(fā)布關(guān)于 Thor 的此類(lèi)公告。因此,Thor 的送樣日期可能最終會(huì)晚于 Atlan 的送樣日期。
H100已經(jīng)全面投產(chǎn)
在企業(yè)方面,英偉達(dá)今天會(huì)上期待最久的更新之一是 NVIDIA 的 H100 “Hopper”加速器的出貨狀態(tài)。因?yàn)楦鶕?jù)之前說(shuō)法,該加速器最初預(yù)計(jì)在今年第三季度登陸。。據(jù) NVIDIA 稱(chēng),該加速器已全面投入生產(chǎn),首批系統(tǒng)將于 10 月從 OEM 處發(fā)貨。
H100在 3 月份的 NVIDIA 年度春季 GTC 活動(dòng)中首次亮相,是 NVIDIA面向服務(wù)器、超大規(guī)模計(jì)算機(jī)和類(lèi)似市場(chǎng)的下一代高性能加速器。H100 基于 Hopper 架構(gòu),基于臺(tái)積電的 4nm“4N”工藝,是 NVIDIA 非常成功的 A100 加速器的后續(xù)產(chǎn)品。除其他變化外,該公司最新的加速器實(shí)現(xiàn)了 HBM3 內(nèi)存,在其張量?jī)?nèi)核中支持transformer模型,支持動(dòng)態(tài)編程,具有更強(qiáng)大隔離的多實(shí)例 GPU 的更新版本,以及兩者的計(jì)算吞吐量都大大提高矢量和張量數(shù)據(jù)類(lèi)型?;?NVIDIA 的 800 億晶體管 GH100 GPU,H100 加速器也在功耗方面突破極限,最大 TDP 為 700 瓦。
鑒于 NVIDIA 的春季 GTC 活動(dòng)與他們這一代的制造窗口不完全一致,今年早些時(shí)候的 H100 公告稱(chēng) NVIDIA 將在第三季度出貨第一批 H100 系統(tǒng)。但是,NVIDIA 今天概述的更新交付目標(biāo)意味著第三季度的日期已經(jīng)推遲。好消息是,正如 NVIDIA 所說(shuō),H100 正在“全面生產(chǎn)”。壞消息是,生產(chǎn)和集成似乎并沒(méi)有按時(shí)開(kāi)始。目前,該公司預(yù)計(jì)第一批生產(chǎn)系統(tǒng)要到 10 月,也就是第四季度開(kāi)始時(shí)才能到達(dá)客戶(hù)手中。
更進(jìn)一步,系統(tǒng)和產(chǎn)品推出的順序基本上與 NVIDIA 的慣常策略相反。NVIDIA 的合作伙伴并沒(méi)有首先從基于其最高性能 SXM 外形部件的系統(tǒng)開(kāi)始,而是從性能較低的 PCIe 卡開(kāi)始。也就是說(shuō),10 月份出貨的第一批系統(tǒng)將使用 PCIe 卡,而 NVIDIA 的合作伙伴將在今年晚些時(shí)候推出集成了更快的 SXM 卡和他們的 HGX 載板的系統(tǒng)。
值得一提的是,NVIDIA 的旗艦 DGX 系統(tǒng)通常是最早發(fā)布的系統(tǒng)之一,現(xiàn)在將成為最后一批。NVIDIA 今天開(kāi)始接受 DGX H100 系統(tǒng)的預(yù)訂,預(yù)計(jì)在 2023 年第一季度(即從現(xiàn)在起的 4 到 7 個(gè)月)交付。這對(duì) NVIDIA 的服務(wù)器合作伙伴來(lái)說(shuō)是個(gè)好消息,他們?cè)谶^(guò)去幾代人中不得不等待 NVIDIA,但這也意味著 H100 作為產(chǎn)品在開(kāi)始在系統(tǒng)中出貨時(shí)將無(wú)法發(fā)揮最大的作用下個(gè)月。
在與媒體的預(yù)先簡(jiǎn)報(bào)中,英偉達(dá)沒(méi)有詳細(xì)解釋為什么 H100 最終會(huì)延遲。盡管在高層發(fā)言,但公司代表確實(shí)表示延遲不是出于組件原因。同時(shí),該公司引用了 PCIe 卡相對(duì)簡(jiǎn)單的原因,因?yàn)?PCIe 系統(tǒng)首先出貨。這些在通用 PCIe 基礎(chǔ)架構(gòu)中主要是即插即用的,而 H100 HGX/SXM 系統(tǒng)更復(fù)雜,需要更長(zhǎng)的時(shí)間才能完成。
兩種外形尺寸之間也存在一些顯著的功能差異。SXM 版本是唯一使用 HBM3 內(nèi)存的版本(PCIe 使用 HBM2e),而 PCIe 版本需要更少的工作 SM(114 對(duì) 132)。因此,NVIDIA 有一些回旋余地來(lái)隱藏早期產(chǎn)量問(wèn)題,如果這確實(shí)是一個(gè)因素的話。
讓 NVIDIA 更復(fù)雜的是,DGX H100 系統(tǒng)基于英特爾反復(fù)延遲的第 4代Xeon 可擴(kuò)展處理器 ( Sapphire Rapids ),目前還沒(méi)有完全確定的發(fā)布數(shù)據(jù)。不太樂(lè)觀的預(yù)測(cè)是它在第一季度推出,這與 NVIDIA 自己的發(fā)布日期一致——盡管這很可能只是巧合。無(wú)論哪種方式,Sapphire Rapids 缺乏普遍可用性都沒(méi)有給 NVIDIA 帶來(lái)任何好處。
最終,由于 NVIDIA 無(wú)法在明年之前推出 DGX,它將成為 NVIDIA 的服務(wù)器合作伙伴,率先推出 HGX 系統(tǒng)——可能使用當(dāng)前一代主機(jī),或者如果及時(shí)準(zhǔn)備好,可能使用 AMD 的 Genoa 平臺(tái)。在計(jì)劃推出 H100 系統(tǒng)的公司中,包括 Supermicro、戴爾、HPE、技嘉、富士通、思科和 Atos。
同時(shí),對(duì)于急于在購(gòu)買(mǎi)任何硬件之前試用 H100 的客戶(hù),H100 現(xiàn)在可在 NVIDIA 的 LaunchPad 服務(wù)中使用。
最后,當(dāng)我們討論 H100 的主題時(shí),NVIDIA 還利用本周的 GTC 宣布更新其 NVIDIA AI Enterprise 軟件堆棧的許可。H100 現(xiàn)在附帶一個(gè) 5 年的軟件許可證,這是值得注意的,因?yàn)?5 年訂閱通常是每個(gè) CPU 插槽 8000 美元。
編輯:黃飛
?
評(píng)論