在過去的幾年里,技術(shù)創(chuàng)新和計(jì)算機(jī)芯片的發(fā)展明顯放緩,特別是與我們過去 20 年左右的習(xí)慣相比,這尤其適用于變得更大、更復(fù)雜、更浪費(fèi)且生產(chǎn)成本極高的高端圖形處理器。
最近,就連飽受爭議的英偉達(dá)老板黃仁勛也再次扣動了扳機(jī),宣布著名的摩爾定律“死了”。讓我們提醒您,摩爾定律指的是戈登摩爾(英特爾的技術(shù)先驅(qū)和聯(lián)合創(chuàng)始人)早期的預(yù)測,即現(xiàn)代微芯片上的晶體管數(shù)量每兩年翻一番。當(dāng)然,這可以顯著提高性能、提高能源效率并降低生產(chǎn)成本。
而AMD RDNA3的發(fā)布,似乎昭示著新時(shí)代的開始?
由于單片設(shè)計(jì)中的現(xiàn)代高端圖形處理器一代又一代地變得越來越復(fù)雜和昂貴,AMD 決定為其 RDNA3 圖形處理器采用全新的革命性小芯片設(shè)計(jì)。他們最新的圖形處理器 Navi 31 基于小芯片設(shè)計(jì),這意味著我們沒有一個(gè)大的單片芯片,而是幾個(gè)較小的芯片的組合,然后一起形成一個(gè)整體,從而實(shí)現(xiàn)了我們在圖形處理器中看到的所有功能。

這是否聽起來很熟悉?因?yàn)檫@正是AMD 多年來一直在其 Ryzen 和 Epic 處理器中使用的技術(shù)。正是因?yàn)椴捎昧诵⌒酒O(shè)計(jì),他們?nèi)〉昧司薮蟪晒?。然而?a href="http://www.brongaenegriffin.com/tags/gpu/" target="_blank">GPU 是一種略有不同的產(chǎn)品,很難指望主處理器中 chiplet 設(shè)計(jì)的所有優(yōu)勢會像那樣轉(zhuǎn)移到圖形芯片的世界。
但讓我們也提一下具體的產(chǎn)品。AMD 的圖形處理器 Navi 31,是歷史上第一個(gè)小芯片 GPU,該產(chǎn)品是兩款最新顯卡——Radeon RX 7900 XTX 和 Radeon RX 7900 XT 的基礎(chǔ)。XTX是旗艦機(jī)型,擁有更多的shader處理器,更高的內(nèi)存帶寬,更多的顯存,而XT則是有些弱化的版本。
GCD + MCD = 小芯片 GPU
圖形處理器 Navi 31 由令人印象深刻的 580 億個(gè)晶體管組成,小芯片架構(gòu)包括一個(gè) GCD(圖形計(jì)算芯片)內(nèi)核和多達(dá) 6 個(gè) MCD(內(nèi)存緩存芯片)內(nèi)核。
300 平方毫米的 GCD 核心包含著色器處理器、ROP 單元和現(xiàn)代 GPU 的所有其他組件,采用臺積電更先進(jìn)的 5 納米工藝制造。另一方面,較小的 MCD 小芯片尺寸僅為 37 平方毫米,包含內(nèi)存控制器和 Infinity 緩存,并使用 6 納米工藝制造。
也就是說,AMD 已經(jīng)確定著色器處理器和其他單元從使用最現(xiàn)代的生產(chǎn)工藝中獲益更多,而內(nèi)存控制器和緩存則不需要使用最新的工藝。從這個(gè)意義上說,小芯片架構(gòu)的使用降低了成本,因?yàn)槭褂贸叽绺〉母⌒酒?,一個(gè)晶圓上的缺陷芯片數(shù)量要少得多。
然而,圖形處理器的小芯片方法的關(guān)鍵問題肯定是延遲的增加。圖形處理器對增加的延遲極為敏感。著名的 Infinity Fabric 總線與 AMD 的圖形芯片主處理器是不可能的,因?yàn)樗恕?/p>
AMD 使用全新的 Infinity Link 總線(即 Infinity Fanout Links 系統(tǒng))連接 GDC 和 MCD 部件,從而在 GCD 和 MCD 小芯片部件之間實(shí)現(xiàn) 5.3 TB/s 的帶寬。這種超級先進(jìn)的互連系統(tǒng)無疑是小芯片 GPU 設(shè)計(jì)的關(guān)鍵決定因素。此外,AMD 計(jì)劃通過更高的運(yùn)行時(shí)鐘來消除延遲增加的問題。
Navi 31:重新設(shè)計(jì)的 CU 和更好的光線追蹤
說到時(shí)鐘速度,Navi 31 是多年來第一款針對著色器處理器(即 ROP 和紋理單元以及芯片的其他部分)具有不同時(shí)鐘速率的圖形處理器。著色器處理器的工作時(shí)鐘略低于芯片的其余部分。
目前最強(qiáng)版本的Navi 31圖形芯片(RX 7900 XTX)的GCD代碼共有96個(gè)CU(計(jì)算單元)單元,同樣數(shù)量的光線追蹤單元,6144個(gè)著色器處理器和192個(gè)ROP單元。與其前身 Navi 21 相比,AMD 對 Navi 31 圖形處理器中的計(jì)算單元 (CU) 進(jìn)行了重大重新設(shè)計(jì)和改進(jìn)。AMD 表示,Navi 31 芯片中的 CU 在相同的運(yùn)行時(shí)鐘下將 IPC 提高了 17.4%。
此外,關(guān)鍵的創(chuàng)新是現(xiàn)在 FP32 單元可以同時(shí)執(zhí)行兩個(gè)操作,AMD 稱之為 Dual Issue SIMD。這些處理器可以在每個(gè)數(shù)據(jù)路徑中處理兩條指令,與 RDNA 2 圖形處理器相比,理論上至少可以達(dá)到兩倍的指令速率。
然而,這只是理論上的可能性。作為這種設(shè)計(jì)的結(jié)果,在實(shí)踐中實(shí)際可以看到多少加速將在很大程度上取決于驅(qū)動程序中的編譯器。
RDNA 3 CU 單元的新穎之處當(dāng)然是獨(dú)立的 AI 加速器(總共 192 個(gè),每個(gè) CU 單元 2 個(gè)),用于加速矩陣乘法等操作?,F(xiàn)在的第二代光線追蹤單元也得到了改進(jìn)。
Navi 31 GCD 的光線追蹤單元支持額外的指令,光線追蹤得到改進(jìn)和優(yōu)化,并根據(jù)場景進(jìn)行分類。與 RDNA 2 架構(gòu)相比,AMD 承諾每個(gè) CU 的性能提升高達(dá) 50%。
最后,當(dāng)我們談到 Navi 31 中的 GCD 時(shí),與 RDNA 2 圖形芯片相比,L0、L1 和 L2 緩存內(nèi)存的數(shù)量有了顯著增加。
Radiance 顯示引擎 :165 Hz 時(shí) 8k!
如果我們回到小芯片 MCD,我們可以說 AMD 在使用 320 或 384 位總線方面增加了內(nèi)存帶寬,盡管仍然使用 GDDR6 內(nèi)存。有趣的是,L3 緩存或 Infitnity 緩存的數(shù)量小于 RDNA 2 Navi 21 圖形處理器的數(shù)量,以降低能耗。另一方面,與 RDNA 2 芯片的 1.2 TB/s 相比,Infinity 緩存現(xiàn)在的速度是 2.5 TB/s 的兩倍。

Navi 31 還帶來了顯著改進(jìn)的 GPU 部分,負(fù)責(zé)圖像顯示和多媒體。首先,新的 Radiance Display Engine 全面支持 DisplayPort 2.1,它可以通過單根電纜以 165 Hz 的 8k 分辨率或 480 Hz 的 4k 分辨率顯示圖像。每個(gè)通道還可以使用 12 位彩色顯示。與仍“僅”支持 DP 1.4 的最新 Nvidia 卡相比,這是一個(gè)很大的優(yōu)勢。
此外,Navi 31 還可以通過兩個(gè)獨(dú)立的編碼器/解碼器對 AV1 編碼和解碼進(jìn)行硬件加速,從而可以同時(shí)對兩個(gè)視頻流進(jìn)行轉(zhuǎn)碼或以每秒兩倍的幀數(shù)進(jìn)行轉(zhuǎn)碼。

AMD 通過 Navi 31 圖形芯片打破僵局,為圖形處理器世界帶來了真正革命性的小芯片 GPU 設(shè)計(jì)。這將在未來證明有多成功還有待觀察。潛力當(dāng)然是巨大的。在現(xiàn)代 GPU 中堆疊樂高積木的原理和小芯片的模塊化聽起來確實(shí)很有未來感。然而,主要目標(biāo)應(yīng)該是在圖形處理器的小芯片設(shè)計(jì)中組合多個(gè) GCD,這應(yīng)該會在未來將我們引入一個(gè)物理芯片上的多 GPU 配置時(shí)代。
編輯:黃飛
電子發(fā)燒友App

























評論