AMD RDNA的4年:又一個(gè)Zen還是新的Bulldozer? ? 2019年,AMD推出了一款新的GPU架構(gòu),這是該公司七年來(lái)首次推出主要的圖形芯片設(shè)計(jì)。自首次亮相以來(lái),該架構(gòu)經(jīng)歷了兩次修訂,強(qiáng)調(diào)了chiplet和緩存在渲染領(lǐng)域的重要性。鑒于這些發(fā)展,評(píng)估AMD憑借其工程能力所取得的成就并考慮每次更新的影響是有意義的。
我們將探索這項(xiàng)技術(shù),評(píng)估其在游戲中的表現(xiàn),并研究其對(duì)AMD的財(cái)務(wù)影響。
RDNA是否像Zen一樣取得了巨大的成功?或者,各種各樣的修改是否會(huì)給AMD帶來(lái)另一個(gè)“Bulldozer”時(shí)刻?讓我們來(lái)看看。
為什么GCN需要改變
目前AMD的GPU 分為兩個(gè)截然不同的產(chǎn)品領(lǐng)域,一個(gè)是針對(duì)游戲的,另一個(gè)是用于超級(jí)計(jì)算機(jī)、大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)系統(tǒng)的。
然而,它們都有著相同的傳統(tǒng)——一種被稱為Graphics Core Next(GCN)的架構(gòu)。它首次出現(xiàn)于2012年,盡管在此過(guò)程中進(jìn)行了一些重大修改,但仍使用了近10年。GCN是對(duì)其前身TeraScale的徹底改革,從一開(kāi)始,它就被設(shè)計(jì)為具有高度可擴(kuò)展性,在圖形和通用計(jì)算(GPGPU)應(yīng)用中同樣適用。
縮放是處理單元組合在一起的方式。從GCN的最初版本到最終版本,GPU的基礎(chǔ)由4個(gè)計(jì)算單元(CU)組成。
每個(gè)處理器都包含4個(gè)SIMD(單指令,多數(shù)據(jù))矢量單元,在16個(gè)數(shù)據(jù)點(diǎn)上執(zhí)行數(shù)學(xué)運(yùn)算,大小為32位,還有一個(gè)標(biāo)量單元用于基于整數(shù)的邏輯運(yùn)算。
每個(gè)矢量SIMD都有一個(gè)64 kB的寄存器文件,所有四個(gè)單元共享一個(gè)64 kB的暫存塊(稱為本地?cái)?shù)據(jù)共享,LDS),所有處理單元共享一個(gè)16 kB的L1數(shù)據(jù)緩存。四組CU共享一個(gè)16 kB的標(biāo)量緩存和一個(gè)32 kB的指令緩存,所有這些緩存都鏈接到一個(gè)GPU級(jí)的L2緩存。
到2018年GCN 5.1發(fā)布時(shí),這些都沒(méi)有太大變化,盡管對(duì)緩存層次結(jié)構(gòu)的操作方式進(jìn)行了多次改進(jìn)。然而,對(duì)于游戲世界來(lái)說(shuō),GCN有一些明顯的缺點(diǎn),但可以總結(jié)為,對(duì)于開(kāi)發(fā)者來(lái)說(shuō),從芯片中獲得處理吞吐量和帶寬利用率方面的最佳性能是一個(gè)挑戰(zhàn)。
例如,GPU以64個(gè)線程為一組(每個(gè)線程稱為一個(gè)波或波前)進(jìn)行調(diào)度,每個(gè)SIMD單元可以使用不同的波發(fā)出,最多排隊(duì)10個(gè)深度。然而,指令的發(fā)布率是每4個(gè)周期1次,因此為了確保單元保持繁忙,需要調(diào)度大量線程——這在計(jì)算世界中是可以實(shí)現(xiàn)的,而在游戲中則不然。
GCN的第一個(gè)版本擁有稱為異步計(jì)算引擎(ACE)的硬件結(jié)構(gòu)。當(dāng)涉及到在3D游戲中的渲染幀時(shí),GPU會(huì)由排在長(zhǎng)隊(duì)列中的系統(tǒng)發(fā)出命令。然而,它們并不都需要按照嚴(yán)格的線性順序完成,這就是ACE發(fā)揮作用的地方。
基于GCN的GPU基本上可以將隊(duì)列分成三種不同的類型(分別用于圖形命令、計(jì)算工作和數(shù)據(jù)事務(wù)),然后相應(yīng)地對(duì)它們進(jìn)行調(diào)度。然而,當(dāng)時(shí)Direct3D API對(duì)該系統(tǒng)沒(méi)有太多支持,盡管2015年Direct3D 12發(fā)布后,異步著色就風(fēng)靡一時(shí)。AMD利用了這一點(diǎn),使GCN更加專注于計(jì)算。
這一點(diǎn)從AMD在高端游戲顯卡市場(chǎng)推出的最新產(chǎn)品——售價(jià)700美元的Radeon VII(見(jiàn)下圖)中可以明顯看出。它在4096位寬總線上擁有60個(gè)cu(完整芯片有64個(gè)cu)和16gb HBM2內(nèi)存,絕對(duì)是一個(gè)GPU怪物。
與同樣售價(jià)700美元的GeForce RTX 2080相比,它在某些游戲中可能會(huì)更快,但大多數(shù)基準(zhǔn)測(cè)試結(jié)果表明,該架構(gòu)并不適合現(xiàn)代3D游戲世界。
GCN 5.1主要用于專業(yè)工作站卡,Radeon VII本質(zhì)上只不過(guò)是一款權(quán)宜之計(jì)的產(chǎn)品,專為游戲愛(ài)好者而設(shè)計(jì),而下一代GPU正準(zhǔn)備亮相。
僅僅四個(gè)月后,AMD發(fā)布了長(zhǎng)期運(yùn)行的GPU架構(gòu)的繼任者RDNA。通過(guò)這一新設(shè)計(jì),AMD成功解決了GCN的大部分故障,第一款采用這種架構(gòu)的顯卡Radeon RX 5700 XT清楚地突顯了它比GCN更適合游戲。
GPU的“一小步”
2017年推出Ryzen系列CPU時(shí),采用了新的Zen設(shè)計(jì),買(mǎi)家得到了全新的架構(gòu),從頭開(kāi)始重新構(gòu)建。RDNA的情況并非如此,因?yàn)榛靖拍钤诒举|(zhì)上仍然類似于GCN。然而,幾乎所有內(nèi)部的東西都經(jīng)過(guò)了調(diào)整,使游戲開(kāi)發(fā)者更容易從GPU中獲得最大可能的性能。?
每個(gè)CU的SIMD計(jì)數(shù)從4個(gè)切換到2個(gè),每個(gè)CU現(xiàn)在處理32個(gè)數(shù)據(jù)點(diǎn),而不是16個(gè)。調(diào)度單元現(xiàn)在可以以32或64的批處理線程,在前者的情況下,SIMD單元現(xiàn)在可以被發(fā)出,并在每個(gè)周期處理一條指令。
僅這兩個(gè)變化就使開(kāi)發(fā)人員更容易讓GPU保持忙碌,盡管這確實(shí)意味著編譯器在選擇正確的波大小進(jìn)行處理時(shí)需要做更多的工作。AMD為計(jì)算和幾何著色器選擇了32,為像素著色器選擇了64,盡管這并不是一成不變的。
CU現(xiàn)在是成對(duì)分組的(稱為工作組處理器,WGP),而不是四元組,雖然指令和標(biāo)量緩存仍然是共享的,但它們現(xiàn)在只需要為兩個(gè)CU提供服務(wù)。最初的16kB L1緩存被調(diào)整并重新標(biāo)記為L(zhǎng)0,而新的128kB L1現(xiàn)在為四個(gè)WGP提供服務(wù)——兩個(gè)WGP都具有128字節(jié)大小的緩存線(有助于提高內(nèi)部帶寬利用率)。
現(xiàn)在,GPU的每個(gè)部分都使用了無(wú)損數(shù)據(jù)壓縮,全面降低了延遲,甚至更新了紋理尋址單元。所有這些更改都有助于減少移動(dòng)數(shù)據(jù)、刷新緩存等所浪費(fèi)的時(shí)間。
但也許RDNA第一個(gè)版本最令人驚訝的方面不是架構(gòu)上的變化,而是它的第一次迭代是在中端、中等價(jià)位的顯卡上。Radeon RX 5700 XT中的Navi 10芯片并不是一塊巨大的硅片,里面裝有計(jì)算單元,而是只有251平方毫米的大小和40個(gè)CU。它與Radeon VII中的Vega 20 GPU在同一臺(tái)積電N7工藝節(jié)點(diǎn)上制造,體積小24%,這對(duì)晶圓產(chǎn)量來(lái)說(shuō)非常好。
然而,它的CU也減少了38%,盡管就晶體管數(shù)量而言,人們不可能指望所有額外的更新和緩存都是免費(fèi)的。但在游戲中測(cè)試時(shí),它的平均速度僅比Radeon VII慢9%,最重要的是,它便宜了300美元。
總的來(lái)說(shuō),它是新架構(gòu)的一個(gè)有希望的入口,因?yàn)镽DNA是朝著正確方向邁出的一步,盡管有點(diǎn)小。由于其性能介于Radeon RX Vega 56和Radeon VII之間,它在速度、功耗和零售價(jià)格之間取得了良好的平衡。
不過(guò),新GPU的推出并非沒(méi)有問(wèn)題,盡管RDNA在近30種不同的產(chǎn)品中找到了歸宿(通過(guò)三種芯片設(shè)計(jì)變體),但一些人對(duì)AMD沒(méi)有更強(qiáng)大的產(chǎn)品可供銷售感到失望。
幸運(yùn)的是,他們不用等太久這一問(wèn)題就能被解決。
RDNA第二輪
Radeon RX 5700 XT發(fā)布一年多后,當(dāng)世界正在與全球疫情作斗爭(zhēng)時(shí),AMD發(fā)布了RDNA 2。從表面上看,除了兩個(gè)新的東西之外,幾乎沒(méi)有什么變化——紋理單元被升級(jí),以便它們可以執(zhí)行光線三角形相交測(cè)試,并且添加了額外的最后一級(jí)緩存(LLC)。
前者是一個(gè)具有成本效益的補(bǔ)充,使GPU能夠以最少的額外晶體管數(shù)量處理光線跟蹤,但后者并不是零碎的產(chǎn)品,因?yàn)樗h(yuǎn)不止幾MB。在GPU歷史上,6MB的LLC被認(rèn)為是“大”的,所以當(dāng)AMD在第一個(gè)RDNA 2芯片Navi 21中硬塞進(jìn)128MB時(shí),它不僅震驚了GPU愛(ài)好者,而且永遠(yuǎn)改變了圖形處理器的發(fā)展方向。
雖然由于芯片制造方法的改進(jìn),處理器變得越來(lái)越快,能力也越來(lái)越強(qiáng),但DRAM卻很難跟上。要使數(shù)十億個(gè)微小的電容器收縮而不出現(xiàn)問(wèn)題要困難得多。不幸的是,GPU越強(qiáng)大,就需要越多的內(nèi)存帶寬來(lái)保持?jǐn)?shù)據(jù)。
英偉達(dá)選擇采用美光的GDDR6X技術(shù),并在GPU上添加大量?jī)?nèi)存接口來(lái)解決這個(gè)問(wèn)題。然而,這種RAM比標(biāo)準(zhǔn)GDDR6更貴,額外的接口只會(huì)使芯片尺寸更大。AMD的方法是利用其CPU部門(mén)的緩存技術(shù),并在其RDNA2芯片中注入大量LLC。
通過(guò)這樣做,對(duì)容納快速RAM的寬內(nèi)存總線的需求顯著減少,所有這些都有助于控制GPU芯片尺寸和顯卡價(jià)格。芯片尺寸在這里很重要,因?yàn)镹avi 21本質(zhì)上是兩個(gè)Navi 10(總共80個(gè)CU),都被一堵緩存墻包圍。
后者由103億個(gè)晶體管組成,而新芯片容納了這個(gè)數(shù)字的兩倍多——268億個(gè)。額外的62億美元主要用于所謂的無(wú)限緩存,盡管還有其他變化。AMD對(duì)整個(gè)架構(gòu)進(jìn)行了重新調(diào)整和精簡(jiǎn),使RDNA 2芯片能夠以比其前身更高的時(shí)鐘速率運(yùn)行。
當(dāng)然,如果最終產(chǎn)品不好,這些都無(wú)關(guān)緊要。盡管Radeon RX 6900 XT的售價(jià)為1000美元,但它提供了GeForce RTX 3090級(jí)別的性能,價(jià)格比它低500美元。它并不總是處于平均水平,根據(jù)所使用的游戲和分辨率,700美元的GeForce RTX 3080也一樣快。
在這個(gè)價(jià)位,AMD的Radeon RX 6800 XT和RX 6800分別比RTX 3080低50美元和120美元。6800和RTX 3090的性能相差近30%,但價(jià)格相差63%。AMD可能沒(méi)有贏得性能桂冠,但不可否認(rèn),在GPU價(jià)格無(wú)處不在的時(shí)候,這些產(chǎn)品仍然非常強(qiáng)大,物有所值。
但與此相反的是光線追蹤性能。簡(jiǎn)言之,它遠(yuǎn)不如英偉達(dá)的Ampere GPU所實(shí)現(xiàn)的好,盡管考慮到這是AMD首次涉足物理正確光建模領(lǐng)域,其功能并不令人驚訝。
英偉達(dá)選擇設(shè)計(jì)和實(shí)現(xiàn)兩個(gè)大型定制ASIC(專用集成電路),用于處理射線三角形相交和BVH(邊界體積層次結(jié)構(gòu))遍歷計(jì)算,AMD選擇了一種更溫和的方法。對(duì)于后者,將沒(méi)有專門(mén)的硬件,通過(guò)計(jì)算單元處理例程。
這個(gè)決定是基于保持模具尺寸盡可能小。Navi 21芯片相當(dāng)大,面積為521平方毫米,雖然英偉達(dá)很樂(lè)意提供更大的處理器(RTX 3090中的GA102面積為628平方毫米),但增加定制單元會(huì)使該領(lǐng)域更加突出。
同年11月,微軟和索尼發(fā)布了他們的新Xbox和PlayStation游戲機(jī),這兩款游戲機(jī)都采用了定制的AMD GPU(CPU和GPU在同一個(gè)芯片中),它使用RDNA 2來(lái)處理圖形方面的問(wèn)題,不包括Infinity Cache。由于需要保持這些芯片盡可能小,AMD選擇這一特定路線的原因變得非常清楚。
這一切都是為了改善其圖形部門(mén)的財(cái)務(wù)狀況。
資金和利潤(rùn)很重要
在2021年下半年之前,AMD僅將其收入和營(yíng)業(yè)收入數(shù)據(jù)分為兩個(gè)部門(mén):處理器和顯卡,以及企業(yè)、嵌入式和半定制。筆記本電腦中顯卡和獨(dú)立GPU的銷售收入流入前者,而Xbox和PlayStation主機(jī)的APU銷售收入流入后者。
下圖是2018年第一季度到2021年第一季度的營(yíng)業(yè)利潤(rùn)率情況。
RDNA于2019年第二季度推出,但這種銷售的收入要到下個(gè)季度才會(huì)真正開(kāi)始顯現(xiàn),因?yàn)橹挥袃煞N型號(hào)的顯卡安裝了這種新芯片。我們無(wú)法判斷運(yùn)營(yíng)利潤(rùn)率的增長(zhǎng)是否得益于GPU架構(gòu),因?yàn)檫@些數(shù)據(jù)還包括CPU銷售。
然而,從2021年第二季度開(kāi)始,AMD將報(bào)告部門(mén)重新劃分為四個(gè)部門(mén):數(shù)據(jù)中心、客戶端、游戲和嵌入式。第三個(gè)部門(mén)涵蓋了所有與GPU相關(guān)的內(nèi)容,包括最終出現(xiàn)在主機(jī)中的APU,并且畫(huà)面更加清晰。
現(xiàn)在可以看到,AMD的顯卡部門(mén)的利潤(rùn)是四個(gè)部門(mén)中最弱的。AMD曾表示,在2022財(cái)年,僅一家客戶就貢獻(xiàn)了該公司全部收入的六分之一,其他人猜測(cè)這家客戶就是索尼。如果情況確實(shí)如此,那么PlayStation 5 APU的銷售額就占了游戲行業(yè)收入的50%以上。?
在那個(gè)財(cái)政年度,獨(dú)立顯卡的發(fā)貨量急劇下降,毫無(wú)疑問(wèn),該部門(mén)的運(yùn)營(yíng)利潤(rùn)率是由游戲機(jī)銷售保持的。AMD使用臺(tái)積電制造絕大部分芯片,但訂單必須提前幾個(gè)月下——如果處理器在制造后沒(méi)有很快售出,它們必須留在配送中心,這損害了這段時(shí)間的利潤(rùn)率。
目前還沒(méi)有足夠的信息來(lái)判斷AMD在RDNA上的投資是否盈利,因?yàn)椴豢赡軐?duì)Zen的投資與數(shù)據(jù)中心和游戲的利潤(rùn)分開(kāi)。但收入數(shù)據(jù)顯示,在以上6個(gè)季度中,平均16億美元的收入導(dǎo)致了平均15%的營(yíng)業(yè)利潤(rùn)率——只有客戶端部門(mén)低于這個(gè)數(shù)字,這主要是由于個(gè)人電腦銷售的下滑。
與此同時(shí),在同一時(shí)期,英偉達(dá)的圖形部門(mén)(包括臺(tái)式機(jī)、筆記本電腦、工作站和汽車等的圖形處理器)平均每季度收入約為36億美元,平均營(yíng)業(yè)利潤(rùn)率為43%。這家綠色巨頭在獨(dú)立GPU市場(chǎng)上的市場(chǎng)份額比AMD大,所以更高的收入數(shù)字并不令人驚訝,但營(yíng)業(yè)利潤(rùn)率卻令人大開(kāi)眼界。?
大部分PS5的APU是一個(gè)RDNA2 GPU。來(lái)源:Fritzchen Fritz
但值得考慮的是,AMD賣(mài)給微軟和索尼的APU不會(huì)有很大的利潤(rùn),因?yàn)槿绻麄冇?,你就不可能?00美元買(mǎi)到一臺(tái)最新的游戲機(jī)了。一體機(jī)芯片的大規(guī)模生產(chǎn)有利于增加收入,但對(duì)直接利潤(rùn)的影響不大。
如果去掉主機(jī)芯片帶來(lái)的收入,假設(shè)它們產(chǎn)生10%的利潤(rùn),這就意味著RDNA產(chǎn)生了相當(dāng)多的利潤(rùn)——運(yùn)營(yíng)利潤(rùn)率可能高達(dá)20%。雖然比不上英偉達(dá),但我們都知道為什么這家公司的利潤(rùn)率如此之高。
Chiplets與計(jì)算
對(duì)于AMD來(lái)說(shuō),RDNA 2無(wú)疑是一個(gè)工程上的成功,該設(shè)計(jì)在近50種不同的產(chǎn)品中得到了應(yīng)用。然而,從財(cái)務(wù)角度來(lái)看,與其他領(lǐng)域相比,GPU一直處于次優(yōu)地位。與此同時(shí),AMD發(fā)布了對(duì)RDNA的首次更新,該公司還宣布了一種新的僅用于計(jì)算的架構(gòu),稱為CDNA。
這是GCN的哥斯拉,第一個(gè)使用該設(shè)計(jì)的芯片(Arcturus)擁有128個(gè)CU,在750 mm2的芯片中。計(jì)算單元已經(jīng)升級(jí)為專用矩陣單元(類似于英偉達(dá)的Tensor),在接下來(lái)的一年里,AMD將兩個(gè)巨大的處理器裝進(jìn)了一個(gè)724平方毫米的芯片中。它的代號(hào)為Alderbaran(下圖),很快成為許多超級(jí)計(jì)算機(jī)項(xiàng)目的首選GPU。
回到游戲圖形領(lǐng)域,AMD希望更多地利用其CPU專長(zhǎng)。RDNA 2中的無(wú)限緩存是由于為其Zen處理器開(kāi)發(fā)高密度L3緩存和無(wú)限Fabric互連系統(tǒng)而產(chǎn)生的。
因此,對(duì)于RDNA 3來(lái)說(shuō),很自然地,它將使用另一個(gè)CPU成功:chiplets。
但是怎么做呢?在中央處理器中物理分離內(nèi)核要容易得多,因?yàn)樗鼈兺耆?dú)立運(yùn)行。在絕大多數(shù)AMD的臺(tái)式PC、工作站和服務(wù)器cpu中,你會(huì)發(fā)現(xiàn)至少有兩個(gè)所謂的chiplets:一個(gè)容納核心(核心復(fù)雜芯片,CCD),另一個(gè)容納所有輸入/輸出結(jié)構(gòu)(IOD)。它們之間的主要區(qū)別是CCD的數(shù)量。?
在GPU中做這樣的事情是一項(xiàng)艱巨得多的任務(wù)。Navi 21 GPU是一個(gè)由四個(gè)獨(dú)立處理器組成的大塊,每個(gè)處理器包含10個(gè)WGP、光柵化器、渲染后端和L1緩存。有人可能會(huì)認(rèn)為這些將是分離成離散chiplets的理想選擇,但是大量數(shù)據(jù)事務(wù)所需的互連系統(tǒng)將抵消任何成本節(jié)約,并增加了許多不必要的復(fù)雜性和功耗。
對(duì)于RDNA 3, AMD采取了一種更慎重的方法,一種產(chǎn)生于越來(lái)越小的工藝節(jié)點(diǎn)所面臨的限制。當(dāng)臺(tái)積電等公司宣布一種新的制造工藝時(shí),通常會(huì)提出更高的性能、更低的功耗和更高的晶體管密度。
然而,后者是一個(gè)整體數(shù)字——晶體管和其他與邏輯和處理相關(guān)的電路當(dāng)然在繼續(xù)縮小,但與信號(hào)和存儲(chǔ)器有關(guān)的任何東西都沒(méi)有縮小。SRAM使用一組晶體管作為易失性存儲(chǔ)器的一種形式,但這種排列不能像邏輯那樣被壓縮。?
隨著USB、DRAM等的信號(hào)傳輸速度不斷提高,將這些電路更緊密地封裝在一起會(huì)導(dǎo)致各種干擾問(wèn)題。臺(tái)積電的N5工藝節(jié)點(diǎn)的邏輯密度可能比N7高20%,但SRAM和IO電路只好幾個(gè)百分點(diǎn)。
這就是為什么AMD選擇將VRAM接口和L3無(wú)限緩存推到一個(gè)芯片中,而將GPU的其余部分推到另一個(gè)芯片中。前者可以用更便宜、更不先進(jìn)的工藝制造,而后者可以利用更好的東西。
2022年11月,AMD以Navi 31 GPU的形式推出了RDNA 3。主芯片(稱為圖形計(jì)算芯片,GCD)是在臺(tái)積電的N5工藝節(jié)點(diǎn)上制造的,包含96個(gè)計(jì)算單元,芯片面積僅為150平方毫米。圍繞它的是6個(gè)內(nèi)存緩存芯片(MCD),每個(gè)芯片只有31mm2的硅,包括16MB的無(wú)限緩存,兩個(gè)32位GDDR6接口和一個(gè)無(wú)限鏈接系統(tǒng)。
如果AMD在Navi 31上堅(jiān)持采用單片方法,那么整個(gè)芯片的尺寸可能只有500到540平方毫米左右,并且不需要在所有chiplets之間建立復(fù)雜的連接網(wǎng)絡(luò),那么將它們?nèi)糠庋b起來(lái)也會(huì)更便宜。
AMD已經(jīng)為這一切計(jì)劃了很多年,所以它顯然在盈利方面做得很好。這一切都源于晶圓產(chǎn)量和芯片制造成本的增加。讓我們用一些估計(jì)的價(jià)格來(lái)強(qiáng)調(diào)這一點(diǎn)——用于制造MCD的單個(gè)N6晶圓可能是12,000美元,但它可以產(chǎn)生超過(guò)1,500個(gè)這樣的芯片(每個(gè)芯片8美元)。一塊1.6萬(wàn)美元的N5晶圓可能生產(chǎn)150塊GCD,每個(gè)晶圓的價(jià)格為107美元。
將一張GCD與6張MCD組合在一起,在你需要將它們包裝在一起的成本加進(jìn)去之前,你需要花費(fèi)154美元左右。另一方面,來(lái)自N5晶圓的單個(gè)540 mm2芯片的成本可能在250美元左右,因此使用chiplets的成本效益是顯而易見(jiàn)的。
前沿與保守變革
與RDNA 3小片段的使用一樣大膽,其余的更新則更為保守。寄存器文件以及L0、L1和L2緩存的大小都增加了,但是L3無(wú)限緩存的大小減小了。每個(gè)SIMD單元擴(kuò)展到同時(shí)處理64個(gè)數(shù)據(jù)點(diǎn),因此wave64處理現(xiàn)在是單周期的。
光線追蹤性能得到了適度的提升,通過(guò)調(diào)整單元來(lái)提高光線三角形相交的吞吐量,但在這方面沒(méi)有其他專門(mén)的硬件。CDNA的矩陣單元也沒(méi)有被復(fù)制到RDNA上——這樣的操作仍然由計(jì)算單元處理,盡管RDNA 3確實(shí)有一個(gè)“人工智能加速器”(AMD對(duì)這個(gè)單元的功能幾乎沒(méi)有說(shuō))。 ?
新設(shè)計(jì)的處理性能引起了相當(dāng)大的轟動(dòng),“雙重問(wèn)題”一詞被廣為流傳。當(dāng)使用時(shí),它允許SIMD單元同時(shí)評(píng)估兩條指令,AMD的營(yíng)銷部門(mén)通過(guò)聲明RDNA 2的峰值FP32吞吐量加倍來(lái)證明這一點(diǎn)。
唯一的問(wèn)題是,執(zhí)行雙重指令的能力嚴(yán)重依賴于編譯器(將程序代碼轉(zhuǎn)換為GPU操作的驅(qū)動(dòng)程序中的程序)能夠發(fā)現(xiàn)何時(shí)可能發(fā)生這種情況。編譯器在這方面做得并不好,通常需要訓(xùn)練有素的人眼輸入才能獲得最佳結(jié)果。
搭載RNDA 3芯片的最強(qiáng)大顯卡是Radeon RX 7900 XTX,它一上市就受到了好評(píng),價(jià)格為1000美元。雖然通常不如英偉達(dá)的GeForce RTX 4090快,但它肯定可以與RTX 4080相媲美,從那以后的幾個(gè)月里,AMD的降價(jià)使它成為一個(gè)更好的選擇。
光線追蹤再一次不是一個(gè)優(yōu)勢(shì),盡管聲稱提高了電源效率,但許多人對(duì)Navi 31所需的電量感到驚訝,尤其是在空閑時(shí)。雖然它確實(shí)比以前的Navi 21需要更少的功率,但對(duì)Infinity Link系統(tǒng)的需求部分抵消了使用更好的處理節(jié)點(diǎn)所帶來(lái)的好處。
與RDNA 2相比,另一個(gè)不足之處是產(chǎn)品范圍的廣度。在撰寫(xiě)本文時(shí),RDNA 3可以在18個(gè)不同的產(chǎn)品中找到,盡管市場(chǎng)狀況可能迫使AMD在這件事上采取行動(dòng)。
對(duì)一些人來(lái)說(shuō),更糟糕的是,當(dāng)中低端RDNA 3顯卡最終出現(xiàn)時(shí),它們相對(duì)于舊設(shè)計(jì)的性能改進(jìn)有些被低估了——以Radeon RX 7800 XT為例,它只比即將推出的RX 6800 XT快了幾個(gè)百分點(diǎn)。
chiplets的使用似乎并沒(méi)有給AMD的營(yíng)業(yè)利潤(rùn)率帶來(lái)多少好處。在RDNA 3出現(xiàn)后的三個(gè)季度中,游戲部門(mén)的收入和利潤(rùn)率基本保持不變。當(dāng)然,新的GPU實(shí)際上有可能有所改善,因?yàn)槿绻刂婆_(tái)APU銷量下降,那么財(cái)務(wù)狀況保持不變的唯一途徑似乎是GPU變得更有利可圖。
然而,AMD不再只向微軟和索尼銷售APU。掌上電腦,如Valve的Steam Deck,越來(lái)越受歡迎,由于所有這些電腦都配備了AMD芯片,這些銷售額將為游戲部門(mén)的銀行余額做出貢獻(xiàn)。
RDNA的未來(lái)
如果盤(pán)點(diǎn)一下AMD在四年時(shí)間里通過(guò)RDNA所取得的成就,并評(píng)估這些變化的總體成功,最終結(jié)果將從Bulldozer和Zen之間得出。前者最初對(duì)該公司來(lái)說(shuō)是一場(chǎng)近乎災(zāi)難性的產(chǎn)品,但多年來(lái)因制造成本低廉而挽回了自己。另一方面,Zen從一開(kāi)始就表現(xiàn)出色,并迫使整個(gè)CPU市場(chǎng)發(fā)生了翻天覆地的變化。
在這段時(shí)間里,AMD在獨(dú)立GPU領(lǐng)域的市場(chǎng)份額略有波動(dòng),有時(shí)會(huì)超過(guò)英偉達(dá),有時(shí)會(huì)失去,但總的來(lái)說(shuō),它保持不變。?
自成立以來(lái),游戲部門(mén)已經(jīng)獲得了少量但穩(wěn)定的利潤(rùn),盡管利潤(rùn)率目前似乎在下降,但沒(méi)有跡象表明厄運(yùn)即將來(lái)臨。事實(shí)上,僅就利潤(rùn)率而言,這是AMD第二好的部門(mén)。即使不是這樣,AMD從嵌入式業(yè)務(wù)中賺取的現(xiàn)金(多虧了收購(gòu)賽靈思)也綽綽有余,足以避免任何短期的整體虧損。
但AMD接下來(lái)將走向何方?
只有三種前進(jìn)的道路:第一種是保持目前的小架構(gòu)更新進(jìn)程,繼續(xù)積累微薄的利潤(rùn),并保持整個(gè)GPU市場(chǎng)的一小部分。第二種是放棄高端桌面GPU領(lǐng)域,完全專注于主導(dǎo)預(yù)算和低端市場(chǎng),專注于進(jìn)一步縮chiplet尺寸和提高晶圓產(chǎn)量的技術(shù)。
第三條路線與第二條截然相反——忘記“物有所值”和擁有一個(gè)可以擴(kuò)展到所有可能級(jí)別的架構(gòu),并盡一切努力確保它是Radeon顯卡,而不是GeForce顯卡,在每個(gè)性能圖表中都名列前茅。
英偉達(dá)在RTX 4090上實(shí)現(xiàn)了這一點(diǎn),因?yàn)樗褂昧伺_(tái)積電最好的工藝節(jié)點(diǎn),就著色單元而言,它是能買(mǎi)到的最大的消費(fèi)級(jí)GPU。沒(méi)有什么花哨的把戲——這是一種蠻力的方法,而且效果很好。RTX 4080中的整個(gè)AD103芯片僅比Navi 31中的GCD大20%,并且具有相當(dāng)相似的性能。
然而,RDNA一直致力于最大限度地利用現(xiàn)有的處理能力。RDNA 2/3中緩存系統(tǒng)的復(fù)雜性證明了這一點(diǎn),因?yàn)?a href="http://www.brongaenegriffin.com/tags/英特爾/" target="_blank">英特爾和英偉達(dá)在他們的GPU中使用了更簡(jiǎn)單的結(jié)構(gòu)。
說(shuō)到緩存,決定將大量的最后一級(jí)緩存插入RDNA GPU以抵消對(duì)超高速VRAM的需求,并提高光線追蹤性能,幾乎可以肯定是英偉達(dá)在Ada Lovelace架構(gòu)上做同樣事情的靈感。
現(xiàn)在正處于GPU發(fā)展的一個(gè)階段,不同廠商設(shè)計(jì)圖形處理器的差異相對(duì)較小,僅從架構(gòu)設(shè)計(jì)就能看到性能的巨大改進(jìn)的日子已經(jīng)一去不復(fù)返了。
未來(lái)的RDNA GPU會(huì)像英特爾的Ponte Vecchio一樣多的芯片嗎?
如果AMD想要獨(dú)占鰲頭,它就需要推出一款擁有比我們目前看到的更多計(jì)算單元的RDNA GPU?;蛘咧皇歉心芰Φ摹猂DNA 3中SIMD單元的變化可能是一個(gè)信號(hào),表明在下一個(gè)版本中,我們可能會(huì)看到CU使用四個(gè)SIMD而不是兩個(gè),以消除所有的雙重發(fā)行限制。
但即便如此,AMD仍需要擁有更多的CU,而實(shí)現(xiàn)這一目標(biāo)的唯一途徑是擁有更大的GCD,這意味著接受更低的產(chǎn)量或?qū)⑿酒D(zhuǎn)移到更好的工藝節(jié)點(diǎn)上。當(dāng)然,這兩項(xiàng)都會(huì)影響利潤(rùn)率,而且與英偉達(dá)不同,AMD似乎不愿將GPU價(jià)格推高。
它也不太可能采取第二條路線,因?yàn)橐坏┩瓿闪诉@一點(diǎn),就幾乎沒(méi)有機(jī)會(huì)回來(lái)了。GPU的歷史上有很多公司嘗試過(guò),失敗過(guò),一旦他們停止了在高端市場(chǎng)的競(jìng)爭(zhēng),就永遠(yuǎn)消失了。
這就剩下了一個(gè)選擇——繼續(xù)當(dāng)前的行動(dòng)方針。在架構(gòu)方面,英偉達(dá)已經(jīng)對(duì)其著色器內(nèi)核進(jìn)行了多年的重制,只有過(guò)去兩代才顯示出許多相似之處。它還在開(kāi)發(fā)和營(yíng)銷機(jī)器學(xué)習(xí)和光線追蹤功能方面投入了大量資源,前者與GeForce品牌有著獨(dú)特的聯(lián)系。
AMD多年來(lái)開(kāi)發(fā)了許多技術(shù),但在RDNA時(shí)代,它們都沒(méi)有特別要求Radeon顯卡來(lái)使用它們。憑借其Zen架構(gòu)和其他CPU發(fā)明,AMD將計(jì)算世界帶入了未來(lái),迫使英特爾提高其游戲水平。它為大眾帶來(lái)了高能效的多線程處理——不是通過(guò)成為英特爾的廉價(jià)替代品,而是通過(guò)競(jìng)爭(zhēng)。勝利,迎頭而上。
不可否認(rèn),RDNA是一個(gè)成功的設(shè)計(jì),因?yàn)樗氖褂檬侨绱藦V泛,但它肯定不是Zen。如果游戲行業(yè)想要發(fā)展的話,僅僅做到物有所值或者以開(kāi)源方式獲得社區(qū)的喜愛(ài)是不夠的。AMD似乎擁有實(shí)現(xiàn)這一目標(biāo)的所有工程技術(shù)和訣竅;他們是否會(huì)冒險(xiǎn)完全是另一回事。
俗話說(shuō),幸運(yùn)眷顧勇者。
編輯:黃飛
評(píng)論