在當前的顯卡市場上,占據(jù)80%的NVIDIA公司被玩家愛且恨著——他們帶來了最近十多年來最好的顯卡,同時也讓高端游戲卡的價格高企,發(fā)燒顯卡至少五位數(shù)起。
在RTX 30系列顯卡發(fā)布之后,玩家的不滿似乎釋然了,相比當前的圖靈顯卡,安培架構(gòu)的RTX 3090/3080/3070顯卡一下子變得真香了,因為它們性能翻倍不說,國內(nèi)價格反而下降了。
·GeForce RTX 3090:取代RTX Titan,相比于Titan RTX快了50%,性能是RTX 2080 Ti顯卡的2倍,配備24GB GDDR6X顯存,售價11999元,9月24日上市。
·GeForce RTX 3080:取代RTX 2080 Ti,相比于RTX 2080性能快2倍,搭配10GB GDDR6X顯存,海外699美元沒變,國內(nèi)從上代6499降至5499元,9月17日上市。
·GeForce RTX 3070:價格不到RTX 2080 Ti的一半,但是平均性能更高,同時比RTX 2070快足足60%,配備8GB GDDR6顯存,售價3899元,10月份上市。
RTX 30系列顯卡售價及上市時間
RTX 30系列顯卡性能變化
RTX 30系列顯卡規(guī)格
從這個規(guī)格表中可以看出,與RTX 2080 Ti顯卡相比,RTX 3090的標志性FP32性能從13.4T提升到了35.7T,翻倍還多,光追及AI加速提升也同樣明顯。
與圖靈顯卡相比,安培GPU的變化之大讓人驚訝,在過去十多年的顯卡升級換代中,性能翻倍的提升很少見到了,NVIDA是怎么做到的?
今天我們就來從詳細解讀一下安培GPU的架構(gòu),探究它到底帶來了哪些技術(shù)升級以致于讓NVIDIA創(chuàng)始人黃仁勛稱之為有史以來性能提升最大的一次。
先從工藝說起:12nm干掉7nm之后 8nm如何再進一步
對于半導(dǎo)體芯片來說,很關(guān)鍵的一部分是制程工藝,先進的架構(gòu)也要通過工藝來實現(xiàn),這是影響芯片能效、性能甚至成本的一大因素。
對NVIDIA來說,他們的Volta伏特、Turing圖靈兩代架構(gòu)都是臺積電12nm FFN工藝了,這是臺積電16nm工藝的改進版,如果再算上16nm的Pascal架構(gòu),實際上過去三代GPU都沒有重大工藝上的升級了。
在Ampere安培架構(gòu)上,NVIDIA終于升級工藝了,只不過這次有兩個意外——首先沒有選擇臺積電,其次沒有上7nm,而是三星定制的8nm工藝,雖然跟7nm看起來只差了1nm,但實際上是兩代工藝。
考慮到NVIDIA之前對工藝的表態(tài),沒用7nm工藝而是三星8nm工藝又在意料之中,最關(guān)鍵的問題在于NVIDIA能夠做到多好。
三星的8nm工藝是基于10nm工藝改良的,至少有LPP和LPU兩個版本,前者適合移動SoC,后者適合高性能芯片,NVIDIA的定制大概是基于后者。
與臺積電的7nm工藝晶體管密度大約1億/mm2相比,8nm工藝大概是6000萬晶體管/mm2,但這是單一的SRAM芯片的對比,實際上GPU芯片比較復(fù)雜,差距會縮小很多。
根據(jù)是NVIDIA公布的信息,臺積電7nm工藝制造的安培A100核心是540億晶體管,核心面積826mm2,而三星8nm工藝制造的GA102核心是280億晶體管,核心面積官方?jīng)]公布,據(jù)悉是628mm2,也是大核心了。
這么算下來,7nm A100核心的晶體管密度6560萬晶體管/mm2,而三星8nm的GA102核心也有4460萬晶體管/mm2——差距仍在,但似乎可以接受了。
三星8nm工藝的晶圓代工價格還是秘密,但是不論技術(shù)還是商業(yè)策略上,三星都會比臺積電便宜很多,預(yù)計代工價格能差30%或者更高,所以這也是RTX 30系列顯卡能夠不漲價甚至降價的關(guān)鍵。
那三星8nm工藝帶來了多大的性能及能效提升呢?首先大家可以看到RTX 30系列顯卡的頻率提升了,從RTX 20系列的1.5GHz+提升到了1.7GHz+,升級工藝還是有性能提升的。
不過RTX 20系列的加速頻率實際可以達到1.9GHz甚至接近2GHz,RTX 30系列預(yù)計也就這個水平。
但是能效還是有提升的,NVIDIA官方稱在60fps性能下,圖靈顯卡的功耗大約有240W,安培顯卡則是120W多點,算下來是1.9倍能效,提升了90%,同時溫度還低了3度,噪音減少2分貝。
總的來說,在工藝這方面大家對安培GPU有驚喜有失望,失望的是沒有上預(yù)期中的7nm工藝(不管臺積電還是三星),工藝依然升級到了8nm。
但是NVIDIA工藝雖然并不算激進,但性能、能效進步還是挺大的,安培顯卡各方面指標都是大幅勝過現(xiàn)在的圖靈卡,而且價格做到了不升反降,這也是不追求激進工藝的好處,反正之前12nm都能贏,現(xiàn)在上8nm更加穩(wěn)妥了。
安培GPU架構(gòu)詳解之:FP32單元翻倍 CUDA核心改了什么?
發(fā)布安培的時候,NVIDIA CEO黃仁勛表示這是GPU有史以來最大的性能飛躍,而2018年推出圖靈GPU時,老黃也是類似的說詞——GPU有史以來最大的變革,這兩個評價其實也沒錯。
圖靈GPU架構(gòu)有很多第一次,首次支持RTX Core(光追加速單元),首次支持Tensor Core,同時還改進了CUDA內(nèi)核,不過前兩個是重點。
在安培GPU上,RT Core、Tensor Core當然繼續(xù)加強,不過最主要的亮點是CUDA架構(gòu)的改進,性能翻倍的根源就在這里,我們先來看看這方面的變化。
GA102核心架構(gòu)示意圖
GA102核心總計7組GPC單元,每組有12組SM單元,總計84組,RTX 30系列顯卡視乎規(guī)格不同啟用的SM單元總數(shù)不同,RTX 3090是82組,RTX 3080是68組,RTX 3070是46組。
在之前的GA100大核心中,每組SM是64個INT32單元、64個FP32單元及32個FP64單元組成的,但在GA102核心中,F(xiàn)P64單元大幅減少,增加了RT Core,Tensor Core也略微減少。
GA102核心的SM單元
按照之前圖靈GPU的路線走,安培GPU的SM單元增加的并不多,但實際上FP32性能翻倍了還多,算上頻率,RTX 3080的理論性能差不多是RTX 2080的三倍了,這是怎么做到的?
答案就是CUDA核心的FP32翻倍,但翻倍的方式有點特殊,每個SM單元中有4個分區(qū),每個分區(qū)除了第三代Tensor Core核心之外,還有一組是16個FP32單元及16個FP32、16個IN32組成的單元,后者可以同時執(zhí)行FP32或者INT32運算。
16個FP32單元每周期可執(zhí)行16個FP32運算,混合的那個單元可以執(zhí)行32個FP32或者16個FP32+16個INT32。
如此一來,每個SM單元可以同時執(zhí)行4x(16FP32+16FP32)=128個FP32運算,或者4x(16FP32+16INT32)=64個FP32+64個INT32運算。
只算FP32浮點的話,那么就是浮點翻倍了,因為圖靈以及GA100都是每周期64個FP32浮點而已,現(xiàn)在可以做128個FP32運算了。
提升FP32性能不論對游戲還是運算都大有裨益,但也需要配套的提升,GA102的L1容量提升了33%,L1帶寬從116GB/s翻倍到219GB/s,共享內(nèi)存的性能也從每周期64B翻倍到128B。
審核編輯:符乾江
-
IC設(shè)計
+關(guān)注
關(guān)注
38文章
1369瀏覽量
107932 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5496瀏覽量
109117 -
gpu
+關(guān)注
關(guān)注
28文章
5102瀏覽量
134485
發(fā)布評論請先 登錄
NVIDIA RTX PRO 2000 Blackwell GPU性能測試
NVIDIA RTX PRO 4500 Blackwell GPU測試分析
NVIDIA桌面GPU系列擴展新產(chǎn)品
NVIDIA RTX AI加速FLUX.1 Kontext現(xiàn)已開放下載
使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)
NVIDIA RTX 4500 Ada與NVIDIA RTX A5000的對比
技嘉科技發(fā)布GeForce RTX 5090 D 和RTX 5080系列顯卡
技嘉CES 2025發(fā)布RTX 50系列顯卡,升級散熱縮小體積
NVIDIA GeForce RTX 50系列:AI計算機圖形新紀元
$1999 的 RTX 5090 來了

NVIDIA RTX 30系列架構(gòu)的詳細講解
評論