自從英偉達(dá)涉足移動(dòng)領(lǐng)域以來(lái),英偉達(dá)已經(jīng)很久沒在GPU這塊大動(dòng)筋骨了。往好的方面想,Tegra上面用到得GPU是當(dāng)前最好的了,從差的方面看的話,嚴(yán)格來(lái)說(shuō),這需要改進(jìn)了。英偉達(dá)經(jīng)常被指責(zé)是一個(gè)不成熟的生態(tài)系統(tǒng),認(rèn)為其不愿意為大型SOC支付所需的費(fèi)用,以給市場(chǎng)帶來(lái)高性能的SoC。值得慶幸的是這一切都開始改變了。在今年的早些時(shí)候,英偉達(dá)發(fā)布了到2015年的移動(dòng)SOC的roadmap,其中包括了2014年發(fā)布的Logan項(xiàng)目。這是英偉達(dá)第一款配備開普雷架構(gòu)GPU的移動(dòng)SOC。在昨天的Siggraph上,英偉達(dá)第一次展示了Logan的硅晶片。
英偉達(dá)大概三個(gè)禮拜前從晶圓廠拿到了這個(gè)硅片。我們幾乎可以肯定的是用的是28nm的某種工藝,而并不是之前說(shuō)的20nm樣片。
英偉達(dá)沒有具體談到他們的CPU內(nèi)核,但很大可能Logan會(huì)是另一個(gè)4+1內(nèi)核的設(shè)計(jì)。有可能仍然是基于ARM A15 IP(也有可能是另一個(gè)新版本的核心)。在英偉達(dá)已經(jīng)確認(rèn)了我們的猜測(cè),在GPU方面,Logan用到得是單個(gè)開普勒SMX:
一個(gè)開普勒SMX擁有192個(gè)CUDA核心。英特率沒有談到推出產(chǎn)品的GPU頻率。但他提供了圖表,讓我們確定可以從正確方向去考慮Logan GPU的能力。
別高興的太早,以上只是GFLOPS的對(duì)比,并不是游戲里面的真實(shí)性能表現(xiàn),理論上,移動(dòng)開普勒ALU的峰值比PS3或者Geforce8800GTX(內(nèi)存帶寬是另一回事)強(qiáng)。如果我們細(xì)心觀察這個(gè)圖表,我們將移動(dòng)開普勒和iPad4相比,我們就會(huì)知道英偉達(dá)需要怎樣的的時(shí)鐘速度才能達(dá)到這種水平的性能。在Photoshop上做一些快速估值,我們可以看出英偉達(dá)認(rèn)為移動(dòng)開普勒從某些方面來(lái)說(shuō),其FP基本上是iPad4用到得PowerVR SGX 554MP4 (76.8 GFLOPS)的5.2倍。得出的結(jié)果則是400 GFLOPS。隨著開普勒192核心的實(shí)現(xiàn),你在每個(gè)核心上可以得到2FLOPS,或者說(shuō)每個(gè)周期有384FLOPS。為了達(dá)到 400 GFLOPS,你需要把移動(dòng)開鋪率GPU的時(shí)鐘提到1GHZ。從架構(gòu)的角度來(lái)看,這完全是可行的(盡管我們?cè)?8nm的制程上面沒見過類似的產(chǎn)品)。但這對(duì)于智能手機(jī)來(lái)說(shuō)似乎有點(diǎn)性能過剩。
英偉達(dá)似乎不是很想去談關(guān)于頻率的事情,但他們說(shuō)道我們很快或許很快可以在某款平板上見到。我認(rèn)為時(shí)鐘頻率會(huì)偏低。即使只有一半的頻率,我們現(xiàn)在談?wù)摰目墒荘S3 GPU水平的FP在移動(dòng)SOC上
實(shí)現(xiàn)。我們對(duì)于Logan的內(nèi)存子系統(tǒng)也無(wú)從得知,很顯然這個(gè)在真實(shí)的游戲世界里面能夠起到很重要的作用。但我們未能得到真實(shí)的數(shù)據(jù)。這么多年來(lái)我們一直在鄙視英偉達(dá)的移動(dòng)GPU。但這次Logan貌似要改變這個(gè)格局。
API支持
和英偉達(dá)之前的Tegra GPU不同,開普勒架構(gòu)和OpenGLES3.0、OpenGL4.0和DirectX是完全兼容的。API的兼容是英偉達(dá)的一個(gè)巨大的進(jìn)步。這對(duì)于游戲開發(fā)者來(lái)說(shuō),他們需要慎重考慮其移動(dòng)領(lǐng)域。Epic的 Tim Sweeney還專門開了一個(gè)博客去討論英偉達(dá)Logan上的開普勒,并探討其在PC、下一代游戲機(jī)和游戲平臺(tái)上的功能差異性。英偉達(dá)回應(yīng)這是相當(dāng)于在Logan測(cè)試平臺(tái)上用Android運(yùn)行虛擬引擎4。這是一個(gè)了不得事情。有了Logan,使英偉達(dá)在移動(dòng)GPU和PC市場(chǎng)GPU的差距拉近。如果所有的平臺(tái)支持相同的API,那么游戲開發(fā)商在PC、游戲主機(jī)、平板和智能手機(jī)上面開發(fā)游戲的時(shí)候會(huì)變得更容易。Logan會(huì)使英偉達(dá)在API(沒有支持OpenGL ES 3.0 )支持的地位得到大大提升。
在GTC 2013上,英偉達(dá)帶來(lái)其demo IRA,它原來(lái)是在Titan上運(yùn)行的,后來(lái)就讓它在Logan開發(fā)板上運(yùn)行。過渡到移動(dòng)平臺(tái),Ira還需要做某些工作。其渲染分辨率下降到1080P。英偉達(dá)聲稱這個(gè)demo的工作功率為2到3瓦。
功耗問題
對(duì)于開普勒是否能夠執(zhí)行超低功耗問題的問題,尚未有定論。尤其是我們?cè)诮鼇?lái)看到他在PC端得高TDP(與平板和智能手機(jī)相比)。在Siggraph上,英偉達(dá)希望能夠在其演示板上用GLBenchmark 2.7來(lái)展示這些。 這個(gè)Demo用iPAD4和Logan開發(fā)平臺(tái)對(duì)比,同時(shí)會(huì)將Logan的開普勒GPU時(shí)鐘降到iPAD 4的性能來(lái)與其對(duì)比。對(duì)開普勒來(lái)說(shuō),低時(shí)鐘能夠?yàn)槠鋷?lái)一個(gè)優(yōu)勢(shì),那就是它會(huì)有一個(gè)非常低的工作電壓。因此對(duì)比的結(jié)果,肯定是英偉達(dá)贏了。
和Tegra3不同,Logan包括了一個(gè)單電壓軌,這只是為GPU供電的。英偉達(dá)測(cè)試電壓鬼,同時(shí)在GLB2.7上測(cè)量運(yùn)行1080P T-Rex 高清時(shí)候的功耗。英偉達(dá)Logan開普勒運(yùn)行的性能和iPAD4同樣的水平(Logan的峰值性能可能低1/5),功耗大約是900mw。英偉達(dá)試圖隔離GPU的電源軌,直達(dá)Apple的 A6X(用到我們上面談到的相似方法)。得出了一個(gè)2.6W的平均GPU功耗值。
對(duì)于GPU的功耗對(duì)比,我并不會(huì)太在意,因?yàn)槲也恢捞O果怎么處理其電源軌。最重要的是開普勒貌似能夠?qū)⑵涔慕档叫∮?W。而實(shí)際上英偉達(dá)在Logan上并不會(huì)達(dá)到這個(gè)值。因此我們?cè)谄甬a(chǎn)品上可以看到更高的性能,當(dāng)然,會(huì)有更大的功耗。如果這些數(shù)據(jù)是信得過的,你會(huì)看到基于Logan的智能手機(jī)的性能是iPad 4的兩倍。而在平板上的性能則會(huì)是iPad 4的4到5倍。如果英偉達(dá)能夠按時(shí)出貨,那么最快倒要十二個(gè)月后我們才能看到相關(guān)產(chǎn)品。
如果英偉達(dá)的A6X功耗對(duì)比真的是蘋果對(duì)蘋果,那么這將證明移動(dòng)開普勒完全是一個(gè)高效率的架構(gòu)。鑒于英偉達(dá)近期說(shuō)到的授權(quán)問題,我們認(rèn)為這個(gè)演示是一場(chǎng)精心策劃。
英偉達(dá)做了些努力讓開普勒適合低功耗。但就我理解,其底層架構(gòu)和我們?cè)诠P記本和臺(tái)式機(jī)上用到的架構(gòu)是大相徑庭的。英偉達(dá)和其他同行一樣,在移動(dòng)開普勒上保留了全部的圖形處理功能,但我認(rèn)為類似FP64 CUDA 這樣的核心會(huì)消失。
寫在最后:
在過去的幾年,我們談到在未來(lái)的某個(gè)時(shí)間,我們可以在移動(dòng)設(shè)備上玩游戲機(jī)類別的游戲(Xbox 360/PS3),我們離這又進(jìn)了一步。Logan開普勒對(duì)英偉達(dá)來(lái)說(shuō)是一件大事。它終于挽救了英偉達(dá)的移動(dòng)GPU。使從智能手機(jī)到高端桌面PC的圖形API對(duì)等。這對(duì)于注重多平臺(tái)開發(fā)的游戲商來(lái)說(shuō)是一件了不起的事情。這對(duì)移動(dòng)OS供應(yīng)商和設(shè)備制造者來(lái)說(shuō)也是一件大事,應(yīng)為他們可以一次為契機(jī),促使智能手機(jī)和平板升級(jí)。隨著智能手機(jī)和平板的升級(jí)周期放慢。對(duì)于設(shè)備制造商來(lái)說(shuō),推進(jìn)更高級(jí)的游戲是一個(gè)更有誘惑力的選擇。
Logan預(yù)計(jì)在2014年上半年出貨。從早期的硅片返回時(shí)間,我認(rèn)為10到12個(gè)月是一個(gè)合理的時(shí)間。但不能忽視的一個(gè)事實(shí)就是到目前為止我們還沒有看到Tegra4的設(shè)備,而英偉達(dá)又已經(jīng)開始討論Logan了。我聽到關(guān)于Tegra4的消息都是提上日程了。但由于英偉達(dá)的原因,被逼延誤。排除IP授權(quán)的原因,我不知道是否還有其他的原因,因?yàn)槲覀儸F(xiàn)在看到了Logan的演示,并看到了早期的硅片。對(duì)于工藝節(jié)點(diǎn),也是我們考慮的問題之一。在過渡到20nm之前,Logan應(yīng)該是在28nm工藝生產(chǎn)。如果英偉達(dá)在Logan上再延期,我們又可以看到另一個(gè)Tegra 3,推出工藝比較落后的新產(chǎn)品。
忽略工藝制程不考慮,開普勒在移動(dòng)端上面的功耗還是比較大的。第一眼看到GLBenchmark的數(shù)據(jù),我都不敢相信。我把它給到Ryan Smith,我們的高級(jí)GPU編輯,他也產(chǎn)生懷疑。如果英偉達(dá)真的能夠在得到iPAD 4性能的情況下能夠?qū)PU的功耗降到1W(普遍在2.5W到5W)。那么開普勒就真的是個(gè)大突破。
無(wú)論英偉達(dá)現(xiàn)在展示Logan是出于什么考慮。最起碼這讓我們非常興奮。帶有英偉達(dá)最新GPU的移動(dòng)Soc是我們期待已久的事情。
評(píng)論