英偉達(dá)一直占據(jù)著深度學(xué)習(xí)數(shù)據(jù)中心業(yè)務(wù)上的主導(dǎo)地位,特別是它的K40是最先應(yīng)用于深度學(xué)習(xí)的首批GPU之一,在時(shí)代的發(fā)展過程中,之前一直沒有人可以撼動(dòng)它的地位,如今,谷歌推出TPU,是否會(huì)給英偉達(dá)造成俱到的威脅。
一年的時(shí)間,股價(jià)增長(zhǎng)兩倍以上,創(chuàng)始人成為《財(cái)富》雜志2017年度商業(yè)人物,這家公司就是風(fēng)頭正勁英偉達(dá)(NVIDIA)。在多年的耕耘之后,英偉達(dá)的憑借著先發(fā)優(yōu)勢(shì)和快速迭代在AI時(shí)代迅速崛起。如今,英偉達(dá)的GPU幾乎壟斷了AI芯片市場(chǎng),著實(shí)讓人眼紅。不過,大部分公司都不希望自己的命脈掌控在別人手中,于是谷歌推出了TPU,然后其他公司紛紛效仿,開始研發(fā)類似的深度學(xué)習(xí)專用芯片。那么類似TPU這種的專用芯片真的能對(duì)英偉達(dá)的GPU產(chǎn)生威脅嗎?
近日,ARK Invest的分析師James Wang撰文對(duì)這個(gè)問題進(jìn)行了全面剖析,AI科技大本營(yíng)對(duì)全文進(jìn)行了不改變?cè)獾姆g,希望能給讀者,給整個(gè)行業(yè)一點(diǎn)啟發(fā)。
過去兩年間,深度學(xué)習(xí)的熱潮使英偉達(dá)的數(shù)據(jù)中心業(yè)務(wù)增長(zhǎng)了五倍,同時(shí)也催生了行業(yè)競(jìng)爭(zhēng)。截至2017年,以打造深度學(xué)習(xí)專用芯片為目標(biāo)的創(chuàng)業(yè)公司已有十幾家。除此之外,Alphabet(谷歌母公司)、英特爾、高通、蘋果等一票大型上市科技公司也在計(jì)劃進(jìn)入深度學(xué)習(xí)芯片市場(chǎng)。
在日益加劇的競(jìng)爭(zhēng)下,英偉達(dá)還能在深度學(xué)習(xí)芯片市場(chǎng)中保持領(lǐng)先地位嗎?哪個(gè)新來者最有可能獲得成功?
GPU vs. TPU
目前的競(jìng)爭(zhēng)主要集中在TPU(張量處理單元)領(lǐng)域,這是一種用于加速?gòu)埩窟\(yùn)算的新型芯片,深度學(xué)習(xí)算法的核心工作負(fù)載就是張量運(yùn)算。Alphabet、英特爾、Wave Computing聲稱,TPU在執(zhí)行深度學(xué)習(xí)算法時(shí)要比GPU快十倍。對(duì)此差距的一種解釋是,GPU主要是為處理圖像而設(shè)計(jì)的,芯片中的很大一部分執(zhí)行單元并不參與深度學(xué)習(xí)運(yùn)算。以英偉達(dá)最新的Volta GPU為例, 在GPU核心(如下圖所示)中,只有右側(cè)的兩個(gè)張量核心(Tensor Cores)負(fù)責(zé)執(zhí)行深度學(xué)習(xí)運(yùn)算,左側(cè)的執(zhí)行單元要么很少使用,要么不太適合進(jìn)行深度學(xué)習(xí)運(yùn)算。而新成立的深度學(xué)習(xí)創(chuàng)業(yè)公司造出的芯片則似乎完全由張量核心和晶載內(nèi)存(on-chip memory)組成。理論上,這種TPU在利用率和性能上要優(yōu)于GPU。
不過目前看來,實(shí)際情況并非如此。在研發(fā)深度學(xué)習(xí)芯片的十幾家公司中,只有谷歌和Wave Computing擁有能夠工作的芯片,并正在進(jìn)行客戶測(cè)試。雖然谷歌宣稱自家的TPU在性能和能效的表現(xiàn)上要比GPU好很多,但是這一說法并沒有經(jīng)過獨(dú)立驗(yàn)證。谷歌的第二代“Cloud TPU”的功率大概為200多瓦,和英偉達(dá)的GPU處在同一范圍內(nèi)。而Wave Computing表示它的3U深度學(xué)習(xí)服務(wù)器可以在40分鐘內(nèi)訓(xùn)練完AlexNet,比英偉達(dá)的P100 DGX-1服務(wù)器快3倍。如果這是真的,當(dāng)然令人印象深刻,不過按照Wave Computing的說法,其TPU的處理速度本來要快1000倍。奇怪的是,這兩家公司生產(chǎn)的新芯片都沒有被廣泛地使用,這或許表明TPU的實(shí)際表現(xiàn)并不如GPU。
TPU之所以沒能超越GPU,英偉達(dá)的GPU架構(gòu)進(jìn)化得非常快是其中的一個(gè)重要原因。在經(jīng)歷了四代GPU的迭代之后,英偉達(dá)將其深度學(xué)習(xí)芯片的架構(gòu)效率提升了約10倍。下方的圖表顯示了各代GPU每秒鐘執(zhí)行100萬次深度學(xué)習(xí)運(yùn)算所需晶體管的數(shù)量。需要的晶體管數(shù)量越少,架構(gòu)的效率就越高。如果將所有芯片廠商的晶體管數(shù)量限制在同一水平,那么誰設(shè)計(jì)的架構(gòu)效率最高,誰的性能就最好。
英偉達(dá)的K40是最先應(yīng)用于深度學(xué)習(xí)的首批GPU之一,它每秒執(zhí)行100萬次運(yùn)算需要使用1400個(gè)晶體管。其繼任者M(jìn)40移除了深度學(xué)習(xí)算法不需要的硬件(FP64單元),它只需1000個(gè)晶體管就能實(shí)現(xiàn)和K40同樣的性能。英偉達(dá)在之后推出的P40 GPU上添加了對(duì)FP16指令添加的支持,使得P40的效能達(dá)到M40的兩倍。新推出的V100芯片在每個(gè)數(shù)據(jù)通道上添加了兩個(gè)專用張量核心,在架構(gòu)效能上是P40的3倍。 在過去幾年間,英偉達(dá)將其GPU 的架構(gòu)性能提升了大概10倍,這就是TPU到現(xiàn)在還無法替代GPU的主要原因。
軟件很重要
就算初創(chuàng)公司在深度學(xué)習(xí)硬件上可能占有優(yōu)勢(shì),但是在軟件上英偉達(dá)依舊遙遙領(lǐng)先。和主要使用兩大API(DirectX 和 OpenGL)的制圖任務(wù)不同,深度學(xué)習(xí)算法的軟件框架有十幾種之多。而且每種框架都有自己的擁護(hù)者:谷歌使用TensorFlow;Facebook使用Pytorch 和 Caffe;微軟使用CNTK;百度使用PaddlePaddle。由于英偉達(dá)最先入場(chǎng),它的產(chǎn)品支持以上提到的所有框架,而其競(jìng)爭(zhēng)對(duì)手大部分都只支持支持TensorFlow和Caffe。
如果深度學(xué)習(xí)編程是圍繞一個(gè)領(lǐng)先的框架進(jìn)行整合的,假設(shè)是TensorFlow,那么英偉達(dá)在軟件上的領(lǐng)先優(yōu)勢(shì)就會(huì)不再那么重要。但是目前開發(fā)者傾向于使用不同的深度學(xué)習(xí)框架,因此英偉達(dá)可以利用在軟件上的巨大優(yōu)勢(shì)領(lǐng)先對(duì)手。
終端設(shè)備市場(chǎng)有很大機(jī)會(huì)
許多創(chuàng)業(yè)公司選擇為連接型終端設(shè)備開發(fā)深度學(xué)習(xí)芯片,而不是與英偉達(dá)在服務(wù)器市場(chǎng)展開正面對(duì)決。這是一個(gè)新興市場(chǎng),沒有什么確立的領(lǐng)先者,而且每年生產(chǎn)的終端設(shè)備可達(dá)數(shù)百億臺(tái),對(duì)芯片的需求很大。終端設(shè)備所使用的芯片必須符合低至1瓦的功率要求。英偉達(dá)的SoC設(shè)計(jì)所要求的功率須達(dá)到幾十瓦,多數(shù)終端設(shè)備都不適用。實(shí)際上英偉達(dá)早已退出了這個(gè)市場(chǎng)。2017年5月,英偉達(dá)宣布將開源其深度學(xué)習(xí)加速器(DLA)的設(shè)計(jì),DLA是Xavier芯片上一種類似于TPU的單元。英偉達(dá)此舉表明終端設(shè)備市場(chǎng)的規(guī)模和差異太大,單靠一款芯片是無法滿足客戶的需求的,最終客戶只好要求定制化設(shè)計(jì),這和如今的智能手機(jī)市場(chǎng)很像。
在ARK看來,新來者在終端市場(chǎng)中成功的可能性最大。在接下來的幾年時(shí)間里,智能手機(jī)系統(tǒng)級(jí)芯片(SoC)很可能會(huì)像之前加入GPU和modem邏輯單元一樣加入TPU邏輯單元,并因此催生出一大批新的專利許可公司。例如,中國(guó)的寒武紀(jì)公司將其TPU設(shè)計(jì)許可給華為,用于生產(chǎn)麒麟970芯片。目前,蘋果、高通等老牌系統(tǒng)級(jí)芯片廠商內(nèi)部正在開發(fā)這種芯片技術(shù),并且會(huì)在接下來的一或兩個(gè)產(chǎn)品周期內(nèi)推出集成TPU的系統(tǒng)級(jí)芯片。(AI科技大本營(yíng)注:蘋果在已經(jīng)發(fā)布的A11 Bionic里已經(jīng)集成了神經(jīng)網(wǎng)絡(luò)引擎)
除了在智能手機(jī)上的應(yīng)用,深度學(xué)習(xí)還能為Mythic和Thinci這樣的新興公司提供巨大的市場(chǎng)機(jī)遇。雖然這些公司大部分會(huì)被收購(gòu),但是少數(shù)幾家可能會(huì)成為下一個(gè)Imagination Technologies(市值5億美元)、ARM(以320億美元被收購(gòu))或高通(市值780億美元)。
展望未來
在上世紀(jì)九十年代,英偉達(dá)曾與十幾家芯片廠商(如上圖所示)競(jìng)爭(zhēng),并最終成為勝利者?,F(xiàn)在,它正與新一批的競(jìng)爭(zhēng)對(duì)手在深度學(xué)習(xí)芯片上展開對(duì)決。盡管英偉達(dá)擊退了的第一波TPU廠商,但是現(xiàn)在它還沒有脫離危險(xiǎn)。今年年末,英特爾和GraphCore很可能會(huì)分別發(fā)布自家類TPU產(chǎn)品,借助完全不同的芯片設(shè)計(jì)超越英偉達(dá)的Volta GPU。不過根據(jù)過往經(jīng)驗(yàn),采用特殊的芯片架構(gòu)往往很難撼動(dòng)英偉達(dá)的地位。Crusoe、Itanium、Cell、Larrabee和 Niagara雖然都采用了創(chuàng)新的架構(gòu)設(shè)計(jì),但是在商業(yè)上卻一敗涂地。
除非獨(dú)立測(cè)試證明TPU的表現(xiàn)明顯優(yōu)于GPU,否則英偉達(dá)仍將繼續(xù)在深度學(xué)習(xí)數(shù)據(jù)中心業(yè)務(wù)上占據(jù)主導(dǎo)地位。至于終端設(shè)備,創(chuàng)業(yè)公司有大量的機(jī)會(huì)來借助人工智能技術(shù)徹底變革這個(gè)市場(chǎng)。下一個(gè)ARM可能就在我們中間。
評(píng)論