四、大腦的運作就像GPU的計算
大家要問為什么AI研究人員選擇GPU,Alex他們發(fā)現(xiàn)GPU的并行運算實際是非常符合深度學(xué)習(xí)網(wǎng)絡(luò)的計算特征。那么進一步來講,為什么GPU對深度學(xué)習(xí)來講是非常適合的工具呢?我想給大家講一個不是那么嚴(yán)肅的例子說明一下為什么GPU非常重要。
大腦就像一個GPU。比如我讓大家想象乒乓球,大家閉上眼睛,你們大腦會形成一個幾個人打乒乓球的圖像,如果讓大家想象功夫熊貓,那么腦子里會出現(xiàn)是類似的功夫熊貓圖像。所以我們的大腦在思考時會生成一些圖片。反過來,GPU的構(gòu)架也像大腦一樣,它不是由一個處理器進行序列的運算,我們的GPU有上千個處理器,非常小的處理器組合在一起來共同解決問題,這上千個處理器會進行數(shù)學(xué)計算、互相連接、分享信息,最終能夠解決一個很大的問題,就好像是我們的大腦一樣。所以說大腦就像GPU,因為大腦可以產(chǎn)生圖片,而GPU也像人的大腦一樣,所以有可能這種新的計算模式、新的計算模型可以解決虛擬現(xiàn)實的問題,它確實是非常適合GPU的。
深度學(xué)習(xí)是一種新的計算模式,它會涉及軟件的方方面面。深度學(xué)習(xí)首先要設(shè)計一個網(wǎng)絡(luò)并且對網(wǎng)絡(luò)進行訓(xùn)練,針對一個網(wǎng)絡(luò)的訓(xùn)練需要幾十億甚至更多的操作,涉及上百萬甚至有更多的數(shù)據(jù),通過這些數(shù)據(jù)對網(wǎng)絡(luò)進行訓(xùn)練,需要很長的時間。如果沒有一個GPU,這個過程可能需要好幾個月,但GPU把這個時間壓縮到幾天內(nèi),這也是為什么GPU能夠幫助大家更好地解決問題。
五、尋找比摩爾定律進化得更快的計算模式
訓(xùn)練是深度學(xué)習(xí)的一個基礎(chǔ),這個網(wǎng)絡(luò)有了之后,你希望運用這個網(wǎng)絡(luò)來進行預(yù)測,進行推理,進行歸類,要對一個信息進行推理,比如有幾十億人每天在網(wǎng)上問很多的問題,有可能是圖片,文字,語音,將來有可能是視頻這種形式。在數(shù)據(jù)中心當(dāng)中GPU推理能夠非??斓仨憫?yīng)。所以深度學(xué)習(xí)的第一部分是訓(xùn)練,第二部分是推理。
深度學(xué)習(xí)的第三部分,有些人叫IoT,智能設(shè)備、智能終端,也許是攝像頭、汽車、機器人,也許是話筒,這樣互聯(lián)設(shè)備就變成了智能設(shè)備。物聯(lián)網(wǎng)需要有AI進行驅(qū)動,需要深度神經(jīng)網(wǎng)絡(luò)進行驅(qū)動,大量的智能終端根本目標(biāo)是需要去識別去歸類進行交互,要快要準(zhǔn)確,并且盡量在低功耗狀態(tài)下實現(xiàn)所有這些功能。
在接下來這些時間,軟件的開發(fā)會和以前不一樣,我們運行軟件的方法也會不一樣,在上面的運算也會不一樣,很多設(shè)備上要運行什么東西會不一樣,所以深度學(xué)習(xí)將會影響到到計算的各個方面。
現(xiàn)在我們看一下訓(xùn)練,首先我們應(yīng)該意識到訓(xùn)練的復(fù)雜性。前面提到了訓(xùn)練可能是幾十億甚至萬億的運算,模型越大數(shù)據(jù)越多,結(jié)果就會越準(zhǔn)確,數(shù)據(jù)多,加上大模型、大的計算量將會帶來深度學(xué)習(xí)更好的結(jié)果,這是非常根本的、非常重要的。
微軟有一個叫ResNet的識別網(wǎng)絡(luò),如果跟AlexNet比較,AlexNet神經(jīng)網(wǎng)絡(luò)是8層,總計算量是1.4G的浮點運算,錯誤率是16%。8層和1.4G,錯誤率是16%,意味著什么?這是當(dāng)時最好的。當(dāng)時計算視覺專家研發(fā)的算法大部分錯誤率可能比16%更高,這說明用傳統(tǒng)計算視覺方式的局限性很大,準(zhǔn)確率沒有那么高。
如果通過深度學(xué)習(xí),我們在過去幾年中可以實現(xiàn)3.5%的錯誤率,3.5%這是在幾百萬的圖像當(dāng)中進行測試152層的一個網(wǎng)絡(luò),幾年之前只有8層,現(xiàn)在是152層,總共的計算能力是22.6G/flps,這是18倍的增長,這就表明了深度學(xué)習(xí)存在的問題。三年之內(nèi)深度學(xué)習(xí)的計算負(fù)載增長了18倍,這比摩爾定律快很多。
所以問題變得越來越復(fù)雜,越來越難,但是計算的能力卻沒有相應(yīng)速度的增長,這也是為什么整個行業(yè)都開始尋找新的計算模式,為他們都開始來考慮使用GPU計算。
另一個案例更加驚人,是關(guān)于語音識別。語音識別是自然語言理解的基礎(chǔ),自然語言理解也是智能的基礎(chǔ)。這是百度吳恩達的實驗室的工作,2014年有2500萬的參數(shù)在這個模型當(dāng)中,訓(xùn)練的材料是7000小時的語料8%的錯誤率。2015年的訓(xùn)練數(shù)據(jù)是此前的2倍,深度學(xué)習(xí)網(wǎng)絡(luò)是原來的4倍大,2倍的數(shù)據(jù)量,4倍的網(wǎng)絡(luò)復(fù)雜性,實現(xiàn)的錯誤率是5%,就在1年之內(nèi)百度的DPS錯誤率降至了40%左右。但是需要付出什么樣的代價?就是計算量的增長。
深度學(xué)習(xí)的方法花了這么長的時間才真正出現(xiàn),因為這樣的方法從計算條件來說是沒有辦法實現(xiàn)的,此前沒有任何計算機可以對這樣的網(wǎng)絡(luò)進行訓(xùn)練,直到GPU出現(xiàn)用于深度學(xué)習(xí)的出現(xiàn)。這是我講的為什么我們對這樣新的計算模式非常振奮,為什么現(xiàn)在在我們這個計算行業(yè)當(dāng)中這個時刻非常重要。
同時這個趨勢在未來還會繼續(xù),大家要記住我們現(xiàn)在還是5%的錯誤率,我們希望是0%的錯誤率。每個人的聲音都可以被識別,甚至是做得更好,可以去理解詞的語義,所以我們還有很多更大的計算需求。
六、AI會自上而下地改變計算系統(tǒng)
Pascal是我們針對深度學(xué)習(xí)進行優(yōu)化的GPU架構(gòu)。Pascal的處理器是真正的奇跡,Pascal是一個全新的架構(gòu),用立體的晶體管制成,用立體的封裝,用3D的堆棧,所有這些使得我們的Pascal架構(gòu)實現(xiàn)了巨大的性能提升,新的指令級和新的制造制成、新的封裝方式,以及新的互聯(lián)連接方式把多個GPU連到一起,這樣它們可以做一個團隊來開展工作。我們花了3年的時間,1萬個人年的投入,完成了這項我們自己史上最大的工作。
我們也認(rèn)識到處理器還只是開始。在AI計算這塊有這樣一個新的計算模式,計算系統(tǒng)架構(gòu)也會發(fā)生變化,處理器的設(shè)計會發(fā)生變化,算法會發(fā)生變化,我們開發(fā)軟件的方式會發(fā)生變化,系統(tǒng)的設(shè)計也會發(fā)生變化。
我們有一個新的超級計算機,在一個盒子的大小之內(nèi),這就是叫DGX-1,替代了大約250臺服務(wù)器,整個數(shù)據(jù)中心都縮成了一個小盒子的大小。這個超級計算機完全是重新設(shè)計的??匆幌挛覀兲幚砥鞯某删驮偌由螪GX-1,使得我們在一年之內(nèi)的性能有65倍的提高。相比較這個Alex第一次用我們GPU來訓(xùn)練他的網(wǎng)絡(luò)的時候,這是65倍的提高。這比摩爾定律的速度要快很多,比整個半導(dǎo)體的發(fā)展要快很多,比任何其他的在計算的進步方面要快很多。
電子發(fā)燒友App





























評論