人工智能的又一個(gè)微小進(jìn)步
人工智能時(shí)代是信息化時(shí)代的延續(xù)和新生,今天在這個(gè)領(lǐng)域的每個(gè)微小的進(jìn)步都會(huì)累積起來,直到再為我們推開一扇偉大時(shí)代的大門。
人類在出生時(shí)近1000億個(gè)大腦神經(jīng)元就已經(jīng)產(chǎn)生和分化好,并且處在它們?cè)摯嬖诘奈恢?,等著建?a href="http://www.brongaenegriffin.com/tags/神經(jīng)網(wǎng)絡(luò)/" target="_blank">神經(jīng)網(wǎng)絡(luò)。這時(shí)候的神經(jīng)元還沒有多少觸突,相互之間也沒有多少鏈接,新生兒的神經(jīng)觸突數(shù)不到成年人的三分之一。在嬰幼兒的成長(zhǎng)發(fā)育過程中,神經(jīng)元迅速伸出觸突,彼此建立起非常復(fù)雜的鏈接,相連的神經(jīng)元可以傳遞電和化學(xué)信號(hào),接近三歲的時(shí)候,觸突的數(shù)量達(dá)到頂峰,此時(shí)的數(shù)量是成人的二倍,這段時(shí)間也正是人類學(xué)習(xí)和認(rèn)知最快的時(shí)期,我們基本的生存技能,比如語言、圖像識(shí)別和分類、運(yùn)動(dòng)都要在這個(gè)時(shí)候建立起來。此后的時(shí)間里,大腦不斷優(yōu)化和修剪神經(jīng)元的鏈接,讓信息的處理更加高效。在神經(jīng)網(wǎng)絡(luò)的建立過程中,鏈接的建立是隨機(jī)的,但是修剪不是隨機(jī)的,大腦不斷根據(jù)外界信息和反饋來完成。最終形成的神經(jīng)網(wǎng)絡(luò)復(fù)雜且能高效處理數(shù)據(jù),即便是相同環(huán)境里成長(zhǎng)起來的同卵雙胞胎也會(huì)有完全不同的兩個(gè)大腦。
?
模仿生物神經(jīng)系統(tǒng)建立的神經(jīng)計(jì)算網(wǎng)絡(luò),基本原理就是一層一層處理和過濾信息,每一層的基本運(yùn)算都很簡(jiǎn)單,無非是用加法和乘法來完成矩陣運(yùn)算,但是運(yùn)算中的各種參數(shù)因子是個(gè)未知數(shù),只能讓神經(jīng)網(wǎng)絡(luò)通過大量的數(shù)據(jù)來自己學(xué)習(xí),這個(gè)學(xué)習(xí)的過程和孩子學(xué)習(xí)識(shí)圖是一樣的,大量各種形態(tài)的圖像數(shù)據(jù)輸入,對(duì)最終輸出做出糾正,一旦發(fā)現(xiàn)輸出錯(cuò)誤就回退嘗試新的參數(shù)設(shè)定,直到找到復(fù)合要求的輸出。所以神經(jīng)網(wǎng)絡(luò)只關(guān)注于問題「可解」,并不強(qiáng)調(diào)「最優(yōu)解」,每次解決和處理問題,都可以進(jìn)一步優(yōu)化網(wǎng)絡(luò)參數(shù),讓網(wǎng)絡(luò)適應(yīng)更復(fù)雜的數(shù)據(jù)輸入。
?
一直到2016年,GoogleDeepmind團(tuán)隊(duì)的AlphaGo戰(zhàn)勝了職業(yè)九段李世石,才在世界范圍內(nèi)掀起了對(duì)人工神經(jīng)網(wǎng)絡(luò)的關(guān)注。這是一場(chǎng)徹底的勝利,AlphaGo的研發(fā)者并不懂圍棋,打開AlphaGo程序也沒人讀得懂里面天書一樣的各種參數(shù),AlphaGo完全是靠自己學(xué)習(xí)圍棋來達(dá)到了戰(zhàn)勝人類的能力。最初的AlphaGo以CPU+GPU為運(yùn)算單元,隨著運(yùn)算量的增加,GPU畢竟不是專為神經(jīng)網(wǎng)絡(luò)計(jì)算而設(shè)計(jì),Google為了提升效率而自行設(shè)計(jì)了計(jì)算單元TPU。TPU是專為深度學(xué)習(xí)框架TensorFlow而定制的,改用TPU的AlphaGo提升更快,僅靠單機(jī)4個(gè)TPU就在隨后的比賽里碾壓了所有人類頂級(jí)棋手。華為Mate10 ?運(yùn)算單元NPU#e#
如果你手上有華為的Mate10或Mate10Pro,你可以試試看打開照相機(jī),如果你把相機(jī)對(duì)準(zhǔn)一個(gè)人,那么預(yù)覽畫面的左下角就會(huì)出現(xiàn)一個(gè)「人」的小圖標(biāo);如果你對(duì)準(zhǔn)植物,就會(huì)出現(xiàn)一個(gè)植物的小圖標(biāo)。這是因?yàn)槿A為這一代的手機(jī)芯片麒麟970已經(jīng)內(nèi)置了人工智能的運(yùn)算單元NPU,讓手機(jī)有了對(duì)圖像場(chǎng)景的識(shí)別能力。手機(jī)上的NPU和Google的TPU在原理上是類似的,但是更強(qiáng)調(diào)功耗控制。華為的工程師在實(shí)驗(yàn)室里使用機(jī)器學(xué)習(xí)訓(xùn)練電腦識(shí)別圖形圖像,然后把訓(xùn)練好的參數(shù)灌入手機(jī)系統(tǒng),當(dāng)手機(jī)打開照相機(jī)時(shí),照相系統(tǒng)就會(huì)實(shí)時(shí)調(diào)用NPU來分析圖像場(chǎng)景。如果沒有NPU參與,僅靠手機(jī)的CPU或GPU,這個(gè)過程的耗時(shí)是無法忍受的,借助這個(gè)專為卷積算法而設(shè)計(jì)的NPU,Mate10系列手機(jī)可以近乎于實(shí)時(shí)地感知到當(dāng)前拍照的場(chǎng)景,以便對(duì)拍照進(jìn)行優(yōu)化。Mate10現(xiàn)在已經(jīng)可以認(rèn)識(shí)十多個(gè)場(chǎng)景,比如拍人、拍藍(lán)天、拍植物、拍食物……新的智能識(shí)別功能還可以在今后的軟件升級(jí)中加入。
?
Mate10是第一次把人工神經(jīng)網(wǎng)絡(luò)計(jì)算引入手機(jī),目前能夠?qū)崿F(xiàn)的功能還主要集中在圖像識(shí)別和處理上,相對(duì)于對(duì)人工智能的巨大想象空間,目前的這一步無比微小。如果把2016年AlphaGo的勝利算作人工智能紀(jì)元的元年,麒麟970帶給Mate10的這一步只是在手機(jī)這種便攜式設(shè)備上的第一次實(shí)用性的嘗試,未來可以承載的想象空間無比巨大。1969年阿姆斯特朗在月球的表面留下了人類的第一個(gè)清晰的腳步,也正是在那一年,機(jī)器學(xué)習(xí)的構(gòu)思在人類的頭腦中初步成型。月球上的一小步看起來是那么不起眼,但為了實(shí)現(xiàn)這一步,從1961年5月25日啟動(dòng)阿波羅計(jì)劃到1972年12月計(jì)劃結(jié)束,除美國(guó)航空航天宇航中心外,一共有120所高等學(xué)校、20000家工廠、400萬人投入到這個(gè)行動(dòng)中,累積花費(fèi)250億美元,考慮通貨膨脹,這筆投入在今天超過千億美元。但是這些投入不是白白花掉的,阿波羅計(jì)劃結(jié)束,為這項(xiàng)計(jì)劃而誕生的各項(xiàng)發(fā)明和技術(shù)推開了人類信息時(shí)代的大門。人工智能時(shí)代是信息化時(shí)代的延續(xù)和新生,今天在這個(gè)領(lǐng)域的每個(gè)微小的進(jìn)步都會(huì)累積起來,直到再為我們推開一扇偉大時(shí)代的大門。
作為一款為手機(jī)設(shè)計(jì)的系統(tǒng)級(jí)芯片(SystemOnChip,即SoC),麒麟970自然包含了常規(guī)的手機(jī)SoC該有的部件,比如CPU、GPU、ISP、DSP、通訊基帶,但和同類產(chǎn)品相比,麒麟970又多了一個(gè)所有同類產(chǎn)品都沒有的東西——一顆為人工智能運(yùn)算專門設(shè)計(jì)的NPU。
下面我們就SoC的各個(gè)部件出發(fā),全面地了解一下麒麟970。
CPU、GPU:重點(diǎn)是降功耗
CPU方面,麒麟970的參數(shù)相比麒麟960基本沒有任何變化,依然是8顆核心,其中4顆為高性能的ARM公版A73架構(gòu),最高主頻2.4GHz(麒麟960是2.36GHz),4顆位低功耗的ARM公版A53架構(gòu),最高主頻1.8GHz(麒麟960是1.84GHz)。有些遺憾的是,麒麟970并沒有用上ARM在今年5月發(fā)布的新一代Cortex-A75、Cortex-A55架構(gòu)以及為AI相關(guān)運(yùn)算優(yōu)化的DynamiIQ設(shè)計(jì)(麒麟970選擇了另一種方法來提高AI運(yùn)算)。當(dāng)然了,考慮到A75和A55的發(fā)布時(shí)間、設(shè)計(jì)的復(fù)雜程度,麒麟970沒用上也是可以理解的。
華為表示,表示麒麟970的能耗比提升了20%(主要得益于全新的10納米制程),至于實(shí)際的性能表現(xiàn),不出意外的話,麒麟970應(yīng)該和麒麟960處于同一段位,不會(huì)有非常明顯的提升。當(dāng)然,橫向來看的話,麒麟970的CPU性能沒提升其實(shí)不是什么大問題。從GeekBench4等跑分軟件的得分上看,麒麟960的分?jǐn)?shù)和高通驍龍835、三星Exynos8895基本處于同一水準(zhǔn),明顯強(qiáng)于聯(lián)發(fā)科HelioX30。因此,即使麒麟970的CPU性能不變,也依然是Android陣營(yíng)里移動(dòng)SoC的頂級(jí)水準(zhǔn),只是不再像麒麟960發(fā)布時(shí)那么領(lǐng)先。
?
相比起CPU上的保守,麒麟970在GPU上的「誠(chéng)意」要顯得更足一些。
首先,麒麟970則用上了ARM在今年5月剛剛發(fā)布的Mali-G72架構(gòu),理論性能相比麒麟960上的Mali-G71有所提升(ARM的官方說法是相比G71性能提高20%,功耗比提升25%)。此外,在核心數(shù)上,麒麟970的GPU也從麒麟960的8核增加到了12核。
華為表示,相比起麒麟960,麒麟970的性能有20%的提升,并且能效比提升了50%。照理說,由于麒麟970的GPU核心架構(gòu)比麒麟960更先進(jìn),核心數(shù)還多了50%,并且制程更先進(jìn),GPU性能提升的幅度應(yīng)該遠(yuǎn)不止20%。之所以出現(xiàn)這種情況,很可能是華為將麒麟970的GPU主頻壓得比較低,從而更好地降低功耗(于是就有了提升幅度高達(dá)50%的能效比)。
實(shí)際的表現(xiàn)也印證了我們的猜測(cè),根據(jù)現(xiàn)場(chǎng)的介紹,麒麟970的Mali-G72最高主頻為700MHz,相比麒麟960的900MHz(部分場(chǎng)景下會(huì)飆到1000MHz左右)有明顯的下降,這種「多核+低頻」的策略讓麒麟970在性能有一定提升的同時(shí),功耗得以大幅度降低。
通訊基帶:比「千兆LTE」更快
作為一家通訊行業(yè)有著多年積累的公司,華為海思在通訊基帶上有著深厚的「家底」,特別是去年的麒麟960,直接在SoC中集成了支持LTECat.12/13的Balong750基帶(最大下行速度600Mbps,上行150Mbps),并且支持CDMA網(wǎng)絡(luò),絲毫不遜色同期的高通驍龍820、821。
在麒麟970上,華為海思更進(jìn)一步,直接大跨步到了下行LTECat.18(上行最高Cat.13),最高下載速度飆到了1.2Gbps,也就是比之前業(yè)界最快、驍龍835和Exynos8895「千兆LTE」還要再快上200Mbps。
麒麟970還終于支持了在同時(shí)使用兩張SIM卡時(shí),主副卡同時(shí)用4G(上一代麒麟960的副卡只能支持3G),任意一張卡都可以使用VoLTE通話。此外,麒麟970還特別針對(duì)高鐵時(shí)的使用做了優(yōu)化,信號(hào)更穩(wěn)定,減少掉線。
不過話還是要說回來,雖然麒麟970的通訊基帶的確是厲害,但和驍龍835、Exynos8895等支持千兆LTE的SoC一樣,普通用戶想要真正體驗(yàn)到這種超高速LTE網(wǎng)絡(luò),還得過上相當(dāng)一段時(shí)間。
ISP、DSP、Codec、協(xié)處理器
ISP的全稱是ImageSignalProcessor(圖像信號(hào)處理器),主要功能是處理相機(jī)傳感器中收集到的數(shù)據(jù)。
麒麟970的ISP主要是一些「常規(guī)升級(jí)」,依然是雙核設(shè)計(jì),擁有更快的速度,更快地對(duì)焦,更優(yōu)秀的降噪效果,并且對(duì)運(yùn)動(dòng)圖像的捕捉做了優(yōu)化。另外,針對(duì)目前很火的人像拍攝,麒麟970的ISP進(jìn)行針對(duì)性的優(yōu)化,可以根據(jù)不同膚色、帽子、眼睛、口罩、遮擋、側(cè)臉等多種復(fù)雜的人臉場(chǎng)景進(jìn)行優(yōu)化,改善了人像的拍照效果。
?
在DSP、配套Codec等方面,麒麟970也有所提升,其中配套的音頻Codec可以支持32bit/384k的音頻解碼,過去幾代華為高端機(jī)(Mate、P系列)上表現(xiàn)乏善可陳的內(nèi)放音質(zhì),有望在麒麟970這代產(chǎn)品上獲得明顯的提升,當(dāng)然前提是Mate10和P11系列還能保留3.5毫米耳機(jī)插孔。
另外,麒麟970依然搭載了i7協(xié)處理器(和牙膏廠的i7沒啥關(guān)系),而inSE(integratedsecureelement)和TEE安全引擎,在麒麟970上也都在。
在總線架構(gòu)上,不出意外的話,麒麟970采用的應(yīng)該是和960相同的CCI-550。
10納米制程,比驍龍835還多的55億個(gè)晶體管
制程上,不出意外,麒麟970用上了臺(tái)積電(TSMC)最新的10納米工藝,這應(yīng)該是繼蘋果A10X、聯(lián)發(fā)科HelioX30之后,第三款采用臺(tái)積電10納米制程的移動(dòng)SoC。
通常來說,在芯片晶體管數(shù)量相同的情況下,更先進(jìn)的制程可以降低芯片的核心面積,有助于降低成本,并且更加有效地控制發(fā)熱和功耗。根據(jù)華為提供的數(shù)據(jù),臺(tái)積電的10納米制程可以降低20%的能耗,將芯片核心面積縮小40%。
不過有趣的是,麒麟970的核心面積并沒有因?yàn)橹瞥痰倪M(jìn)步而縮小,反而比麒麟960還要略大,這是因?yàn)轺梓?70集成了高達(dá)55億個(gè)晶體管,比麒麟960多出了15億。作為對(duì)比,蘋果的A11Bionic芯片有43億個(gè)晶體管,高通驍龍835有31億個(gè)。
需要說明的是,雖然晶體管數(shù)量對(duì)性能有一定的影響,并且通常是越多越好,但在內(nèi)部部件眾多的、各家產(chǎn)品架構(gòu)甚至內(nèi)部組件都不太一樣(比如A11Bionic沒有集成通訊基帶和專門的NPU)的移動(dòng)SoC中,我們是無法簡(jiǎn)單地用晶體管數(shù)量來判斷性能的。
NPU:首款內(nèi)置在手機(jī)SoC中的人工智能芯片
終于到了麒麟970最特別的部分——NPU。
NPU的全稱是Neural-networkProcessingUnit,也就是神經(jīng)網(wǎng)絡(luò)處理單元。關(guān)于這顆NPU的功能,大家可以簡(jiǎn)單理解為專門高效地進(jìn)行AI相關(guān)計(jì)算定制的處理器,就像GPU之于圖形處理相關(guān)的計(jì)算,ISP之于成像相關(guān)的計(jì)算。
傳統(tǒng)的CPU(包括x86和ARM)和GPU也是可以用來做深度學(xué)習(xí)計(jì)算的,但由于它們本身并不是專門為深度學(xué)習(xí)定制的,效率并不高。而麒麟970的這顆NPU采用了來自寒武紀(jì)(Cambricon)的IP,專門為深度學(xué)習(xí)而定制,F(xiàn)P16性能達(dá)到了1.92TFLOP,差不多是麒麟960的3倍(0.6TFLOP左右)。
在月初德國(guó)柏林的發(fā)布會(huì)上,余承東展示了一張?jiān)谶M(jìn)行AI運(yùn)算時(shí),NPU和CPU、GPU的對(duì)比。
?
可以看到,性能上,NPU是CPU的25倍,GPU的6.25倍(25/4),能效比上,NPU更是達(dá)到了CPU的50倍,GPU的6.25倍(50/8)。
?
在這個(gè)NPU的基礎(chǔ)上,華為打造了HiAI移動(dòng)計(jì)算架構(gòu),大致的原理是通過一個(gè)統(tǒng)一的資源管理器,充分調(diào)用CPU、GPU、ISP、DSP、NPU等部分,app開發(fā)者可以通過使用這個(gè)架構(gòu),提高app中和AI相關(guān)的應(yīng)用的處理效率(官方數(shù)據(jù)是25倍的性能,50倍的能效優(yōu)勢(shì))。
在現(xiàn)場(chǎng)的演示中,華為展示了在進(jìn)行照片識(shí)別時(shí),麒麟970相比其他旗艦機(jī)具備明顯的優(yōu)勢(shì)。
?
根據(jù)華為提供的數(shù)據(jù),在包括NPU在內(nèi)的HiAI架構(gòu)的加持下,麒麟970每分鐘可以識(shí)別約2000張,iPhone8Plus可以識(shí)別889張,iPhone7Plus為487張,三星GalaxyS8只有95張(注:測(cè)試過程中,iPhone應(yīng)該是調(diào)用了GPU,三星S8應(yīng)該只是在用驍龍835的CPU在跑)。
除了單純?cè)谛g(shù)層面的「秀肌肉」,發(fā)布會(huì)上,華為還展示了麒麟970的AI能力在日常生活中的實(shí)際應(yīng)用,具體有下面幾個(gè)。
?
第一個(gè)功能叫做「慧眼」。麒麟970可以脫離網(wǎng)絡(luò)限制,直接在本地對(duì)物體進(jìn)行精確地識(shí)別,現(xiàn)場(chǎng)的展示中,華為把葡萄、蘋果等物體擺在搭載麒麟970的原型機(jī)之前,手機(jī)可以準(zhǔn)確地完成識(shí)別,并根據(jù)識(shí)別結(jié)果計(jì)算出對(duì)應(yīng)的卡路里。
第二個(gè)是AI降噪。大致的原理是通過深度學(xué)習(xí)算法,從而更有效地過濾周圍環(huán)境的噪音。這個(gè)功能最適合的使用場(chǎng)景之一就是在車內(nèi)等嘈雜的環(huán)境中進(jìn)行語音喚醒,華為表示,搭載麒麟970的手機(jī)(應(yīng)該就是Mate10和Mate10Pro了)在車載場(chǎng)景下的語音識(shí)別率可以從80%提升到92%。
第三個(gè)功能是AI美顏。這個(gè)功能和之前美圖在部分手機(jī)上的美顏技術(shù)類似,都是自動(dòng)檢測(cè)人臉并根據(jù)機(jī)內(nèi)算法進(jìn)行美顏,不過有了麒麟970相關(guān)的AI優(yōu)化,可以把這個(gè)美顏過程做得更加快速和精確。
第四個(gè)功能是智能自動(dòng)回復(fù)及情緒識(shí)別。麒麟970能夠?qū)ξ谋镜膬?nèi)容進(jìn)行提取,并根據(jù)文本內(nèi)容智能地進(jìn)行回復(fù)和提醒,比如說聊天中輸入文字「今天發(fā)工資了」,手機(jī)可以自動(dòng)聯(lián)想出開心的表情,輸入「敦刻爾克」,手機(jī)可以自動(dòng)推薦附近影院的觀影信息。類似的功能華為在榮耀Magic上就已經(jīng)嘗試過,在麒麟970的硬件平臺(tái)下,理論上可以做得更加快速和智能。
親測(cè)Mate10手機(jī)麒麟970性能:優(yōu)質(zhì)通信表現(xiàn)絕非偶然
Mate10系列手機(jī)能得到用戶的好評(píng)并不令人意外,實(shí)際上在最新發(fā)布的中國(guó)移動(dòng)2017年第二期終端質(zhì)量報(bào)告中,華為Mate10Pro就名列3000元以上機(jī)型綜合評(píng)測(cè)排行榜的第一名,把三星Note8和蘋果iPhoneX都丟在了身后,Mate10則名列第四名。這個(gè)報(bào)告是由中國(guó)移動(dòng)終端終端實(shí)驗(yàn)室完成的,綜合考慮了手機(jī)產(chǎn)品的通信能力、多媒體能力、產(chǎn)品可用性、用戶口碑等四大類指標(biāo),有很高的參考價(jià)值。
?
其實(shí)與上市時(shí)間相近的同檔位產(chǎn)品相比,Mate10系列手機(jī)最為獨(dú)特的就是內(nèi)置了一顆麒麟970芯片。麒麟970是華為首個(gè)人工智能移動(dòng)計(jì)算平臺(tái),也是全球首個(gè)搭載專用神經(jīng)網(wǎng)絡(luò)處理單元的AI手機(jī)芯片。這款芯片采用了TSMC10nm制造工藝,支持目前全球最高的通信規(guī)格LTECat.18/Cat.13,峰值下載速率可達(dá)1.2Gbps,這在全球也是首屈一指的。在筆者近兩周的觀察中,重點(diǎn)關(guān)注的正是Mate10或者說麒麟970的通信能力表現(xiàn)。
這兩年運(yùn)營(yíng)商一直在嘗試把部分5G技術(shù)超前引入現(xiàn)網(wǎng),將4G網(wǎng)絡(luò)提升為4.5G網(wǎng)絡(luò),讓用戶獲得更好的體驗(yàn)。不過要想體驗(yàn)到其中的好處,還要有相應(yīng)的手機(jī)終端來配合。麒麟970芯片是華為頗有前瞻性的一款終端芯片,不僅支持全球最高的通信規(guī)格LTECat.18/Cat.13,還支持多種多樣已經(jīng)商用或即將商用的4.5G技術(shù)。所以Mate10手機(jī)用戶完全可以放心,運(yùn)營(yíng)商近期做的任何網(wǎng)絡(luò)升級(jí)都可以通過Mate10在第一時(shí)間體驗(yàn)到。
?
在之前提到的中國(guó)移動(dòng)2017年第二期終端質(zhì)量報(bào)告中,還有一個(gè)手機(jī)芯片的通信能力排行榜??紤]高清語音通話質(zhì)量和下載速率,Mate10上采用麒麟970芯片綜合排名第一,這些也說明,Mate10用戶對(duì)這款手機(jī)的良好體驗(yàn)絕非主觀臆測(cè)。
?
?
評(píng)論