現(xiàn)代電子產(chǎn)品和設備在諸如通信 、娛樂 、安全和醫(yī)療保健等許多方面改善了我們的生活質(zhì)量 ,這主要是因為現(xiàn)代微電子技術(shù)的發(fā)展極大地改變了人們的日常工作和互動方式。在過去幾十年中 ,摩爾定律一直是通過不斷縮小芯片上的器件特征尺寸來提高計算能力 ,帶來了電子產(chǎn)品諸如更高速度 、更低成本和更小功耗等優(yōu)勢。Gordon Moore最初的觀察是芯片中的晶體管數(shù)量大約每2年增加1倍 ,DavidHouse進一步預測 ,由于更多更快的晶體管 ,芯片性能將每18個月翻一番。雖然Gordon Moore的預測已經(jīng)成功超過50年 ,但是今天的硅CMOS技術(shù)正在接近其尺寸的基本物理極限,摩爾定律的延續(xù)性已經(jīng)變得越來越具有挑戰(zhàn)性。
這意味著電子產(chǎn)品和設備的性能增益不再僅僅依賴于器件特征尺寸的縮小 ,人們有必要發(fā)明新的IT技術(shù)或新的計算原理 ,以滿足應用對計算能力和低功耗等方面不斷增長的需求 ,而人工智能的出現(xiàn)為突破這種局限性提供了無限可能。人工智能(artificial intelligence,AI)指由人制造出來的機器來呈現(xiàn)人類智能的技術(shù) ,而人工智能芯片指能夠運行人工智能技術(shù)和相關算法的半導體芯片。本文將對人工智能芯片的研究進展及市場發(fā)展進行介紹 。
人工智能芯片的發(fā)展
據(jù)了解 ,人工智能(AI)技術(shù)的發(fā)展和應用在美國 、中國和歐盟等世界主要國家中已經(jīng)成為國家戰(zhàn)略 ,在國家的科技發(fā)展和產(chǎn)業(yè)競爭中占據(jù)越來越重要的位置。同時,AI技術(shù)在手寫識別(例如MNIST數(shù)據(jù)集[1])、人臉識別(例如Facebook的DeepFace[2])、語音識別(例如亞馬遜的Alexa[3]、Apple的Siri[4]、微軟的Cortana[5])、機器人技術(shù)(例如機器人操作系統(tǒng)[6])、自動駕駛(例如Tartan Racing[7]),甚至智力游戲(例如Google的AlphaGo[8])和視頻游戲(例如Pac-mAnt[9])等領域得到了廣泛應用。隨著人工智能的發(fā)展 ,產(chǎn)生了更多的專業(yè)技術(shù) ,比如神經(jīng)網(wǎng)絡模型 、機器學習等 ,依靠經(jīng)驗學習而不是編程來做出決策。反過來 ,機器學習為深度學習奠定了基礎 ,深度學習涉及分層算法 ,以便更好地理解數(shù)據(jù) 。
自20世紀50年代開始 ,人類對人工智能技術(shù)的探索從來就沒有停止過 ?!叭斯ぶ悄堋币辉~是由科學家約翰 · 麥卡錫(John McCarthy)、克勞德 · 香農(nóng)(Claude Shannon)和馬文·明斯基(Marvin Minsky)于1956年在達特茅斯會議上提出的 ,從此揭開人工智能研究的序幕。1962年Rosenblatt出版《神經(jīng)動力學原理》及其1957年設計的模擬計算器 ,被視作深度神經(jīng)網(wǎng)絡模型的算法原型。1969年 ,Minsky與Papert出版《感知器》,指出單層神經(jīng)網(wǎng)絡訓練出來的圖像識別算法連對稱圖形都無法正確識別。
對于多層神經(jīng)網(wǎng)絡 ,由于人造神經(jīng)元的運算極限嚴重受限于當時計算機的算力不足 ,導致多層神經(jīng)網(wǎng)絡也無法被當時和后來的計算機的芯片運算效能實現(xiàn) ,這造成了人工神經(jīng)網(wǎng)絡領域在1970年代的寒冬時期。
1982年,日本開始第五代計算機項目研究計劃,同時美國也投入不少資源在第五代計算機的研發(fā)中 ,但最終依然無法解決圖像和音訊識別的重大問題。1985年 ,Hinton與Sejnowski發(fā)表了之前被視為不可能實現(xiàn)的基于玻爾茲曼機的“多層神經(jīng)網(wǎng)絡”,1986年,Rumelhart和Hinton發(fā)表“BP反向傳播算法”,1989年 ,貝爾實驗室成功利用反向傳播算法 ,在多層神經(jīng)網(wǎng)絡開發(fā)了一個手寫郵編識別器。同年,Mead 出版Analog VLSI and Neural Systems ,開創(chuàng)了基于仿生芯片的神經(jīng)形態(tài)工程領域。
1993年,Yann Le Cun的團隊使用DSP在一臺486電腦上實現(xiàn)深度學習算法 ,其作為推理芯片,已可辨識手寫的數(shù)字。至此 ,通用芯片CPU的算力大幅提升 ,但仍無法滿足多層神經(jīng)網(wǎng)絡的計算能力需求。1994年 ,Michael Gschwind等使用FPGAs實現(xiàn)神經(jīng)網(wǎng)絡的算法應用,1998年 ,YannLe Cun和Yoshua Bengio發(fā)表了手寫識別神經(jīng)網(wǎng)絡和反向傳播優(yōu)化相關的論文“Gradient-based learningapplied to document recognition”,開創(chuàng)了卷積神經(jīng)網(wǎng)絡時代的到來。
2006年 ,Hinton提出受限玻爾茲曼機模型與深度信念網(wǎng)絡 ,成功地訓練多層神經(jīng)網(wǎng)絡 ,解決了反向傳播算法局部最佳解問題 ,并把多層類神經(jīng)網(wǎng)絡稱作“深度學習”,首次證明了大規(guī)模深度神經(jīng)網(wǎng)絡學習的可能性。2007年 ,英偉達開發(fā)出統(tǒng)一計算架構(gòu)(CUDA),研究人員透過CUDA可以輕松使用C語言開發(fā)GPU,使得GPU具有方便的編程環(huán)境可以直接編寫程序。2008年 ,英偉達推出Tegra芯片 ,作為最早的可用于人工智能領域的GPU,如今已成為英偉達最重要的AI芯片之一 ,主要用于智能駕駛領域。2009年 ,Rajat Raina和吳恩達聯(lián)合發(fā)表利用GPU完成深度學習訓練的論文“Large-scaleDeep Unsupervised Learning Using GraphicProcessors”。2010年 ,IBM首次發(fā)布類腦芯片原型模擬大腦結(jié)構(gòu) ,該原型具有感知認知能力和大規(guī)模并行計算能力。
2012年 ,Krizhevsky與Hinton的團隊采用GPU架構(gòu)結(jié)合卷積神經(jīng)網(wǎng)絡(CNN)算法 ,在ImageNet大賽中 ,將圖像識別錯誤率降到18%,并在NIPS會議上發(fā)表圖像識別論文“Image NetClassification with Deep Convolutional NeuralNetworks”。這一突破性的成果 ,讓人們第一次驚喜地看到神經(jīng)網(wǎng)絡的算力需求可被現(xiàn)行計算設備滿足。不過,這一成果也有它的美中不足:他們使用的GPU架構(gòu)芯片并非針對神經(jīng)網(wǎng)絡架構(gòu)設計 ,其中包含許多運行神經(jīng)網(wǎng)絡時不需要的架構(gòu)設計 ,因此效率提升有限。就在同一年 ,Google Brain用1.6萬個GPU核的并行計算平臺訓練DNN模型 ,在語音和圖像識別等領域獲得巨大成功 ,2013年GPU開始廣泛應用于人工智能領域 ,高通公司發(fā)布Zeroth。2014年,中國科學研究院的陳天石博士(寒武紀創(chuàng)辦人)團隊發(fā)表以DianNao[10]為名的人工智能專用加速芯片 系 列 論 文( 包 含DaDianNao[11]、PuDianNao[12]、ShiDianNao[13]、Cambricon-X),開啟人工智能加速專用芯片(ASIC)的研究領域。也在同年 ,英偉達發(fā)布首個為深度學習設計的GPU架構(gòu)Pascal,IBM發(fā)布第二代TrueNorth。
2015年 ,Jason Cong在當年的國際FPGA大會上,發(fā)表1篇FPGA加速DNN算法的論文“Optimizing FPGA- based Accelerator Design for Deep Convolutional Neural Networks”,使得FPGAs迅速大火。很快地 ,2016年 ,Google發(fā)表TensorFlow框架設計的TPU芯片 ,而同年 ,采用TPU架構(gòu)的AlphaGo出現(xiàn) ,并擊敗人類世界冠軍棋士李世石。還是在同年 ,寒武紀研發(fā)出DIANNAO,F(xiàn)PGA芯片在云計算平臺得到廣泛應用。僅僅在2017年 ,谷歌TPU 2.0發(fā)布,加強了訓練效能[14];英偉達發(fā)布Volta架構(gòu),推進GPU的效能大幅提升;華為麒麟970成為首個手機AI芯片;清華大學魏少軍教授團隊開發(fā)出Thinker原型 ,并隨后推出在算力和能效方面具有國際水平的系列Thinker人工智能芯片 。
人工智能芯片的分類
2.1 傳統(tǒng)CPU困局
自20個世紀60年代早期開始,CPU(中央處理器)開始出現(xiàn)并使用在計算機工業(yè)中。現(xiàn)如今,雖然CPU在設計和實現(xiàn)上都發(fā)生了巨大變化 ,但是基于馮 · 諾依曼架構(gòu)的CPU基本工作原理卻一直沒有發(fā)生很大變化。如圖1所示 ,馮 · 諾依曼架構(gòu)分為中央處理單元(CPU)和存儲器,CPU主要由控制器和運算器兩大部件組成[15]。在工作時 ,CPU每執(zhí)行一條指令都需要從存儲器中讀取數(shù)據(jù) ,根據(jù)指令對數(shù)據(jù)進行相應的操作,因此CPU不僅負責數(shù)據(jù)運算,而且需要執(zhí)行存儲讀取 、指令分析 、分支跳轉(zhuǎn)等命令。同時可以通過提升單位時間內(nèi)執(zhí)行指令的條數(shù) ,即主頻 ,來提升計算速度。但在人工智能深度學習領域中程序指令相對較少 ,但對大數(shù)據(jù)的計算需求很大 ,需要進行海量的數(shù)據(jù)處理。當用CPU執(zhí)行AI算法時 ,CPU將花費大量的時間在數(shù)據(jù)/指令的讀取分析上 ,在一定的功耗前提下 ,不能夠通過無限制的加快CPU頻率和內(nèi)存帶寬來達到指令執(zhí)行速度無限制的提升。因此在這種情形下 ,傳統(tǒng)CPU結(jié)構(gòu)缺點明顯 ,在人工智能芯片領域中的算力瓶頸問題很難解決 。
2.2 人工智能芯片中的后CPU時代
基于CPU的算力問題 ,近年來人工智能芯片領域的科學家們進行了富有成果的廣泛研究 ,主要集中在AI芯片目前的兩種發(fā)展方向。一個方向是繼續(xù)延續(xù)經(jīng)典的馮 · 諾依曼計算架構(gòu) ,以加速計算能力為發(fā)展目標,主要分為并行加速計算的GPU(圖形處理單元)、半定制化的FPGA(現(xiàn)場可編程門陣列)、全定制化的ASIC(專用集成電路)。另一個方向就是顛覆傳統(tǒng)的馮 · 諾依曼計算架構(gòu) ,采用基于類腦神經(jīng)結(jié)構(gòu)的神經(jīng)擬態(tài)芯片來解決算力問題。下面將對這兩個方向的人工智能芯片特點進行詳細描述。
2.2.1 按架構(gòu)分類
(1)圖 形 處 理 單 元(graphics processing unit,GPU)。GPU是相對較早的加速計算處理器 ,具有速度快、芯片編程靈活簡單等特點。由于傳統(tǒng)CPU的計算指令遵循串行執(zhí)行方式 ,不能發(fā)揮出芯片的全部潛力 ,而GPU具有高并行結(jié)構(gòu) ,在處理圖形數(shù)據(jù)和復雜算法方面擁有比CPU更高的效率。在結(jié)構(gòu)上 ,CPU主要由控制器和寄存器組成 ,而GPU則擁有更多的邏輯運算單元(arithmetic logic unit,ALU)用于數(shù)據(jù)處理,這樣的結(jié)構(gòu)更適合對密集型數(shù)據(jù)進行并行處理 ,程序在GPU系統(tǒng)上的運行速度相較于單核CPU往往提升幾十倍乃至上千倍。同時 ,GPU擁有了更加強大的浮點運算能力 ,可以緩解深度學習算法的訓練難題,釋放人工智能的潛能。但是GPU也有一定的局限性。深度學習算法分為訓練和推斷兩部分 ,GPU平臺在算法訓練上非常高效。但在推斷中對于單項輸入進行處理的時候 ,并行計算的優(yōu)勢不能完全發(fā)揮出來 。
(2)現(xiàn)場可編程門陣列(field programmable gatearray,F(xiàn)PGA)。FPGA是 在PAL、GAL、CPLD等 可 編程器件基礎上進一步發(fā)展的產(chǎn)物。其基本原理是在FPGA芯片內(nèi)集成大量的基本門電路以及存儲器 ,用戶可以通過更新FPGA配置文件(即燒入)來定義這些門電路以及存儲器之間的連線。這種燒入不是一次性的,因此,它既解決了定制電路靈活性的不足,又克服了原有可編程器件門電路數(shù)有限的缺點。與GPU不同 ,F(xiàn)PGA同時擁有進行數(shù)據(jù)并行和任務并行計算的能力 ,適用于以硬件流水線方式處理一條數(shù)據(jù) ,且整數(shù)運算性能更高 ,因此常用于深度學習算法中的推斷階段。不過FPGA通過硬件的配置實現(xiàn)軟件算法 ,因此在實現(xiàn)復雜算法方面有一定的難度 。
將FPGA和CPU對比可以發(fā)現(xiàn)兩個特點,一是FPGA沒有內(nèi)存和控制所帶來的存儲和讀取部分,速度更快,二是FPGA沒有讀取指令操作,所以功耗更低。劣勢是價格比較高,編程復雜,整體運算能力不是很高。功耗方面 ,從體系結(jié)構(gòu)而言 ,F(xiàn)PGA也具有天生的優(yōu)勢。傳統(tǒng)的馮氏結(jié)構(gòu)中,執(zhí)行單元(如CPU核)執(zhí)行任意指令,都需要有指令存儲器 、譯碼器 、各種指令的運算器及分支跳轉(zhuǎn)處理邏輯參與運行,而FPGA每個邏輯單元的功能在重編程(即燒入)時就已經(jīng)確定 ,不需要指令,無需共享內(nèi)存 ,從而可以極大地降低單位執(zhí)行的功耗 ,提高整體的能耗比。FPGA最值得注意的例子可能是CNP[16],它進一步改進并重命名為NeuFlow[17],后來改編為nn-X[18]。這些設計可以實現(xiàn)10~100 KM/s操作(GOPS),功率僅為10W以下。
(3)專用集成電路(application-specific integratedcircuit,ASIC)。目前以深度學習為代表的人工智能計算需求,主要采用GPU、FPGA等已有的適合并行計算的通用芯片來實現(xiàn)加速。在產(chǎn)業(yè)應用沒有大規(guī)模興起之時 ,使用這類GPU、FPGA已有的通用芯片可以避免專門研發(fā)定制芯片(ASIC)的高投入和高風險。但是,由于這類通用芯片設計初衷并非專門針對深度學習 ,因而天然存在性能 、功耗等方面的局限性。隨著人工智能應用規(guī)模的擴大 ,這類問題日益突顯。
GPU作為圖像處理器 ,設計初衷是為了應對圖像處理中的大規(guī)模并行計算。因此 ,在應用于深度學習算法時無法充分發(fā)揮并行計算優(yōu)勢。深度學習包含訓練和推斷兩個計算環(huán)節(jié) ,GPU在深度學習算法訓練上非常高效 ,但對于單一輸入進行推斷的場合 ,并行度的優(yōu)勢不能完全發(fā)揮。其次,GPU采用SIMT計算模式 ,硬件結(jié)構(gòu)相對固定 ,無法靈活配置硬件結(jié)構(gòu) 。此外,運行深度學習算法能效低于FPGA。
雖然FPGA倍受看好 ,但其畢竟不是專門為了適用深度學習算法而研發(fā) ,實際應用中為了實現(xiàn)可重構(gòu)特性 ,F(xiàn)PGA內(nèi)部有大量極細粒度的基本單元 ,但是每個單元的計算能力都遠低于CPU和GPU中的ALU模塊;其次 ,為實現(xiàn)可重構(gòu)特性 ,F(xiàn)PGA內(nèi)部大量資源被用于可配置的片上路由與連線 ,因此計算資源占比相對較低;再者,速度和功耗相對專用定制芯片(ASIC)仍然存在不小差距;而且FPGA價格較為昂貴,在規(guī)模放量的情況下單塊FPGA的成本要遠高于專用定制芯片。
因此 ,隨著人工智能算法和應用技術(shù)的日益發(fā)展,以及人工智能專用芯片ASIC產(chǎn)業(yè)環(huán)境的逐漸成熟 ,全定制化人工智能ASIC也逐步體現(xiàn)出自身的優(yōu)勢。ASIC是專用定制芯片,定制的特性有助于提高ASIC的性能功耗比 ,缺點是電路設計需要定制 ,相對開發(fā)周期長 ,功能難以擴展。但在功耗 、可靠性 、集成度等方面都有優(yōu)勢 ,尤其在要求高性能 、低功耗的移動應用端體現(xiàn)明顯。比如谷歌的TPU、寒武紀的GPU,地平線的BPU都屬于ASIC芯片 。
(4)神經(jīng)擬態(tài)芯片(類腦芯片)。在人工智能芯片中,傳統(tǒng)的馮·諾依曼架構(gòu)存在著“馮·諾依曼瓶頸”,它降低了系統(tǒng)的整體效率和性能[19]。為了從根本上克服這個問題 ,神經(jīng)形態(tài)計算近年來已成為基于馮 · 諾依曼系統(tǒng)的這些傳統(tǒng)計算架構(gòu)的最有吸引力的替代方案。術(shù)語“神經(jīng)形態(tài)計算”首先由Mead[20]在1990年提出 ,它是一種受大腦認知功能啟發(fā)的新計算范式。與傳統(tǒng)的CPU / GPU不同 ,生物腦(例如哺乳動物的大腦)能夠以高效率和低功耗在小區(qū)域中并行處理大量信息。因此 ,神經(jīng)形態(tài)計算的最終目標是開發(fā)神經(jīng)形態(tài)硬件加速器 ,模擬高效生物信息處理,以彌合網(wǎng)絡和真實大腦之間的效率差距[21],這被認為是下一代人工智能的主要驅(qū)動力。
神經(jīng)擬態(tài)芯片不采用經(jīng)典的馮 · 諾依曼架構(gòu) ,而是基于神經(jīng)形態(tài)架構(gòu)設計 ,是模擬生物神經(jīng)網(wǎng)絡的計算機制 ,如果將神經(jīng)元和突觸權(quán)重視為大腦的“處理器”和“記憶”,它們會分布在整個神經(jīng)皮層[22]。神經(jīng)擬態(tài)計算從結(jié)構(gòu)層面去逼近大腦 ,其研究工作可分為兩個層次 ,一是神經(jīng)網(wǎng)絡層面,與之相應的是神經(jīng)擬態(tài)架構(gòu)和處理器 ,以IBM Truenorth為代表 ,這種芯片把定制化的數(shù)字處理內(nèi)核當作神經(jīng)元 ,把內(nèi)存作為突觸。
其邏輯結(jié)構(gòu)與傳統(tǒng)馮·諾依曼結(jié)構(gòu)不同:內(nèi)存、CPU和通信部件完全集成在一起,因此信息的處理在本地進行 ,克服了傳統(tǒng)計算機內(nèi)存與CPU之間的速度瓶頸問題。同時神經(jīng)元之間可以方便快捷地相互溝通 ,只要接收到其他神經(jīng)元發(fā)過來的脈沖(動作電位),這些神經(jīng)元就會同時做動作;二是神經(jīng)元與神經(jīng)突觸層面 ,與之相應的是元器件層面的創(chuàng)新。如IBM蘇黎世研究中心宣布制造出世界上首個人造納米尺度的隨機相變神經(jīng)元,可實現(xiàn)高速無監(jiān)督學習 。
當前 ,最先進的神經(jīng)擬態(tài)芯片仍然遠離人類大腦的規(guī)模(1010個神經(jīng)元,每個神經(jīng)元有103~104個突觸),至多達到104倍,如表1所示。為了達到在人腦中規(guī)模,應將多個神經(jīng)擬態(tài)芯片集成在電路板或背板上 ,以構(gòu)成超大規(guī)模計算系統(tǒng)。神經(jīng)擬態(tài)芯片的設計目的不再僅僅局限于加速深度學習算法 ,而是在芯片基本結(jié)構(gòu)甚至器件層面上改變設計 ,希望能夠開發(fā)出新的類腦計算機體系結(jié)構(gòu),比如采用憶阻器和ReRAM等新器件來提高存儲密度。這類芯片技術(shù)尚未完全成熟 ,離大規(guī)模應用還有很長的距離 ,但是長期來看類腦芯片有可能會帶來計算機體系結(jié)構(gòu)的革命 。
2.2.2 按功能分類
根據(jù)機器學習算法步驟 ,可分為訓練(training)和推斷(inference)兩個環(huán)節(jié) 。訓練環(huán)節(jié)通常需要通過大量的數(shù)據(jù)輸入,訓練出一個復雜的深度神經(jīng)網(wǎng)絡模型。訓練過程由于涉及海量的訓練數(shù)據(jù)和復雜的深度神經(jīng)網(wǎng)絡結(jié)構(gòu) ,運算量巨大 ,需要龐大的計算規(guī)模 ,對于處理器的計算能力 、精度 、可擴展性等性能要求很高。目前市場上通常使用英偉達的GPU集群來完成 ,Google的TPU2.0/3.0也支持訓練環(huán)節(jié)的深度網(wǎng)絡加速 。
推斷環(huán)節(jié)是指利用訓練好的模型 ,使用新的數(shù)據(jù)去“推斷”出各種結(jié)論。這個環(huán)節(jié)的計算量相對訓練環(huán)節(jié)少很多 ,但仍然會涉及到大量的矩陣運算 。在推斷環(huán)節(jié)中 ,除了使用CPU或GPU進行運算外 ,F(xiàn)PGA以及ASIC均能發(fā)揮重大作用。表2是4種技術(shù)架構(gòu)的芯片在人工智能系統(tǒng)開發(fā)上的對比 。
2.2.3 按應用場景分類
主要分為用于服務器端(云端)和用于移動端( 終 端 )兩 大 類 。
服務器端:在深度學習的訓練階段 ,由于數(shù)據(jù)量及運算量巨大 ,單一處理器幾乎不可能獨立完成1個模型的訓練過程 ,因此 ,負責AI算法的芯片采用的是高性能計算的技術(shù)路線 ,一方面要支持盡可能多的網(wǎng)絡結(jié)構(gòu)以保證算法的正確率和泛化能力;另一方面必須支持浮點數(shù)運算;而且為了能夠提升性能必須支持陣列式結(jié)構(gòu)(即可以把多塊芯片組成一個計算陣列以加速運算)。在推斷階段,由于訓練出來的深度神經(jīng)網(wǎng)絡模型仍非常復雜 ,推斷過程仍然屬于計算密集型和存儲密集型 ,可以選擇部署在服務器端 。
移 動 端( 手 機 、智 能 家 居 、無 人 車 等 ):移 動 端AI芯片在設計思路上與服務器端AI芯片有著本質(zhì)的區(qū)別。首先,必須保證很高的計算能效;其次,在高級輔助駕駛ADAS等設備對實時性要求很高的場合 ,推斷過程必須在設備本身完成 ,因此要求移動端設備具備足夠的推斷能力。而某些場合還會有低功耗 、低延遲 、低成本的要求 ,從而導致移動端的AI芯片多種多樣 。
人工智能芯片研究現(xiàn)狀
3.1 研究背景
人工智能芯片的核心為神經(jīng)網(wǎng)絡算法的實現(xiàn)。深度神經(jīng)網(wǎng)絡(DNN)已經(jīng)在自然語言處理、機器視覺、語音識別、醫(yī)學影像分析等眾多人工智能領域取得了重大突破[28-29]。深度學習主要分為傳統(tǒng)卷積神經(jīng) 網(wǎng) 絡(CNN)和 遞 歸 神 經(jīng) 網(wǎng) 絡(RNN),其 依 賴 于 大數(shù)據(jù)集的反復訓練和大量浮點運算推理運算 ,這對計算機算力要求較高 ,訓練時間長 ,功耗極大。以Alpha Go為例 ,其基于1 920個中央處理單元和280個圖形處理單元 ,功耗為1 MW,這幾乎是人腦能耗(~20 W)的5萬倍。近年來,人工智能被視為有極大的潛力應用于物聯(lián)網(wǎng)和邊緣計算領域中 ,因此需要具備高能效、快速預測 ,在線學習的能力,以避免向后端或服務器發(fā)送大量的數(shù)據(jù)[30-32]。
人工智能算法、架構(gòu) 、電路 、器件等各個層面得到了很大的改進和優(yōu)化 ,以減少推理的能量消耗 ,同時保持分類精度等性能指標[30,32-34]。通過定制ASIC設計實現(xiàn)節(jié)能推理硬件加速器的工作已經(jīng)實現(xiàn)了相當高的能效(1 TFlops/W),但基于反向傳播的深度學習算法需要頻繁地從遠程傳播誤差信號 ,因此很難實現(xiàn)有效的在線學習。由于能量效率低下和缺乏有效的在線學習方法 ,以CNN和RNN為代表的許多深度學習算法不適合以事件驅(qū)動和對能效要求極高的新興人工智能應用,例如物聯(lián)網(wǎng)智能傳感器和邊緣計算等[31-32,35]。
在此背景下 ,人工智能領域科學家提出脈沖神經(jīng)網(wǎng)絡(SNN),其被譽為第三代人工神經(jīng)網(wǎng)絡 。
SNN在神經(jīng)元模型之間使用時序脈沖序列來表示 、傳輸和處理信息 ,來保證了更快的在線學習和更高的能量效率。相比傳統(tǒng)的人工神經(jīng)網(wǎng)絡(CNN和RNN),SNN具備了更多獨特的仿腦特性 ,包括信息的脈沖表示 、事件驅(qū)動的信息處理和基于脈沖的局部學習規(guī)則等 ,更加接近于生物神經(jīng)網(wǎng)絡中的學習和記憶機制。因此 ,由于脈沖神經(jīng)網(wǎng)絡其快速的在線學習 、極高的能量效率 、與人腦的高度相似性 ,近年來是人工智能科學領域極具科學意義的研究課題[36-37]。
3.2 研究現(xiàn)狀
近年來 ,世界上著名的學術(shù)研究機構(gòu)和國際半導體公司都在積極研究和開發(fā)基于脈沖的神經(jīng)擬態(tài)電路[38-45]。如表3所示 ,基于SNN的神經(jīng)擬態(tài)計算硬件比基于傳統(tǒng)DNN的硬件加速器具有更高的能量效率。大多數(shù)最先進的神經(jīng)擬態(tài)計算芯片[39-41,44]都是基于成熟的CMOS硅技術(shù)對SNN進行ASIC設計 ,通過SRAM等存儲器模擬實現(xiàn)人工突觸 ,并利用關鍵的數(shù)字或模擬電路仿生實現(xiàn)人工神經(jīng)元。其中最具有代表性的是IBM公司研發(fā)的基于CMOS多核架構(gòu)TrueNorth芯片[40],當模擬100萬個神經(jīng)元和2億5000萬個突觸時,該芯片僅消耗70mW的功耗 ,每個突觸事件僅消耗26 pJ的極高能量效率 。然而 ,為了模仿生物突觸和神經(jīng)元的類腦特性 ,電子突觸和神經(jīng)元需要高度復雜的CMOS電路來實現(xiàn)所需的人工突觸和神經(jīng)元的功能 ,如圖2所示 。
以IBM的TrueNorth芯片為例 ,它包含54億個晶體管 ,在28nm工藝下占據(jù)4.3 cm2的面積。因此 ,這一類基于脈沖的神經(jīng)擬態(tài)CMOS硬件電路使用大量的晶體管 ,并導致耗費非常大的芯片面積。加之 ,現(xiàn)有的大多數(shù)神經(jīng)擬態(tài)芯片[39-41,44]由于其計算單元與存儲單元在局部依然是分離的 ,這在用于神經(jīng)元的CMOS邏輯電路和用于突觸的SRAM電路之間依然存在局部的存儲壁壘問題和能量效率問題 ,所以實際上還不是真正意義上的非馮 · 諾依曼體系結(jié)構(gòu)。不過最新的具有三維堆疊能力的非易失性存儲器(NVM)技術(shù)或存內(nèi)計算技術(shù)(in-memorycomputing)有望解決這一問題 。
另一項由IBM開發(fā)的基于新型NVM技術(shù)的脈沖神經(jīng)網(wǎng)絡功能芯片[42]證明了在非馮 · 諾依曼體系結(jié)構(gòu)中使用相變存儲器(PCRAM)這一創(chuàng)新的NVM技術(shù)能夠?qū)崿F(xiàn)極低的能耗(僅為0.9 pJ/bit)。由占據(jù)在交叉點的相變存儲電阻組成了十字交叉整列結(jié)構(gòu) ,連同CMOS模擬電路一起實現(xiàn)脈沖時序依賴可塑性(STDP)學習規(guī)則的突觸可塑性功能和帶泄漏積分放電(LIF)的神經(jīng)元功能 ,如圖3所示。但是 ,由于預測精度的問題 ,該芯片只能執(zhí)行簡單的應用任務 ,完成基本模式的聯(lián)想學習。IBM的基于脈沖的神經(jīng)擬態(tài)芯片反映了在人工神經(jīng)元和突觸 ,以及新興的NMV技術(shù)的研究領域里最新的科研進展。
在借鑒國外研究工作的同時 ,我國也大力發(fā)展基于脈沖的神經(jīng)擬態(tài)芯片研究。清華大學團隊提出一款基于CMOS技術(shù)的多核架構(gòu)類腦芯片天機一號[44],實現(xiàn)了支持LIF的人工神經(jīng)元功能。北京大學團隊提出了一種基于憶阻器陣列的神經(jīng)擬態(tài)芯片[45],實現(xiàn)了簡化的LIF功能和簡單的赫伯學習機制。憶阻器是一種新型的NVM器件 ,具有獨特的模擬特性和可擴展性 ,并且由于其出色的能耗效率和器件特性 ,可以進一步提高神經(jīng)擬態(tài)芯片的集成規(guī)模和整體效能[46-52]。
至今基于脈沖的神經(jīng)擬態(tài)芯片的主要研究方法是通過對生物神經(jīng)科學中已發(fā)現(xiàn)的生物行為特征進行直接模擬和仿生實現(xiàn) ,包括算法建模 、電路創(chuàng)新 、新型器件技術(shù)等各個層面的研究和探索。雖然基于神經(jīng)擬態(tài)計算算法的人工智能芯片技術(shù)近年來已得到很大的發(fā)展和進步 ,但是依然難以實現(xiàn)所有的已知生物學習機制 ,僅通過對SNN模型的優(yōu)化來達到近似或模仿一些生物現(xiàn)象從而實現(xiàn)一些簡單的學習功能 ,比如路徑規(guī)劃和手寫識別。這些簡化的類腦模型包括基于脈沖時序依賴的更新規(guī)則的突觸模型和基于確定的線性積分放電動態(tài)的神經(jīng)元模型[40-41]。
人工智能芯片產(chǎn)業(yè)現(xiàn)狀
4.1 產(chǎn)業(yè)現(xiàn)狀評述
AI芯片是芯片產(chǎn)業(yè)和人工智能產(chǎn)業(yè)整合的關鍵 ,特別是AI系統(tǒng)芯片。根據(jù)Gartner的預測數(shù)據(jù) ,未來5年內(nèi)全球人工智能芯片市場規(guī)模將呈飆升趨勢 ,自2018年的42.7億美元 ,升高至343億美元 ,增長已超過7倍,可見AI芯片市場有較大增長空間,如圖4所示。
對于中國AI芯片市場 ,根據(jù)中國信通院的數(shù)據(jù)報告 ,中國的人工智能市場規(guī)模預計在2018年超過300億人民幣 ,而2019年后將超過500億人民幣。市場年度增長率 ,將從2017年的52.8%上升至2018年的56.3%,隨后逐年下降 ,在2020年降至42.0%。其中 ,2017年芯片銷售額占人工智能市場規(guī)模的22%,約47.7億人民幣,如圖5所示。
現(xiàn)今 ,中國已有超過20家以上的新創(chuàng)AI芯片設計企業(yè) ,融資總額超過30億美元。AI芯片行業(yè)生命周期正處于幼稚期 ,市場增長快 ,至2022年將從2018年的42.7億美元 ,發(fā)展至343億美元 ,但芯片企業(yè)與客戶的合作模式仍在探索中。為了生存 ,行業(yè)逐漸出現(xiàn)上下游整合的趨勢。云端(含邊緣端)服務器 、智慧型手機和物聯(lián)網(wǎng)終端設備等3個場景 ,是目前AI芯片企業(yè)的主要落地市場 ,少數(shù)企業(yè)則是面向未來的自動駕駛汽車市場。這些市場都具有千萬量級出貨量或百億美元銷售額等特征 。
然而 ,中國長期面臨集成電路的進口額大于出口額的情況 ,根據(jù)海關總署的統(tǒng)計 ,如圖6所示 ,2018年進口總額正式突破3 000億美元 ,約達3 121億美元 ,同比2017年增長了19.8%。相較之下 ,集成電路的出口總額在2018年時僅846億美元 ,尚不到進口額的1/3,而同年原油進口額約為2 400億美元 ,由此可見,中國極度依賴于國外芯片制造商。目前國內(nèi)芯片制造技術(shù)尚待提高,但由于半導體的分工模式相當成熟 ,國內(nèi)芯片設計企業(yè)并不需要擔心芯片生產(chǎn)問題 。
4.2 AI 芯片產(chǎn)業(yè)鏈
AI芯片產(chǎn)業(yè)鏈主要分成設計—制造/封測—系統(tǒng)。
(1)上游:主要是芯片設計,按商業(yè)模式,可再細分成3種:IP設計 、芯片設計代工和芯片設計。IP設計即設計芯片用的IP核(IP core)。
(2)中游:包含兩大類 ,分別是晶圓制造和封裝測試 ,晶圓不僅是在封裝時測試 ,制造后也會有一次測試 ,封裝后再有一次 。
(3)下游:分成銷售和系統(tǒng)集成(systemintegration)企業(yè) ,其中提供軟硬件集成解決方案的企業(yè)會被歸屬在系統(tǒng)集成商中 ,例如人工智能解決方案商。
4.3 AI芯片商業(yè)模式
按半導體上游與中游的集成與否 ,市場分成兩種商業(yè)模式 。
(1)垂直集成模式:又稱IDM,歸屬于該模式的企業(yè)業(yè)務同時包含設計和制造/封測。IDM模式的代表企業(yè)是英特爾和三星 。
(2)垂直分工模式:采取分工模式的企業(yè)僅只專營一項業(yè)務 ,比如英偉達和華為海思僅有芯片設計 ,沒有制造業(yè)務,稱作Fabless;而臺積電和中芯國際僅代工制造,不涉及芯片設計 ,稱作Foundry。
4.4 AI芯片設計產(chǎn)業(yè)模式
芯片設計的產(chǎn)業(yè)模式分為IP設計 、芯片設計代工和芯片設計3種。
(1)IP設計:IP設計相較于芯片設計是在產(chǎn)業(yè)鏈的更頂層,以IP核授權(quán)收費為主。傳統(tǒng)的IP核授權(quán)企業(yè)以安謀(Arm)為代表 ,新創(chuàng)的AI芯片企業(yè)雖然也可設計出新型IP核 ,但因授權(quán)模式不易以規(guī)模效應創(chuàng)造出可觀的收入 ,新創(chuàng)企業(yè)一般不以此作為主要盈利模式。另外還有提供自動化設計(EDA tool)和芯片設計驗證工具的Cadence和Synopsys,也在積極部署人工智能專用芯片領域。
(2)芯片設計代工:芯片設計代工和制造業(yè)的代工一樣 ,提供設計代工服務的企業(yè) ,并不能在產(chǎn)品上貼上自己的標簽 ,也不能對外宣稱該產(chǎn)品由自己設計。芯原科技已經(jīng)從事相關服務多年 ,也和恩智浦(NXP)有合作關系 。
(3)芯片設計:大部分的人工智能新創(chuàng)企業(yè)是以芯片設計為主 ,但在這個領域中存在傳統(tǒng)強敵 ,如英偉 達 、英 特 爾 、賽 靈 思(Xilinx)和 恩 智 浦 ,因 而 目 前 只有少數(shù)新創(chuàng)AI芯片設計企業(yè)會進入傳統(tǒng)芯片企業(yè)的產(chǎn)品領域 ,例如 ,寒武紀與英偉達競爭服務器芯片市場 ,地平線與英偉達及恩智浦競爭自動駕駛芯片市場,其余企業(yè)則是在物聯(lián)網(wǎng)場景上布局,像是提供語音辨識芯片的云知聲 ,提供人臉辨識芯片的中星微,以及提供邊緣計算芯片的耐能科技。
半導體的垂直分工模式雖有助于純芯片設計企業(yè)的生存 ,不過單一芯片難以單獨實現(xiàn)復雜功能 ,于是有些企業(yè)開始提供芯片集成服務 ,集成后的產(chǎn)品稱作系統(tǒng)或IC(integrated circuit)模塊 ,在人工智能領域則稱為AI系統(tǒng)或AI模塊。一般而言 ,人工智能企業(yè)會同時提供算法和芯片的集成服務 ,該類企業(yè)通常被稱為“人工智能方案解決商”,或稱AI一站式服務(AI Turnkey)。
4.5 AI 芯片產(chǎn)品類型
根據(jù)集成的產(chǎn)品類型可再分成兩類 ,即硬件集成和軟件集成 。(1)硬件集成:將不同功能的芯片集成于同一塊電路板(PCB)上 ,即被稱為硬件集成 ,其中會包含核心處理器、協(xié)處理器(加速芯片)、存儲器和其他零件。硬件集成初級的產(chǎn)品是板上系統(tǒng)(system onboard),但終極目標是將多個芯片集成在一塊芯片上形成系統(tǒng)芯片,或稱片上系統(tǒng)(system on chip),如圖7所示。
(2)軟件集成:根據(jù)集成硬件的需求或純粹軟件集成的需求 ,軟體工程師將不同軟件(software)和固件(firmware)集成起來安裝到板上系統(tǒng)或片上系統(tǒng)中 。因AI芯片設計的難度并沒有過往的CPU高 ,為增加行業(yè)競爭優(yōu)勢 ,人工智能企業(yè)除本身提供的系統(tǒng)集成服務外 ,也開始往芯片設計方向整合。與此同時 ,AI芯片企業(yè)為了加速產(chǎn)品落地 ,減少尋找客戶的難度 ,會同時兼任芯片企業(yè)和集成商這兩種身份。于是,目前行業(yè)呈現(xiàn)人工智能與芯片產(chǎn)業(yè)雙向整合的情況。整合后的AI系統(tǒng)集成商可以將更高性能、更低價格 、更低功耗的系統(tǒng)芯片( 片上系統(tǒng))方案提供給客戶 。
4.6 存在的問題
因系統(tǒng)芯片開發(fā)技術(shù)復雜 ,人才缺口成為首要難題。系統(tǒng)芯片設計的關鍵技術(shù)包含但不限于以下6項:(1)總線架構(gòu)技術(shù);(2)IP核可復用技術(shù);(3)軟硬件協(xié)同設計技術(shù);(4)時序分析技術(shù);(5)驗證技術(shù);(6)可測性設計技術(shù)。以上關鍵技術(shù)皆涉及跨學科知識 ,且開發(fā)流程復雜 ,工序可多達40個,每個工序都需要一位專業(yè)工程師負責執(zhí)行工作 ,開發(fā)過程需要前后反復多次驗證設計 ,避免流片失敗。
系統(tǒng)芯片(SoC)設計與AI加速芯片(ASIC)設計相比 ,前者的設計難度更高 ,兩者之間的差異主要表現(xiàn)在以下兩點:第一,系統(tǒng)芯片設計需要更加了解整個系統(tǒng)的運作 ,由此可更合理的定義芯片架構(gòu) ,使得軟硬件集成達到系統(tǒng)最佳工作狀態(tài)。第二 ,系統(tǒng)芯片設計是以IP核復用為基礎 ,基于IP模塊的大規(guī)模集成電路設計是系統(tǒng)芯片實現(xiàn)的關鍵。綜上所述 ,系統(tǒng)芯片設計團隊或以系統(tǒng)芯片為目標創(chuàng)立的AI芯片企業(yè) ,首先面臨的是人才技術(shù)儲備問題 ,再來才是后續(xù)問題。
4.7 AI芯片落地情況分析
現(xiàn)如今 ,云端與終端皆有AI芯片落地。其中服務器 、手機 、智能家居 、自動駕駛是主要落地場景 。由于AI芯片是實現(xiàn)人工智能用途或深度學習應用的專用芯片 ,芯片與算法的結(jié)合程度高 ,因此接下來將會按照用途 、部署位置以及應用場景來討論AI芯片的落地及相關市場規(guī)模 。
在人工智能的技術(shù)基礎上 ,深度學習算法對于使用者來說會有“訓練”和“推理”兩種用途 ,這是因為深度學習算法就如同人類的大腦一樣 ,需要經(jīng)過學習才能做出判斷 ,就像人要能辨識貓狗 ,首先需要學習了解貓狗的特征。因此 ,企業(yè)在部署人工智能設備時 ,也會經(jīng)歷算法/模型訓練 ,再進行推理應用。一般來說 ,如圖8所示 ,執(zhí)行訓練任務的AI芯片僅會部署在云端和邊緣端上 ,而執(zhí)行推理任務的AI芯片會部署在云端 、邊緣端和終端上 ,應用范圍更廣 ,這是因為推理的算力需求較低。應用場景和深度學習算法的類型有關。
計算機視覺通常會使用卷積神經(jīng)網(wǎng)絡(CNN)訓練模型 ,自然 語 言 處 理(NLP)則 會 使 用 循 環(huán) 神 經(jīng) 網(wǎng) 絡(RNN)訓練模型,AI芯片也主要應用于視覺和語言。但是,相較于CNN和RNN等較舊的算法 ,現(xiàn)在深度學習算法持續(xù)在演變中,因此行業(yè)應用時并不局限于上述兩類算法。每家人工智能企業(yè)都有自己獨特的算法,AI芯片企業(yè)也是一樣 ,會根據(jù)自己的改良算法來設計AI芯片。
4.7.1 云端市場
隨著云端市場需求不斷上升 ,服務器AI芯片的市場前景樂觀。按照AI芯片的部署位置 ,可簡單將AI芯片市場分成云端(邊緣端并入云端)市場和終端市場兩類 ,具有云計算需求的行業(yè)主要是金融業(yè) 、醫(yī)療服務業(yè) 、制造業(yè) 、零售/批發(fā)以及政府部門等5大行業(yè)。
根據(jù)IDC數(shù)據(jù) ,如圖9所示 ,云計算需求增長快速 ,在2018~2019年全球云計算支出將迎來大幅度增長 ,5大行業(yè)的支出最低增長17.3%,最高26.3%,其中以醫(yī)療業(yè)的需求最高 ,超100億美元。與此同時 ,根據(jù)IDC數(shù)據(jù) ,2018年第三季度全球服務器設備的出貨量達320萬臺 ,營收達234億美元以上 ,從出貨增長率來看 ,2018年全年營收達1 000億美元以上 ,遠超過2017年營收669億美元 。
云計算支出的快速增長 ,代表云計算的需求旺盛。服務器的出貨量持續(xù)提升 ,也意味著部署服務器的AI芯片的需求量跟著提升。由此可見 ,云端芯片的市場未來將快速增長 。
4.7.2 終端市場
當前的終端市場上 ,主要有兩大落地場景 ,一個是智慧型手機 ,另一個是物聯(lián)網(wǎng)設備。手機又被稱作移動端 ,在智慧型手機上 ,AI芯片的主要任務是拍照后的圖像處理 ,以及協(xié)助智慧助理的語音處理 。根據(jù)IDC的數(shù)據(jù) ,全球智慧型手機出貨量已經(jīng)連續(xù)兩年超過14億部 ,其中全球前5大廠商中有3家是中國企業(yè),按2018年出貨量由高到低排序依次為,華為2.06億部、小米1.23億部,和OPPO1.13億部。
除手機之外 ,物聯(lián)網(wǎng)也是當前終端市場中重要的一部分。根據(jù)IDC數(shù)據(jù) ,物聯(lián)網(wǎng)的市場主要在產(chǎn)業(yè)應用上 ,制造業(yè) 、運輸業(yè)和公用事業(yè)合計超過3 290億美元,其中消費性產(chǎn)品(包含智能家居、穿戴設備、智慧座艙等)占1 080億美元。AI芯片在物聯(lián)網(wǎng)產(chǎn)品上的應用主要有兩個用途 ,一個是視覺AI芯片 ,另一個是語音AI芯片 ,但因為自然語言處理的AI產(chǎn)品開發(fā)難度高 ,目前新創(chuàng)AI芯片企業(yè)主要切入的市場是計算機視覺設備的落地場景 ,比如家庭安全設備。根據(jù)IDC數(shù)據(jù) ,全球智能家居市場中的家庭安全設備出貨量已達9 770萬臺 ,而智能音箱也有9 980萬臺設備 ,兩類設備至2022年都會增長超過2億以上。總而言之 ,物聯(lián)網(wǎng)在智能家居場景落地可以保證具有千萬銷售量的市場。
未來,自動駕駛將是終端芯片應用的另一塊重要場景。根據(jù)MARKLINES的數(shù)據(jù) ,2014年中國汽車銷售量為2 349.2萬輛 ,2018年已增長至2 808.1萬輛。中國千萬量級汽車銷售市場對于開發(fā)自動駕駛技術(shù)的企業(yè)具有極大吸引力。縱然中國汽車銷售量已達千萬量級 ,但目前電動車銷售量仍不及整體汽車銷售量的10%,而自動駕駛技術(shù)的發(fā)展是以電動車為主 ,電動車市場有很大的增長空間 。
結(jié)論
目前,我國的人工智能芯片行業(yè)發(fā)展尚處于起步階段。長期以來,中國在CPU、GPU、DSP處理器設計上一直處于追趕地位 ,絕大部分芯片設計企業(yè)依靠國外的IP核設計芯片 ,在自主創(chuàng)新上受到了極大的限制。然而 ,人工智能的興起 ,無疑為中國在處理器領域?qū)崿F(xiàn)彎道超車提供了絕佳的機遇。人工智能領域的應用目前還處于面向行業(yè)應用階段 ,生態(tài)上尚未形成壟斷 ,國產(chǎn)處理器廠商與國外競爭對手在人工智能這一全新賽場上處在同一起跑線上。因此 ,基于新興技術(shù)和應用市場 ,中國在建立人工智能生態(tài)圈方面將大有可為 。
由于我國特殊的環(huán)境和市場 ,國內(nèi)AI芯片的發(fā)展目前呈現(xiàn)出百花齊放 、百家爭鳴的態(tài)勢 ,AI芯片的應用領域也遍布股票交易 、金融 、商品推薦 、安防 、早教機器人以及無人駕駛等眾多領域 ,催生了大量的人工智能芯片創(chuàng)業(yè)公司 ,如北京地平線信息技術(shù)有限公司、北京深鑒科技有限公司、北京中科寒武紀科技有限公司等。盡管如此 ,國內(nèi)公司卻并未如國外大公司一樣形成市場規(guī)模 ,反而出現(xiàn)各自為政的散裂發(fā)展現(xiàn)狀。除了新興創(chuàng)業(yè)公司 ,國內(nèi)研究機構(gòu)如北京大學 、清華大學 、中國科學院等在AI芯片領域都有深入研究;而其他公司如百度和北京比特大陸科技有限公司等亦在積極布局人工智能芯片產(chǎn)業(yè) ??梢灶A見 ,未來誰先在人工智能領域掌握了生態(tài)系統(tǒng) ,誰就掌握住了這個產(chǎn)業(yè)的主動權(quán) 。
-
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4814瀏覽量
103532 -
gpu
+關注
關注
28文章
4938瀏覽量
131193 -
AI芯片
+關注
關注
17文章
1983瀏覽量
35890
發(fā)布評論請先 登錄
瑞芯微rv1106開發(fā)資料 rv1106數(shù)據(jù)手冊 rv1106詳細說明書免費下載

調(diào)試變頻器詳細說明
編碼器常見的故障詳細說明
STM32G0B1VE芯片的CAN過濾器分為掩碼模式和列表模式,在列表模式下,可過濾多少個ID呢?

評論