目前,人工智能領(lǐng)域已成為最受關(guān)注的熱點(diǎn)之一。人工智能領(lǐng)域是通過對計算機(jī)的研究與開發(fā),使得其具備類似于人類智能的,對環(huán)境的輸入做出有意義的判斷反應(yīng)的研究應(yīng)用領(lǐng)域。決定人工智能質(zhì)量的因素往往是計算能力以及數(shù)據(jù)量的大小,而實(shí)現(xiàn)人工智能的方式則是機(jī)器學(xué)習(xí),讓機(jī)器通過訓(xùn)練和學(xué)習(xí)逐漸逼近我們希望其實(shí)現(xiàn)的效果。隨著處理器能力以及數(shù)據(jù)量的飛速增長,機(jī)器學(xué)習(xí)的方式也在發(fā)生革命性的變化,深度學(xué)習(xí)的概念被引入。深度學(xué)習(xí)由于其多層次形態(tài),從而增強(qiáng)了其非線性程度,可以帶來更強(qiáng)的擬合能力。此外,其類似于仿生學(xué)的逐層自動提取特征的過程,保證了所提取特征的質(zhì)量與豐富性,使得其性能相較于傳統(tǒng)的機(jī)器學(xué)習(xí)算法有了質(zhì)的提升。
隨著模型算法的發(fā)展,模型所能實(shí)現(xiàn)的性能逐步提升, 而模型本身的深度和復(fù)雜度也大大增加。以大規(guī)模圖像識別競賽(ILSVRC)為例,2012年多倫多大學(xué)的Alex Krizhecsky 隨同其倒是Geoffrey Hinton 發(fā)布的 AlexNet 以83.0%的Top5分類準(zhǔn)確率奪得冠軍,相較于之前傳統(tǒng)模型的最佳性能提升了百分之十幾。AlexNet 本身是一個具有5層卷積層和3層全連接層的卷積神經(jīng)網(wǎng)絡(luò),包含有6100萬個權(quán)重參數(shù)和7.24億次乘加運(yùn)算。2017年為止,最復(fù)雜的網(wǎng)絡(luò)模型層數(shù)已超過1000層,權(quán)重參數(shù)及乘加運(yùn)算次數(shù)都比AlexNet提升了幾個數(shù)量級,而所能實(shí)現(xiàn)的識別準(zhǔn)確率也已經(jīng)超越人眼。
對于最近打敗眾多人類圍棋高手的阿爾法圍棋(AlphaGo),在其打敗李在石的第一版分布式實(shí)現(xiàn)版本中,其復(fù)雜的決策算法模型需要1300多個CPU和280個GPU來提供算力的支撐。由此可見,面對日益復(fù)雜的人工智能算法,要滿足嚴(yán)格的功耗與實(shí)時性需求,需要有強(qiáng)大的處理器作為支持;因此對處理器芯片的精細(xì)化設(shè)計,成為提升芯片計算功能,滿足應(yīng)用需求的必要條件。
通常來講,無論是對于人工智能的模型訓(xùn)練還是前向推斷應(yīng)用過程,處理器芯片的計算速度都是需要首先考慮的指標(biāo);而在某些諸如嵌入式移動端的低功耗場景中,對于硬件計算的功耗也需要加以嚴(yán)格的控制。傳統(tǒng)的CPU由于其串行執(zhí)行的方式,在應(yīng)對數(shù)據(jù)與計算密集型的人工智能算法時顯得捉襟見肘。因此,增加處理器計算的并行度成為性能提升的一個主要方向。英偉達(dá)提出了通用計算GPU(GPGPU)的概念,將具有大量可并行計算流處理器的GPU運(yùn)用到人工智能算法的研發(fā)過程中, 并提供了成熟而穩(wěn)定的諸如CUDA和cuDNN的軟件環(huán)境支持。由于GPU強(qiáng)大的計算能力,在關(guān)注模型準(zhǔn)確度和以數(shù)據(jù)中心及服務(wù)器環(huán)境為主的模型訓(xùn)練場景中,GPU得到了廣泛的應(yīng)用。但同時我們也注意到,常見的GPU板卡功耗高達(dá)200-300W,這使得其在需要低功耗場景中的應(yīng)用受到局限。因此,針對應(yīng)用場景和算法類型,對芯片內(nèi)部結(jié)構(gòu)進(jìn)行定制化的設(shè)計,從而提升芯片整體的能效比,成為人工智能芯片發(fā)展的另一主流方向。
通常而言,對于某一類型的人工智能算法,其往往具備可劃分的特性,并且劃分的子算法塊具有一定的相似性。以圖像應(yīng)用中常見的卷積神經(jīng)網(wǎng)絡(luò)為例,運(yùn)算最密集的卷積層就可以抽象為滑窗類型的乘加操作,而滑窗的大小及步幅,計算通道數(shù)的大小等均可以被抽象為可配置的參數(shù)。在硬件結(jié)構(gòu)的設(shè)計過程中,往往會針對算法劃分及抽象的方式,在計算通路和存儲結(jié)構(gòu)上進(jìn)行定制化,可配置的設(shè)計。大部分研究者會采用FPGA芯片實(shí)現(xiàn)的方式,快速地迭代開發(fā)出加速硬件結(jié)構(gòu)。多家研究機(jī)構(gòu)已紛紛在頂級學(xué)術(shù)會議上發(fā)布了基于FPGA的加速結(jié)構(gòu)設(shè)計,而業(yè)界企業(yè)也都開始將常見的算法模型通過FPGA加速器實(shí)現(xiàn)的形式部署到應(yīng)用端,并且實(shí)現(xiàn)了較好的性能和較低的功耗。下一步,我們也可以將計算及存儲核心部分進(jìn)行電路固化,以專用集成電路(ASIC)的方式實(shí)現(xiàn),以達(dá)到更高的能效比。目前已知的優(yōu)秀ASIC芯片設(shè)計,已能在實(shí)現(xiàn)數(shù)百GOPS(每秒十億次運(yùn)算數(shù))級別計算能力的情況下將功耗控制在毫瓦級別。ASIC在具備廣泛應(yīng)用市場的前提下,具有高能效比,量產(chǎn)成本低的諸多優(yōu)勢,但其一次性的工程費(fèi)用及較大的開發(fā)成本,在快速的算法演進(jìn)過程中往往會具有一定風(fēng)險。因此,針對不同的研發(fā)及市場需求,應(yīng)該選取不同的平臺予以實(shí)現(xiàn)。
近年來,針對硬件實(shí)現(xiàn)的算法優(yōu)化也在不斷發(fā)展,包括數(shù)據(jù)量化,模型稀疏化等多項技術(shù)都取得了進(jìn)展;而這些技術(shù)都有助于降低人工智能芯片的片上計算資源及存儲帶寬限制,以更低的硬件代價實(shí)現(xiàn)更高的吞吐速率。而數(shù)據(jù)位寬變化以及模型稀疏帶來的不規(guī)則性,則對硬件結(jié)構(gòu)的實(shí)現(xiàn)提出了挑戰(zhàn)。未來的人工智能芯片設(shè)計,將更趨向于軟硬件協(xié)同設(shè)計的模式,從軟硬件兩個方向分別進(jìn)行限制條件的考量以及優(yōu)化路徑的選取,從而實(shí)現(xiàn)更優(yōu)化,更通用的解決方案。
審核編輯:劉清
-
處理器芯片
+關(guān)注
關(guān)注
0文章
120瀏覽量
20290 -
人工智能算法
+關(guān)注
關(guān)注
0文章
62瀏覽量
5741 -
人工智能芯片
+關(guān)注
關(guān)注
1文章
122瀏覽量
30736
原文標(biāo)題:人工智能芯片設(shè)計
文章出處:【微信號:Semi Connect,微信公眾號:Semi Connect】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
RFID 軟硬件協(xié)同:重塑醫(yī)療與學(xué)校領(lǐng)域的智能化管理新生態(tài)
兆芯加入基礎(chǔ)軟硬件產(chǎn)品漏洞生態(tài)聯(lián)盟
一種經(jīng)典的軟硬件結(jié)合+5V一鍵開關(guān)機(jī)電路 #MOS管 #電路原理 #半導(dǎo)體 #電子
挖到寶了!人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器
挖到寶了!比鄰星人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器!
AI芯片:加速人工智能計算的專用硬件引擎
最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門學(xué)習(xí)課程參考2025版(大模型篇)
Arm Kleidi助力輕松加速AI工作負(fù)載
繪王亮相第85屆中國教育裝備展:軟硬件協(xié)同引領(lǐng)未來教育新趨勢
國產(chǎn)24位模擬前端芯片軟硬件替換ADS1291應(yīng)用于醫(yī)療儀器(ECG/EMG/EEG)的高精度數(shù)據(jù)采集

人工智能芯片趨向于軟硬件協(xié)同設(shè)計的模式
評論