神經(jīng)網(wǎng)絡(luò)可以被歸類為一組大致模仿人腦建模方式的算法,能夠通過引入新數(shù)據(jù)來完成“學(xué)習(xí)”過程。因此,開發(fā)專用的“計(jì)算高效型”神經(jīng)網(wǎng)絡(luò)模型,會為機(jī)器學(xué)習(xí)帶來諸多好處。
然而,如何才能確保模型的高效性,關(guān)鍵點(diǎn)之一是在實(shí)現(xiàn)推斷加速器(廣義的硬件加速器)時應(yīng)采用何種方式訪問存儲器,特別是要考慮如何將權(quán)重和中間激活值一起儲存。幾項(xiàng)關(guān)鍵考量包括:
時延
對 L1、L2 和 L3 存儲器的訪問表現(xiàn)出相對較低的時延。如果與下一個圖形運(yùn)算有關(guān)的權(quán)重和激活值被緩存起來,那么我們就能保持合理水平的效率。然而,如果我們要從外部 DDR 提取數(shù)據(jù),就會發(fā)生流水線停頓,進(jìn)而影響時延和效率。
功耗
訪問外部存儲器的能耗至少比訪問內(nèi)部存儲器大一個數(shù)量級。
計(jì)算飽和
一般而言,應(yīng)用要么受計(jì)算限制,要么受存儲器限制。這可能會影響給定推斷范式中可實(shí)現(xiàn)的 GOP/TOP,而且在某些情況下,這種影響不可小視。如果被部署的具體網(wǎng)絡(luò)的實(shí)際性能是 1 TOP,那么使用能達(dá)到 10 TOP 峰值性能的推斷引擎價值就不大。
What's more?
更進(jìn)一步,考慮到訪問現(xiàn)代賽靈思器件里的內(nèi)部 SRAM(熟悉賽靈思 SoC 的人也稱其為 BRAM 或 UltraRAM),其能耗大約在幾微微焦耳,與訪問外部 DRAM 的能耗相比,低大約兩個數(shù)量級。
過去幾年里已有多種方法投入使用并獲得不同程度的成功,相關(guān)的架構(gòu)選擇帶來的影響十分顯著。本文將以 TPUv1 架構(gòu)為例,詳細(xì)闡述如何運(yùn)用專門構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型,進(jìn)一步提升機(jī)器學(xué)習(xí)推斷的效率。
原文標(biāo)題:提升效率的神經(jīng)網(wǎng)絡(luò)模型出現(xiàn)了!
文章出處:【微信公眾號:FPGA開發(fā)圈】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
責(zé)任編輯:haq
-
存儲器
+關(guān)注
關(guān)注
38文章
7648瀏覽量
167297 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103532
原文標(biāo)題:提升效率的神經(jīng)網(wǎng)絡(luò)模型出現(xiàn)了!
文章出處:【微信號:FPGA-EETrend,微信公眾號:FPGA開發(fā)圈】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
無刷電機(jī)小波神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)子位置檢測方法的研究
基于FPGA搭建神經(jīng)網(wǎng)絡(luò)的步驟解析

BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的比較
如何優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率
BP神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點(diǎn)分析
BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系
如何訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)模型
深度學(xué)習(xí)入門:簡單神經(jīng)網(wǎng)絡(luò)的構(gòu)建與實(shí)現(xiàn)
人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法

評論