深度學(xué)習(xí)有一個(gè)DRAM問題。設(shè)計(jì)用來實(shí)時(shí)處理復(fù)雜任務(wù)(比如,在汽車的備份攝像頭視頻流中分辨貓和孩子)的系統(tǒng),不斷地將構(gòu)成神經(jīng)網(wǎng)絡(luò)內(nèi)容的數(shù)據(jù)從存儲(chǔ)器傳送到處理器。
根據(jù)初創(chuàng)公司Flex Logix的說法,問題并不是缺乏存儲(chǔ)這些數(shù)據(jù)的空間,而是處理器和存儲(chǔ)器之間缺乏帶寬。為了將數(shù)百千兆比特的數(shù)據(jù)提供給處理器,有些系統(tǒng)需要4個(gè)甚至8個(gè)DRAM芯片,這既使占用的空間增加了不少,又消耗了大量的電能。Flex Logix表示,它為可重構(gòu)芯片開發(fā)的互連技術(shù)和tile-based架構(gòu)將使AI系統(tǒng)只需要1個(gè)DRAM芯片的帶寬,且功耗僅為十分之一。
圖片來源:Flex Logix
NMAX512tile的架構(gòu)。
位于加州山景城的Flex Logix公司已經(jīng)開始將一種新的嵌入式現(xiàn)場可編程門陣列(eFPGA)架構(gòu)商業(yè)化。但經(jīng)過一番探索后,其創(chuàng)始人之一Cheng C. Wang意識(shí)到,這項(xiàng)技術(shù)可以加快神經(jīng)網(wǎng)絡(luò)的速度。
神經(jīng)網(wǎng)絡(luò)由連接和表示連接強(qiáng)度的“權(quán)重”組成。另一位創(chuàng)始人Geoff Tate解釋說,一個(gè)好的AI芯片需要兩樣?xùn)|西。一種是一些做關(guān)鍵“推斷”計(jì)算(即乘法和累加)的電路?!暗щy的是,你必須非常擅長引入所有這些權(quán)重,以便其乘法器總能得到它們需要的數(shù)據(jù),從而進(jìn)行所需的數(shù)學(xué)運(yùn)算。Wang意識(shí)到我們?cè)?a target="_blank">FPGA的互連方面所擁有的技術(shù),他可以對(duì)它做適應(yīng)性改造,來創(chuàng)建一種非常擅長快速高效地加載權(quán)重、高性能和低功耗的架構(gòu)。”
需要快速連續(xù)地將數(shù)百萬個(gè)權(quán)重加載到網(wǎng)絡(luò)中,這就是每秒要做數(shù)萬億次到數(shù)十萬億次運(yùn)算的AI系統(tǒng)為什么需要那么多DRAM芯片的原因。DRAM芯片上的每個(gè)引腳每秒最多可以傳輸4Gb數(shù)據(jù),因此要達(dá)到所需的每秒數(shù)百Gb的數(shù)據(jù)傳輸速度,就需要多個(gè)芯片。
在為FPGA開發(fā)最初的技術(shù)時(shí),Wang注意到,這些芯片有約80%的面積互連,因此他尋求一種能夠縮小互連面積并考慮到更多邏輯的架構(gòu)。他和他在加州大學(xué)洛杉磯分校的同事對(duì)一種稱為folded-Bene?網(wǎng)絡(luò)的電信架構(gòu)做了適應(yīng)性改造來完成這項(xiàng)工作。這使得FPGA架構(gòu)看起來像一堆邏輯和SRAM的瓦片(tile)。
圖片來源:Flex Logix
Flex Logix公司表示,在芯片中構(gòu)建分布式SRAM可加快計(jì)算速度并降低功耗。
Tate說,在這種專用互連方案中使用分布式SRAM最終會(huì)對(duì)深度學(xué)習(xí)的DRAM帶寬問題產(chǎn)生重大影響。“我們正在用芯片上的SRAM取代DRAM帶寬?!?/p>
圖片來源:Flex Logix
若干NMAXtile可以置于一個(gè)芯片上并連在一起,以擴(kuò)大計(jì)算能力。
用于Flex Logix的AI產(chǎn)品的tile稱為NMAX,采用了臺(tái)積電的16納米技術(shù),面積不到2平方毫米。每個(gè)tile都由一組核心組成,這些核心這些核心負(fù)責(zé)關(guān)鍵的乘法和累加計(jì)算、控制數(shù)據(jù)的處理和流動(dòng)的可編程邏輯以及SRAM。這涉及三種不同類型的互連技術(shù)。一種tile上的所有零件連接在一起。另一種將tile與位于tile之間的附加SRAM及外部的DRAM相連接。第三種將相鄰的tile連接在一起。
在深度學(xué)習(xí)領(lǐng)域,很難進(jìn)行真正的橫向比較。但Flex Logix的分析顯示,將使用1個(gè)DRAM芯片的模擬的6×6tile的NMAX512陣列與使用8個(gè)DRAM的Nvidia Tesla T4進(jìn)行比較,結(jié)果是新架構(gòu)每秒能識(shí)別4,600張圖像,而Nvidia每秒識(shí)別3,920張圖像。在一項(xiàng)名為YOLOv3的實(shí)時(shí)視頻處理測試中,同樣大小的NMAX陣列可達(dá)到每秒22萬億次運(yùn)算,而使用的DRAM帶寬是其他系統(tǒng)的十分之一。
Tate表示,首批NMAX芯片的設(shè)計(jì)將于2019年下半年送至代工廠以便進(jìn)行制造。
Flex Logix將波音公司視作其高吞吐量嵌入式FPGA產(chǎn)品的客戶之一。但Tate承認(rèn),與神經(jīng)網(wǎng)絡(luò)相比,嵌入式FPGA是個(gè)很難賣的產(chǎn)品。“嵌入式FPGA是一項(xiàng)很好的業(yè)務(wù),但是推理可能很快就會(huì)超越它?!盩ate說。
-
DRAM
+關(guān)注
關(guān)注
41文章
2403瀏覽量
189609 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4844瀏覽量
108196 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5610瀏覽量
124651
原文標(biāo)題:Flex Logix公司稱它解決了深度學(xué)習(xí)的DRAM問題
文章出處:【微信號(hào):IEEE_China,微信公眾號(hào):IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
LPDDR4 DRAM 的 iMX8MP 的 DDR PHY 使用的 I/O 標(biāo)準(zhǔn)是什么?
EZ-USB? NX2LP-Flex?:靈活的USB NAND閃存控制器深度剖析
DRAM漲價(jià)潮下,蘋果卻逆勢擴(kuò)產(chǎn)折疊屏,底氣何在?#存儲(chǔ)芯片漲價(jià)潮#蘋果#折疊機(jī)#折疊屏
Debian flex-installer 無法下載引導(dǎo)映像怎么解決?
人工智能與機(jī)器學(xué)習(xí)在這些行業(yè)的深度應(yīng)用
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個(gè)常見錯(cuò)誤與局限性
創(chuàng)新的高帶寬DRAM解決方案
穿孔機(jī)頂頭檢測儀 機(jī)器視覺深度學(xué)習(xí)
Flex Power Modules將產(chǎn)品制造擴(kuò)展至歐洲
如何深度學(xué)習(xí)機(jī)器視覺的應(yīng)用場景
DRAM和SRAM、SDRAM相比有什么特點(diǎn)?
PSRAM融合SRAM與DRAM優(yōu)勢的存儲(chǔ)解決方案
如何在機(jī)器視覺中部署深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)
深度學(xué)習(xí)對(duì)工業(yè)物聯(lián)網(wǎng)有哪些幫助
自動(dòng)駕駛中Transformer大模型會(huì)取代深度學(xué)習(xí)嗎?
Flex Logix公司稱它解決了深度學(xué)習(xí)的DRAM問題
評(píng)論