chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何用OpenCL實(shí)現(xiàn)FPGA上的大型卷積網(wǎng)絡(luò)加速?

FPGA之家 ? 來(lái)源:CSDN ? 作者:祥瑞Coding ? 2021-04-19 11:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Xilinx zynq系列FPGA實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)評(píng)估

本篇目錄

1. 內(nèi)存占用

1.1 FPGA程序中內(nèi)存的實(shí)現(xiàn)方式

1.2 Zynq的BRAM內(nèi)存大小

1.3 一個(gè)卷積操作占用的內(nèi)存

2. PipeCNN可實(shí)現(xiàn)性

PipeCNN論文解析:用OpenCL實(shí)現(xiàn)FPGA上的大型卷積網(wǎng)絡(luò)加速

2.1 已實(shí)現(xiàn)的PipeCNN資源消耗

3. 實(shí)現(xiàn)大型神經(jīng)網(wǎng)絡(luò)的方法

4. Virtex-7高端FPGA概覽、7系列FPGA相關(guān)文檔

正文

0Zynq7000系列概覽

3fd119b4-9ff3-11eb-8b86-12bb97331649.png

1內(nèi)存占用

1.1 FPGA程序中內(nèi)存的實(shí)現(xiàn)方式

參閱xilinx文檔UG998

3fe9ac4a-9ff3-11eb-8b86-12bb97331649.png

FPGA并沒(méi)有像軟件那樣用已有的cache,F(xiàn)PGA的HLS編譯器會(huì)在FPGA中創(chuàng)建一個(gè)快速的memory architecture以最好的適應(yīng)算法中的數(shù)據(jù)樣式(data layout)。因此FPGA可以有相互獨(dú)立的不同大小的內(nèi)部存儲(chǔ)空間,例如寄存器,移位寄存器,F(xiàn)IFOs和BRAMs。

寄存器:最快的內(nèi)存結(jié)構(gòu),集成在在運(yùn)算單元之中,獲取不需要額外的時(shí)延。

移位寄存器:可以被當(dāng)作一個(gè)數(shù)據(jù)序列,每一個(gè)數(shù)據(jù)可以在不同的運(yùn)算之中被重復(fù)使用。將其中所有數(shù)據(jù)移動(dòng)到相鄰的存儲(chǔ)設(shè)備中只需要一個(gè)時(shí)鐘周期。

FIFO:只有一個(gè)輸入和輸出的數(shù)據(jù)序列,通常被用于循環(huán)或循環(huán)函數(shù),細(xì)節(jié)會(huì)被HLS編譯器處理。

BRAM:集成在FPGA fabric模塊中的RAM,每個(gè)xilinx的FPGA中集成有多個(gè)這樣的BRAM??梢员划?dāng)作有以下特性的cache:1.不支持像處理器cache中那樣的緩存一致性(cache coherency,collision),不支持處理器中的一些邏輯類型。2.只在設(shè)備有電時(shí)保持內(nèi)存。3.不同的BRAM塊可以同時(shí)傳輸數(shù)據(jù)。

1.2 Zynq的BRAM內(nèi)存大小

401c62b6-9ff3-11eb-8b86-12bb97331649.png

zynq 7z020的BRAM為4.9Mb,7z035的BRAM為17.6Mb(2.2MB)

4056ec9c-9ff3-11eb-8b86-12bb97331649.png

1.3 一個(gè)卷積操作占用的內(nèi)存

例如,我們實(shí)現(xiàn)的卷積函數(shù),輸入27×600,卷積核16×27,輸出16×600,數(shù)據(jù)類型為float。

//convolution operation for (i = 0; i 《 16; i++) { for (j = 0; j 《 600; j++) { result = 0; for (k = 0; k 《 27; k++) { temp = weights[i*27+k] * buf_in[k*600+j]; result += temp; } buf_out[i*600+j] = result; } }

在HLS中生成的IPcore占用硬件資源為:

40a24fb6-9ff3-11eb-8b86-12bb97331649.png

40c04278-9ff3-11eb-8b86-12bb97331649.png

40ca8fa8-9ff3-11eb-8b86-12bb97331649.png

在vivado中搭建好系統(tǒng),占用的資源為:

40de955c-9ff3-11eb-8b86-12bb97331649.png

4119ebde-9ff3-11eb-8b86-12bb97331649.png

2PipeCNN可實(shí)現(xiàn)性

PipeCNN是一個(gè)基于OpenCL的FPGA實(shí)現(xiàn)大型卷積網(wǎng)絡(luò)的加速器。

PipeCNN解析文檔:

PipeCNN論文解析:用OpenCL實(shí)現(xiàn)FPGA上的大型卷積網(wǎng)絡(luò)加速

github地址:https://github.com/doonny/PipeCNN#how-to-use

2.1 已實(shí)現(xiàn)的PipeCNN資源消耗

對(duì)于Altera FPGA,運(yùn)用 Intel‘s OpenCL SDK v16.1 toolset.

對(duì)于Xilinx FPGAs, the SDAccel development environment v2017.2 can be used.

413a8bc8-9ff3-11eb-8b86-12bb97331649.png

Xilinx’s KCU1500 (XCKU115 FPGA)(已經(jīng)有xilin的板子實(shí)現(xiàn)過(guò)pipeCNN,但是型號(hào)比zynq高很多)

硬件資源可以被三個(gè)宏調(diào)控,device/hw_param.cl. Change the following macros

VEC_SIZE

LANE_NUM

CONV_GP_SIZE_X

消耗資源為:

417dad0e-9ff3-11eb-8b86-12bb97331649.png

419045e0-9ff3-11eb-8b86-12bb97331649.png

3實(shí)現(xiàn)大型神經(jīng)網(wǎng)絡(luò)的方法

方案一:壓縮模型到《2.2MB,可實(shí)現(xiàn)在BRAM中

優(yōu)點(diǎn):1.速度快 2.實(shí)現(xiàn)方便

缺點(diǎn):1.模型壓縮難度 2.難以實(shí)現(xiàn)大型網(wǎng)絡(luò)

方案二:用FPGA調(diào)用DDR

優(yōu)點(diǎn):1.速度中等 2.可實(shí)現(xiàn)大型網(wǎng)絡(luò)

缺點(diǎn):調(diào)用DDR有難度,開(kāi)發(fā)周期長(zhǎng)

方案三:用片上單片機(jī)調(diào)用DDR(插入SD卡)分包傳入IPcore運(yùn)算

優(yōu)點(diǎn):可實(shí)現(xiàn)大型網(wǎng)絡(luò)

缺點(diǎn):速度較慢

4Virtex-7高端FPGA概覽

Virtex-7為高端FPGA,比Zynq高了一個(gè)檔次。

41b0185c-9ff3-11eb-8b86-12bb97331649.png

7系列FPGA相關(guān)文檔:

41d92422-9ff3-11eb-8b86-12bb97331649.png

原文標(biāo)題:Xilinx Zynq系列FPGA實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)中相關(guān)資源評(píng)估

文章出處:【微信公眾號(hào):FPGA之家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1656

    文章

    22317

    瀏覽量

    631045
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4830

    瀏覽量

    106943

原文標(biāo)題:Xilinx Zynq系列FPGA實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)中相關(guān)資源評(píng)估

文章出處:【微信號(hào):zhuyandz,微信公眾號(hào):FPGA之家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    何用FPGA控制ADV7513實(shí)現(xiàn)HDMI畫(huà)面顯示和音頻播放

    HDMI接口顯示使用DMT時(shí)序+TMDS編碼來(lái)實(shí)現(xiàn)。當(dāng)用FPGA控制HDMI的數(shù)據(jù)傳輸時(shí),通??梢圆捎眉僐TL實(shí)現(xiàn)TMDS算法或者使用專門(mén)的HDMI芯片(如ADV7513)這兩種方案來(lái)完成。本文主要是介紹如
    的頭像 發(fā)表于 12-02 11:05 ?3636次閱讀
    如<b class='flag-5'>何用</b><b class='flag-5'>FPGA</b>控制ADV7513<b class='flag-5'>實(shí)現(xiàn)</b>HDMI畫(huà)面顯示和音頻播放

    一些神經(jīng)網(wǎng)絡(luò)加速器的設(shè)計(jì)優(yōu)化方案

    特征圖保留不變,完成和所有相關(guān)卷積核點(diǎn)積以后再加載,最多復(fù)用 R*R*M 次。 3.不同網(wǎng)絡(luò)模型的效果 如圖所示,后者相對(duì)于前者,減少了連線資源和復(fù)雜度。 4.DNN加速器空間架構(gòu)片
    發(fā)表于 10-31 07:14

    CNN卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)原理及在MCU200T仿真測(cè)試

    CNN算法簡(jiǎn)介 我們硬件加速器的模型為L(zhǎng)enet-5的變型,網(wǎng)絡(luò)粗略分共有7層,細(xì)分共有13層。包括卷積,最大池化層,激活層,扁平層,全連接層。下面是各層作用介紹: 卷積層:提取
    發(fā)表于 10-29 07:49

    卷積運(yùn)算分析

    的數(shù)據(jù),故設(shè)計(jì)了ConvUnit模塊實(shí)現(xiàn)單個(gè)感受域規(guī)模的卷積運(yùn)算. 卷積運(yùn)算:不同于數(shù)學(xué)當(dāng)中提及到的卷積概念,CNN神經(jīng)網(wǎng)絡(luò)中的
    發(fā)表于 10-28 07:31

    如何利用Verilog HDL在FPGA實(shí)現(xiàn)SRAM的讀寫(xiě)測(cè)試

    本篇將詳細(xì)介紹如何利用Verilog HDL在FPGA實(shí)現(xiàn)SRAM的讀寫(xiě)測(cè)試。SRAM是一種非易失性存儲(chǔ)器,具有高速讀取和寫(xiě)入的特點(diǎn)。在FPGA
    的頭像 發(fā)表于 10-22 17:21 ?4021次閱讀
    如何利用Verilog HDL在<b class='flag-5'>FPGA</b><b class='flag-5'>上</b><b class='flag-5'>實(shí)現(xiàn)</b>SRAM的讀寫(xiě)測(cè)試

    CICC2033神經(jīng)網(wǎng)絡(luò)部署相關(guān)操作

    在完成神經(jīng)網(wǎng)絡(luò)量化后,需要將神經(jīng)網(wǎng)絡(luò)部署到硬件加速。首先需要將所有權(quán)重?cái)?shù)據(jù)以及輸入數(shù)據(jù)導(dǎo)入到存儲(chǔ)器內(nèi)。 在仿真環(huán)境下,可將其存于一個(gè)文件,并在 Verilog 代碼中通過(guò) read
    發(fā)表于 10-20 08:00

    何用FPGA實(shí)現(xiàn)4K視頻的輸入輸出與處理

    在游戲、影視和顯示領(lǐng)域,4K 已經(jīng)成為標(biāo)配。而今天,我們就來(lái)聊聊——如何用 FPGA 實(shí)現(xiàn) 4K 視頻的輸入輸出與處理。
    的頭像 發(fā)表于 10-15 10:47 ?1749次閱讀
    如<b class='flag-5'>何用</b><b class='flag-5'>FPGA</b><b class='flag-5'>實(shí)現(xiàn)</b>4K視頻的輸入輸出與處理

    全球應(yīng)用加速服務(wù)如何實(shí)現(xiàn)?網(wǎng)絡(luò)服務(wù)推薦排行榜

    和提高訪問(wèn)速度,同時(shí)提供安全防護(hù)和負(fù)載均衡功能。本文將深入解析全球應(yīng)用加速服務(wù)的實(shí)現(xiàn)方式,并為您呈現(xiàn)2025年網(wǎng)絡(luò)服務(wù)提供商排行榜。一、全球應(yīng)用加速服務(wù)的
    的頭像 發(fā)表于 09-10 09:48 ?1625次閱讀
    全球應(yīng)用<b class='flag-5'>加速</b>服務(wù)如何<b class='flag-5'>實(shí)現(xiàn)</b>?<b class='flag-5'>網(wǎng)絡(luò)</b>服務(wù)推薦排行榜

    何用SDWAN實(shí)現(xiàn)國(guó)際網(wǎng)絡(luò)加速?網(wǎng)絡(luò)服務(wù)推薦排行榜

    前言全球化業(yè)務(wù)加速與多云架構(gòu)普及的背景下,跨境SD-WAN已成為企業(yè)構(gòu)建彈性網(wǎng)絡(luò)的核心基礎(chǔ)設(shè)施,選對(duì)服務(wù)商成了成功關(guān)鍵。在全球化業(yè)務(wù)加速與多云架構(gòu)普及的背景下,跨境SD-WAN已成為企業(yè)構(gòu)建彈性
    的頭像 發(fā)表于 09-09 11:04 ?936次閱讀
    如<b class='flag-5'>何用</b>SDWAN<b class='flag-5'>實(shí)現(xiàn)</b>國(guó)際<b class='flag-5'>網(wǎng)絡(luò)</b><b class='flag-5'>加速</b>?<b class='flag-5'>網(wǎng)絡(luò)</b>服務(wù)推薦排行榜

    基于FPGA的壓縮算法加速實(shí)現(xiàn)

    本設(shè)計(jì)中,計(jì)劃實(shí)現(xiàn)對(duì)文件的壓縮及解壓,同時(shí)優(yōu)化壓縮中所涉及的信號(hào)處理和計(jì)算密集型功能,實(shí)現(xiàn)對(duì)其的加速處理。本設(shè)計(jì)的最終目標(biāo)是證明在充分并行化的硬件體系結(jié)構(gòu) FPGA
    的頭像 發(fā)表于 07-10 11:09 ?2132次閱讀
    基于<b class='flag-5'>FPGA</b>的壓縮算法<b class='flag-5'>加速</b><b class='flag-5'>實(shí)現(xiàn)</b>

    如何使用MATLAB實(shí)現(xiàn)一維時(shí)間卷積網(wǎng)絡(luò)

    本文對(duì)一維卷積操作進(jìn)行介紹,包括一維擴(kuò)展卷積和一維因果卷積,以及 MATLAB 對(duì)一維卷積的支持情況。在最后通過(guò)一個(gè)實(shí)例演示如何在 MATLAB 中將一維
    的頭像 發(fā)表于 03-07 09:15 ?1734次閱讀
    如何使用MATLAB<b class='flag-5'>實(shí)現(xiàn)</b>一維時(shí)間<b class='flag-5'>卷積</b><b class='flag-5'>網(wǎng)絡(luò)</b>

    當(dāng)我問(wèn)DeepSeek AI爆發(fā)時(shí)代的FPGA是否重要?答案是......

    資源浪費(fèi)。例如,在深度學(xué)習(xí)模型推理階段,FPGA可以針對(duì)特定的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行硬件加速,提高推理速度。 3.支持邊緣計(jì)算與實(shí)時(shí)應(yīng)用 ? 邊緣計(jì)算:隨著物聯(lián)網(wǎng)的發(fā)展,越來(lái)越多的AI任務(wù)需要在邊緣設(shè)備
    發(fā)表于 02-19 13:55

    BP神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的比較

    BP神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)在多個(gè)方面存在顯著差異,以下是對(duì)兩者的比較: 一、結(jié)構(gòu)特點(diǎn) BP神經(jīng)網(wǎng)絡(luò) : BP神經(jīng)網(wǎng)絡(luò)是一種多層的前饋神經(jīng)
    的頭像 發(fā)表于 02-12 15:53 ?1392次閱讀

    FPGA圖像處理基礎(chǔ)----實(shí)現(xiàn)緩存卷積窗口

    像素行與像素窗口 一幅圖像是由一個(gè)個(gè)像素點(diǎn)構(gòu)成的,對(duì)于一幅480*272大小的圖片來(lái)說(shuō),其寬度是480,高度是272。在使用FPGA進(jìn)行圖像處理時(shí),最關(guān)鍵的就是使用FPGA內(nèi)部的存儲(chǔ)資源對(duì)像
    的頭像 發(fā)表于 02-07 10:43 ?1471次閱讀
    <b class='flag-5'>FPGA</b>圖像處理基礎(chǔ)----<b class='flag-5'>實(shí)現(xiàn)</b>緩存<b class='flag-5'>卷積</b>窗口

    FPGA在AI方面有哪些應(yīng)用

    提供了強(qiáng)有力的支持。 一、FPGA 在深度學(xué)習(xí)中的應(yīng)用 深度學(xué)習(xí)是 AI 的重要分支,涉及海量的數(shù)據(jù)運(yùn)算。FPGA 能夠針對(duì)深度學(xué)習(xí)算法中的卷積、池化等核心運(yùn)算進(jìn)行硬件加速優(yōu)化。例如,
    的頭像 發(fā)表于 01-06 17:37 ?2203次閱讀