chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

在推斷更大的網(wǎng)絡(luò)時(shí)如何解決計(jì)算復(fù)雜性增加的問題

冬至子 ? 來源:OpenFPGA ? 作者:碎碎思 ? 2023-05-23 17:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

低計(jì)算成本技術(shù)

首先,我們將討論如何降低計(jì)算成本本身。

量化

量化是權(quán)重或激活(每層的輸入和輸出)中比特的減少,通常在 fp32 中構(gòu)建。眾所周知,深度學(xué)習(xí)在推理過程中能夠以比訓(xùn)練過程更低的位精度進(jìn)行處理,盡管這取決于模型,但即使是 8 位定點(diǎn)數(shù)和位數(shù)更少的定點(diǎn)數(shù)也具有實(shí)用的精度。FPGA 與 1 位左右的低精度網(wǎng)絡(luò)特別兼容,因?yàn)榭梢允褂?LUT 將卷積運(yùn)算替換為查找表。

修剪

修剪是在卷積層等使用的權(quán)重矩陣中,稀疏化(移至 0)足夠接近 0 的值的過程。足夠接近 0 的系數(shù)對(duì)卷積運(yùn)算的最終結(jié)果影響很小,因此將其設(shè)置為 0 不會(huì)顯著影響推理結(jié)果。在實(shí)踐中,我們會(huì)設(shè)置剪枝的閾值等參數(shù),給出測(cè)試模式,檢查允許的誤差范圍。

修剪主要應(yīng)用于兩個(gè)粒度。

  • 1、粗粒:每通道
  • 2、細(xì)粒度:單位因子

1 的粗粒度修剪只是簡單地刪除了通道,因此可以在不特別注意計(jì)算硬件的情況下提高速度。另一方面,2的細(xì)粒度修剪只會(huì)增加矩陣內(nèi)部0元素的數(shù)量,同時(shí)保持矩陣的大小不變。

在這里我們將限制在這個(gè)級(jí)別,但是還有其他方法可以減少計(jì)算量,例如拓?fù)湔{(diào)整可以減少模型本身的計(jì)算量。

FPGA 上優(yōu)化的 DNN 框架

GPU 上做深度學(xué)習(xí)時(shí),無論前端選擇哪種框架,后端幾乎都是跑NVIDIA 優(yōu)化過的cuDNN 庫。cuDNN 庫經(jīng)過優(yōu)化,幾乎可以榨干 GPU 的峰值性能。出于這個(gè)原因,在不實(shí)現(xiàn)卷積等功能的情況下在后端使用這些庫是很常見的。

FPGA 也是如此,例如 Xilinx 提供了一個(gè)名為Vitis-AI的推理框架,而英特爾 FPGA 提供了OpenVINO 工具包。在本節(jié)中,根據(jù)DPU Vitis-AI 中用于邊緣設(shè)備

DPU

DPU是Deep Learning Processing Unit的縮寫,顧名思義就是深度學(xué)習(xí)的處理器。與我們目前創(chuàng)建的架構(gòu)不同,其中電路來處理每一層,DPU 實(shí)現(xiàn)了一個(gè)巨大的算術(shù)單元塊,并通過在算術(shù)單元塊上連續(xù)執(zhí)行每一層的處理來執(zhí)行推理過程。

DPU的硬件架構(gòu)如下圖所示。如圖所示,DPU 具有類似于普通處理器的架構(gòu),例如指令調(diào)度器。

image.png

DPU只支持8bit的量化網(wǎng)絡(luò),其量化工具在Vitis-AI(原DNNDK)中提供。

下面我們挑選 DPU 架構(gòu)中的一些有趣的點(diǎn)簡單說一下。

數(shù)據(jù)并行度提取

在上一篇文章中,我們提取了像素之間和輸出通道之間的 2 軸數(shù)據(jù)并行性以進(jìn)行加速。DPU 還提取輸入通道之間的數(shù)據(jù)并行性。

DPU 有幾種配置,可以根據(jù)要實(shí)現(xiàn)的芯片大小進(jìn)行更改,如下表所示。

image.png

性能最高的B4096架構(gòu)共有2048個(gè)算子,像素并行度8,輸入通道方向16個(gè),輸出通道方向16個(gè)。雖然有 2048 個(gè)運(yùn)算單元,但總共是 4096 次運(yùn)算/時(shí)鐘,因?yàn)槊總€(gè)運(yùn)算單元同時(shí)執(zhí)行乘法和加法。

上次創(chuàng)建的架構(gòu)中,運(yùn)算次數(shù)最多的卷積層只有4*8=32個(gè)運(yùn)算單元,兩個(gè)卷積層加起來就有32+16=48個(gè)單元,性能簡直快了近40倍,區(qū)別蠻大的。

用于 DSPDDR(雙倍數(shù)據(jù)速率)

在 DPU 中,通過僅以雙倍工作頻率運(yùn)行 DSP 來提高性能,如下圖所示。每個(gè)周期可能的操作數(shù)翻了一番,從而使 DSP 的使用量減半。

image.png

DPU方面主要針對(duì)Zynq Ultrascale+,工作頻率為300~400 MHz。

所以DSP運(yùn)行在600-800 MHz范圍內(nèi),速度非常快。

特別是,這種時(shí)鐘分頻的優(yōu)化在像這次這樣用 HLS 開發(fā)時(shí)很難重現(xiàn),需要在 RTL 中進(jìn)行調(diào)整。

另外,在像 DPU 這樣的架構(gòu)中,每個(gè)周期持續(xù)向計(jì)算單元提供數(shù)據(jù)是一個(gè)問題,但我的印象是這也得到了很好的優(yōu)化。這是作者的經(jīng)驗(yàn),但是在對(duì)1K圖像進(jìn)行3×3卷積時(shí),運(yùn)算單元能夠在90%以上的周期內(nèi)運(yùn)行(當(dāng)通道數(shù)是并行數(shù)的倍數(shù)時(shí))。

由于很難創(chuàng)建優(yōu)化到這種程度的HLS,因此在 FPGA 上實(shí)際執(zhí)行深度學(xué)習(xí)時(shí),在某些框架上執(zhí)行推理會(huì)更有效。但是,我認(rèn)為有些模式在現(xiàn)有框架上無法很好地處理,例如使用更優(yōu)化的架構(gòu)來切換每一層的量化位數(shù)。在這種情況下,可能需要構(gòu)建自己的硬件來處理數(shù)據(jù)。

總結(jié)

感謝您閱讀到這里。

在本系列教程中,我們專注于在 FPGA 上實(shí)際編寫代碼和執(zhí)行處理。說到FPGA開發(fā),大家可能會(huì)有這樣的印象,寫RTL很難,還得懂硬件。然而,就像我一開始創(chuàng)建的推理電路一樣,如果我不關(guān)心性能,我可以將高級(jí)綜合應(yīng)用于普通的 C 代碼并且它可以工作。此外,在隨后的加速中,我們主要通過簡單地添加 #pragma. 就能實(shí)現(xiàn) 400 倍的顯著速度提升。我認(rèn)為在創(chuàng)建DPU等優(yōu)化庫時(shí)仍然需要用RTL編寫,但如果目的是在短時(shí)間內(nèi)創(chuàng)建適度優(yōu)化的庫(像這次的HLS)如果使用它,則可以輕松開發(fā)一些應(yīng)用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19896

    瀏覽量

    235249
  • FPGA
    +關(guān)注

    關(guān)注

    1645

    文章

    22050

    瀏覽量

    618524
  • DPU
    DPU
    +關(guān)注

    關(guān)注

    0

    文章

    393

    瀏覽量

    24937
  • LUT
    LUT
    +關(guān)注

    關(guān)注

    0

    文章

    50

    瀏覽量

    12851
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    何解決汽車制造商多樣價(jià)值和復(fù)雜性成本的矛盾?

    何解決多樣價(jià)值和復(fù)雜性成本之間的矛盾,已成為當(dāng)今汽車制造商面臨的最大挑戰(zhàn)之一。電氣設(shè)計(jì)領(lǐng)域?qū)Υ烁惺茏钌?,因?yàn)椤半姎庀到y(tǒng)”幾乎受所有設(shè)計(jì)決策和客戶選擇的影響。
    發(fā)表于 07-18 10:33 ?1557次閱讀
    如<b class='flag-5'>何解</b>決汽車制造商多樣<b class='flag-5'>性</b>價(jià)值和<b class='flag-5'>復(fù)雜性</b>成本的矛盾?

    掌握5G測(cè)試的復(fù)雜性:越來越受到關(guān)注

    隨著蜂窩技術(shù)的發(fā)展,以大約10年的間隔,從3G到4G再到10G相隔10年,無線網(wǎng)絡(luò)的性能提升了10倍。這伴隨著測(cè)試復(fù)雜性更大增加。但是,隨著我們進(jìn)入2019年,最好暫停并反思該行業(yè)通過3G,4G
    發(fā)表于 03-09 11:51

    抑制嵌入式系統(tǒng)設(shè)計(jì)的復(fù)雜性解析

    抑制嵌入式系統(tǒng)設(shè)計(jì)的復(fù)雜性
    發(fā)表于 12-30 07:20

    嵌入式調(diào)試的復(fù)雜性分析

    高手談嵌入式調(diào)試的復(fù)雜性
    發(fā)表于 02-19 07:14

    如何用可重構(gòu)射頻前端簡化LTE設(shè)計(jì)復(fù)雜性?

    如何用可重構(gòu)射頻前端簡化LTE設(shè)計(jì)復(fù)雜性?
    發(fā)表于 05-24 07:10

    免疫系統(tǒng)的主組織相容復(fù)雜性及其應(yīng)用

    模擬免疫系統(tǒng)的主組織相容復(fù)雜性的基礎(chǔ)上,結(jié)合模糊邏輯與擴(kuò)展陰性選擇算法提出了一個(gè)基于免疫系統(tǒng)主組織相容復(fù)雜性的模糊邏輯綜合決策算法,并用該算法構(gòu)建了一個(gè)實(shí)際
    發(fā)表于 05-28 11:01 ?8次下載

    基于構(gòu)件回歸測(cè)試的復(fù)雜性度量框架

    的軟件修改需求,維護(hù)者可以實(shí)施不同的修改手段.不同的修改手段會(huì)導(dǎo)致不同的回歸測(cè)試復(fù)雜性,這種復(fù)雜性是軟件維護(hù)成本和有效的重要因素.目前的研究沒有強(qiáng)調(diào)構(gòu)件軟件的回歸測(cè)試復(fù)雜性問題.基于
    發(fā)表于 01-19 16:41 ?0次下載

    計(jì)算用戶需要注意的一些主要趨勢(shì)

    隨著云計(jì)算復(fù)雜性的不斷增長,存儲(chǔ)管理人員需要找到一種簡單的方法。這就要求跨越云平臺(tái)、SaaS和本地部署的所有關(guān)鍵流程實(shí)現(xiàn)自動(dòng)化和工作流程。因此,盡管云計(jì)算的部署量不斷增加,人們需要找到一種降低
    的頭像 發(fā)表于 02-07 10:18 ?4308次閱讀

    比爾蓋茨與喬布斯的共同特質(zhì):整合復(fù)雜性

    整合復(fù)雜性是指:發(fā)展和保持對(duì)立的特征、價(jià)值觀和思想,然后將它們整合成更大的特征、價(jià)值觀和思想的能力
    的頭像 發(fā)表于 07-06 14:26 ?4251次閱讀

    導(dǎo)致計(jì)算機(jī)程序的復(fù)雜性和多樣的算法

    在過去,很多巧妙的計(jì)算機(jī)算法設(shè)計(jì),改變了我們的計(jì)算技術(shù)。通過操作標(biāo)準(zhǔn)計(jì)算機(jī)中提供的中間運(yùn)算符,可以產(chǎn)生很多的高效函數(shù)。這些函數(shù)導(dǎo)致了計(jì)算機(jī)程序的復(fù)雜
    的頭像 發(fā)表于 01-22 08:40 ?3860次閱讀

    大數(shù)據(jù)分析學(xué)習(xí)的挑戰(zhàn):復(fù)雜性、不確定性及涌現(xiàn)

    來源:ST社區(qū) 科多分享的大數(shù)據(jù)分析學(xué)習(xí)與研究的新挑戰(zhàn):對(duì)于習(xí)慣結(jié)構(gòu)化數(shù)據(jù)研究的統(tǒng)計(jì)學(xué)來說,大數(shù)據(jù)分析顯然是一種嶄新的挑戰(zhàn)。 挑戰(zhàn)來自何方?來自于大數(shù)據(jù)的復(fù)雜性、不確定性和涌現(xiàn)三個(gè)方面,其中復(fù)雜性
    的頭像 發(fā)表于 11-17 10:19 ?3342次閱讀

    組合最優(yōu)化計(jì)算機(jī)算法和復(fù)雜性的PDF電子書免費(fèi)下載

    本書討論組合最優(yōu)化的計(jì)算機(jī)算法及其復(fù)雜性,是計(jì)算機(jī)和學(xué)的基礎(chǔ)理論之一。
    發(fā)表于 01-04 08:00 ?19次下載

    模型復(fù)雜性日益增加,AI優(yōu)化的硬件隨之出現(xiàn)

    人工智能(AI)模型的規(guī)模和復(fù)雜度以每年大約 10 倍的速度不斷增加,AI 解決方案提供商面臨著巨大的壓力,他們必須縮短產(chǎn)品上市時(shí)間,提高性能,快速適應(yīng)不斷變化的形勢(shì)。模型復(fù)雜性日益增加
    的頭像 發(fā)表于 06-16 17:00 ?2647次閱讀

    駕馭軟件定義車輛的復(fù)雜性

    。 第一步是了解與大多數(shù)其他行業(yè)相比,汽車行業(yè)具有增加軟件復(fù)雜性的功能。 “軟件定義”的定義意味著大部分汽車功能現(xiàn)在由運(yùn)行在所需處理器、內(nèi)存和傳感器上的軟件應(yīng)用程序?qū)崿F(xiàn)。此外,大多數(shù)功能是由人機(jī)界面軟件中實(shí)現(xiàn)的好
    的頭像 發(fā)表于 07-14 17:42 ?1186次閱讀
    駕馭軟件定義車輛的<b class='flag-5'>復(fù)雜性</b>

    黑盒化技術(shù)簡化FPV計(jì)算復(fù)雜性

    當(dāng)一個(gè)模塊被黑盒化時(shí),它的輸出被視為FPV設(shè)計(jì)的輸入,即它們可以取任何隨機(jī)值。部分模塊的黑盒化對(duì)FPV的性能有著非常巨大的影響,所以FPV證明的開始應(yīng)該盡量地考慮任何黑盒化的可能。
    的頭像 發(fā)表于 09-13 10:55 ?1352次閱讀