DSP48E2 Slice 上優(yōu)化 INT8 深度學習運算分析

賽靈思 INT8 優(yōu)化為深度學習推斷提供了性能最佳、能效最高的計算技術(shù)。賽靈思的集成式 DSP 架構(gòu)與其他 FPGA DSP 架構(gòu)相比，在INT8 深度學習運算上能實現(xiàn) 1.75 倍的解決方案級性能。

概要

本白皮書旨在探索實現(xiàn)在賽靈思 DSP48E2 Slice 上的 INT8 深度學習運算，以及與其他 FPGA 的對比情況。在相同資源數(shù)量情況下，賽靈思的 DSP 架構(gòu)憑借 INT8在 INT8 深度學習每秒運算次數(shù) (OPS) 上相比其它 FPGA，能實現(xiàn) 1.75 倍的峰值解決方案級性能。由于深度學習推斷可以在不犧牲準確性的情況下使用較低位精度，因此需要高效的 INT8 實現(xiàn)方案。

賽靈思的 DSP 架構(gòu)和庫專門針對 INT8 深度學習推斷進行了優(yōu)化。本白皮書介紹如何使用賽靈思 UltraScale 和 UltraScale+ FPGA 中的DSP48E2，在共享相同內(nèi)核權(quán)重的同時處理兩個并行的 INT8 乘法累加 (MACC) 運算。本白皮書還闡述了要運用賽靈思這一獨特技術(shù)，為何輸入的最小位寬為 24 位。本白皮書還以 INT8優(yōu)化技術(shù)為例，展示了該技術(shù)與神經(jīng)網(wǎng)絡基本運算的相關(guān)性。

用于深度學習的 INT8

深度神經(jīng)網(wǎng)絡（DNN）已掀起機器學習領(lǐng)域的變革, 同時運用新的達到人類水平的 AI 功能重新定義眾多現(xiàn)有的應用。

隨著更精確的深度學習模型被開發(fā)出來，它們的復雜性也帶來了高計算強度和高內(nèi)存帶寬方面的難題。能效正在推動著深度學習推斷新模式開發(fā)方面的創(chuàng)新，這些模式需要的計算強度和內(nèi)存帶寬較低，但絕不能以犧牲準確性和吞吐量為代價。降低這一開銷將最終提升能效，降低所需的總功耗。

除了節(jié)省計算過程中的功耗，較低位寬的計算還能降低內(nèi)存帶寬所需的功耗，因為在內(nèi)存事務數(shù)量不變的情況下傳輸?shù)奈粩?shù)減少了。

研究顯示要保持同樣的準確性，深度學習推斷中無需浮點計算[ 參考資料 1][ 參考資料 2][ 參考資料 3]，而且圖像分類等許多應用只需要 INT8 或更低定點計算精度來保持可接受的推斷準確性[ 參考資料 2][ 參考資料 3]。表 1 列出了精調(diào)網(wǎng)絡以及卷積層和完全相連層的動態(tài)定點參數(shù)及輸出。括號內(nèi)的數(shù)字代表未精調(diào)的準確性。

表 1 ：帶定點精度的 CNN 模型

DSP48E2 Slice 上優(yōu)化 INT8 深度學習運算分析

賽靈思 DSP Slice 片上的 INT8 深度學習

賽靈思的 DSP48E2 設計用于在一個時鐘周期內(nèi)高效地完成一個乘法累加算法, 多達 18x27 位的乘法和多達 48 位的累加，如圖 1 所示。除了采用回送或鏈接多個 DSP Slice，乘法累加 (MACC) 也能使用賽靈思器件高效完成。

圖 1 ：使用 MACC 模式的 DSP Slice

在運行 INT8 計算時，較寬的 27 位寬自然占有優(yōu)勢。在傳統(tǒng)應用中，預加法器一般用于高效實現(xiàn) (A+B) x C計算，但這類計算在深度學習應用中很少見。將 (A+B) x C 的結(jié)果拆分為 A x C 和 B x C，然后在獨立的數(shù)據(jù)流中進行累加，使之適用于典型深度學習計算的要求。

對 INT8 深度學習運算來說，擁有 18x27 位乘法器很占優(yōu)勢。乘法器的輸入中至少有一個必須為最小 24位，同時進位累加器必須為 32 位寬，才能在一個 DSP Slice 上同時進行兩個 INT8 MACC 運算。27 位輸入能與 48 位累加器結(jié)合，從而將深度學習求解性能提升 1.75 倍（1.75:1 即為 DSP 乘法器與 INT8 深度學習 MACC 的比率）。其他廠商提供的 FPGA 在單個 DSP 模塊中只提供 18x19 乘法器，DSP 乘法器與INT8 MACC 之比僅為 1:1。

可擴展的 INT8 優(yōu)化

目標是找到一種能夠?qū)斎?a、b 和 c 進行高效編碼的方法，這樣 a、b 和 c 之間的相乘結(jié)果可以容易地分解為 a x c 和 b x c。

在更低精度計算中，例如 INT8 乘法中，高位 10 位或 19 位輸入用 0 或 1 填充，僅攜帶 1 位信息。對最終的 45 位乘積的高位 29 位來說，情況一樣。因此可以使用高位 19 位開展另一計算，不會影響低位 8 位或16 位輸入結(jié)果。

總的來說，要把未使用的高位用于另一計算必須遵循兩條規(guī)則：
1. 高位不應影響低位的計算。
2. 低位計算對高位的任何影響必須可檢測、可能恢復。

閱讀全文

12 3 下一頁全文

本文導航

第 1 頁：DSP48E2 Slice 上優(yōu)化 INT8 深度學習運算分析
第 2 頁：計算規(guī)則
第 3 頁：并行MACC運算

dsp(364930) dsp(364930)
Xilinx(130375) Xilinx(130375)
深度學習(124080) 深度學習(124080)

深度學習的硬件架構(gòu)解析

深度學習在這十年，甚至是未來幾十年內(nèi)都有可能是最熱門的話題。雖然深度學習已是廣為人知了，但它并不僅僅包含數(shù)學、建模、學習和優(yōu)化。算法必須在優(yōu)化后的硬件上運行，因為學習成千上萬的數(shù)據(jù)可能需要長達幾周的時間。因此，深度學習網(wǎng)絡亟需更快、更高效的硬件。接下來，讓我們重點來看深度學習的硬件架構(gòu)。

2016-11-18 16:00:37

6007

FPGA中如何充分利用DSP資源，DSP48E1內(nèi)部詳細資源介紹

充分利用DSP資源，我們需要對DSP48E1有所了解。 1.DSP48E1介紹 DSP48E1是7系列的最小計算單元，DSP資源，支持許多獨立的功能，其基本功能如下所示 DSP48E1簡易模型包括：帶有D寄存器的25位預加法器 25*18二進制乘法 48位累加三輸入加法其他的一些功能還包括

2020-09-30 11:48:55

32568

深入理解DNN加速器中的基本單元——DSP

DSP48E2是zynq器件中使用的DSP類型，其主要結(jié)構(gòu)包括一個27bit前加器，27x18bit的乘法器，一個48bit的可以執(zhí)行加減法，累加以及邏輯功能的ALU。

2022-08-02 09:16:27

5383

如何在GPU上使用TensorRT部署深度學習應用程序

本文未涉及的一個主題是在 TensorRT 中以 INT8 精度精確地執(zhí)行推理。 TensorRT 自動轉(zhuǎn)換 FP32 網(wǎng)絡以進行部署，同時降低精度損失。為了實現(xiàn)這一目標， TensorRT 使用了

2022-04-01 15:19:43

5690

7系列FPGA DSP48E1片的特點

乘法器和一個三輸入加法器/減法器/累加器。DSP48E1乘法器具有非對稱的輸入，接受18位2的補數(shù)操作數(shù)和25位2的補數(shù)操作數(shù)。乘法器階段以兩個部分乘積的形式產(chǎn)生一個43位2的補碼結(jié)果。這些部分積在X

2021-01-08 16:46:10

7系列FPGA DSP48E1片的特點什么？

7系列FPGA DSP48E1片的特點什么

2021-03-05 06:26:41

DSP48E1 Slice的最大頻率是什么

我正在實例化DSP切片并進行簡單的乘法然后加法（（A * B）+ C）。根據(jù)DSP48E1用戶指南，當使用所有三個流水線寄存器時，它給出了最高頻率為600 MHz。但就我而言，它使用流水線寄存器

2020-06-12 06:32:01

DSP48E1不會推斷預加法器

嗨，我有一個如下的指令：（D-A）* B + C.端口A，B，C，D與DSP48E1輸入引腳相對應。我試圖將整個操作打包在DSP單元中。（順便說一句，我的數(shù)據(jù)寬度是8位）在布局和布線完成后，我

2019-04-01 14:25:40

DSP48E1作為延遲移位寄存器

to use a DSP48E1 slice to delay data up to 48bits wide by three cycles and hence only use 1 DSP48 rather

2019-04-18 06:40:33

DSP48E1的屬性詳解

DSP48E1屬性

2021-01-27 06:21:23

DSP48E1的屬性詳解

和RSTB復位（如圖2-7和圖2-8所示）?！　　　端口　　每個DSP48E1片都有一個48位的輸出端口p。這個輸出可以通過PCOUT路徑內(nèi)部連接（級聯(lián)連接）到相鄰的DSP48E1片。PCOUT連接

2020-12-23 16:54:08

DSP學習經(jīng)驗

Memory，開啟cache?！　　　∪?b class="flag-6" style="color: red">DSP能對SDRAM的不同4個bank可以同時訪問，此時你可以將需要同時運算的數(shù)據(jù)放入不同的bank　　　?。?b class="flag-6" style="color: red">8）開啟仿真軟件的編譯優(yōu)化選項　　　　在菜單相應的地方勾上

2011-10-19 10:31:23

INT8量化常見問題的解決方案

一、int8的輸出和fp32模型輸出差異比較大解決方案：檢查前后處理是否有問題，int8網(wǎng)絡輸入輸出一般需要做scale處理，看看是否遺漏？通過量化可視化工具分析int8的輸出和fp32

2023-09-19 06:09:33

深度學習存在哪些問題？

深度學習常用模型有哪些？深度學習常用軟件工具及平臺有哪些？深度學習存在哪些問題？

2021-10-14 08:20:47

深度學習框架只為GPU?

CPU優(yōu)化深度學習框架和函數(shù)庫機器學***器

2021-02-22 06:01:02

深度學習模型是如何創(chuàng)建的？

具有深度學習模型的嵌入式系統(tǒng)應用程序帶來了巨大的好處。深度學習嵌入式系統(tǒng)已經(jīng)改變了各個行業(yè)的企業(yè)和組織。深度學習模型可以幫助實現(xiàn)工業(yè)流程自動化，進行實時分析以做出決策，甚至可以預測預警。這些AI

2021-10-27 06:34:15

Nanopi深度學習之路(1)深度學習框架分析

學習，也就是現(xiàn)在最流行的深度學習領(lǐng)域，關(guān)注論壇的朋友應該看到了，開發(fā)板試用活動中有【NanoPi K1 Plus試用】的申請，介紹中NanopiK1plus的高大上優(yōu)點之一就是“可運行深度學習算法的智能

2018-06-04 22:32:12

UltraScale DSP48 Slice架構(gòu)的優(yōu)勢是什么？

UltraScale DSP48 Slice架構(gòu)的優(yōu)勢是什么？UltraScale內(nèi)存架構(gòu)的優(yōu)勢是什么？

2021-05-24 06:34:00

Xilinx Vertex-4 DSP應用程序xapp706是否可在Spartan-6上移植

the slice, can't I use the DSP48A1 macro itself to test this Xapp706 application?

2019-07-04 15:36:07

Xilinx大神都懂的數(shù)字運算單元—DSP48E1

，這樣的輸入選擇有助于構(gòu)建多種類型，高流水化的DSP應用。 2. DSP48E1使用 (1)DSP原語使用的每個端口及位寬如下所示： ①表示的數(shù)據(jù)通道，運算數(shù)據(jù)的輸入。 ②寄存器配置通道，我們可以通過

2023-06-20 14:29:51

esp-dl int8量化模型數(shù)據(jù)集評估精度下降的疑問求解？

一試著將模型進行了esp-dl上int16和int8的量化，并在測試數(shù)據(jù)集上進行精度評估，其中int16的模型精度基本沒有下降，但是int8的模型評估精度下降了很多，目前正在嘗試修改

2024-06-28 15:10:47

i.mx95的EIQ轉(zhuǎn)換器將int8更改為uint8后出現(xiàn)報錯怎么解決？

我有一個大型量化 tensorflow lite 模型。它包括輸入和輸出類型為 “int8” 的 “Softmax”作。我正在運行 eIQ 模型工具版本 1.14.0 將模型轉(zhuǎn)換為 i.MX95

2025-04-14 07:15:56

yolov5量化INT8出錯怎么處理？

model_deploy.py --mlir yolov5l.mlir --quantize INT8 --calibration_table yolov5l_cali_table --chip

2024-01-10 06:40:14

【ELF 2學習板試用】ELF2開發(fā)板（飛凌嵌入式）搭建深度學習環(huán)境部署（RKNN環(huán)境部署）

模型進行量化部署轉(zhuǎn)換為rknn模型，并編譯好基本腳本上傳至開發(fā)板。模型工具的介紹 RKNN-Toolkit2 ? ?RKNN-Toolkit2 是由瑞芯微電子開發(fā)的一套深度學習模型優(yōu)化和推理工具。它

2025-02-04 14:15:27

【PYNQ-Z2試用體驗】剪枝量化好幫手，深鑒科技Deepin套件DNNDK使用(結(jié)項)

caffe模型（浮點），得到int8的模型，再通過sdk編程，直接部署到FPGA上，這個過程本質(zhì)上應該還是使用了SDSoC的相關(guān)工具。大佬們開發(fā)了DPU這個深度學習的IP，在不遠的將來要放置到

2019-03-21 15:09:29

【TL6748 DSP申請】齒輪故障診斷（基于振動數(shù)據(jù)采集分析處理）

申請理由：1）由于剛接觸到DSP不久，希望通過DSP的開發(fā)板能夠快速入門，前期實現(xiàn)一些基本的功能；2）在學習到DSP的一些基本知識后，將逐漸運用DSP的實際項目中，先試著嘗試解決一些振動數(shù)據(jù)分析

2015-09-10 11:20:00

【米爾FZ3深度學習計算卡試用體驗】DPU搭建

計算公司賽靈思（NASDAQ：XLNX）宣布，收購北京人工智能（AI）芯片初創(chuàng)公司深鑒科技。深鑒科技擁有業(yè)界較為領(lǐng)先的機器學習能力，專注于神經(jīng)網(wǎng)絡剪枝、深度壓縮技術(shù)及系統(tǒng)級優(yōu)化。深鑒科技原本是一家芯片

2020-12-10 15:23:40

【資料上新】迅為基于3568開發(fā)板的NPU開發(fā)資料全面升級

開始的，相比傳統(tǒng)的CPU和GPU，在深度學習運算能力上有比較大幅度的提升。接下來在RV1109和RV1126上使用了第二代NPU，提升了NPU的利用率。第三代NPU應用在RK3566和RK3568上

2022-06-23 15:05:22

為什么無法在GPU上使用INT8 和 INT4量化模型獲得輸出？

安裝OpenVINO? 2024.0 版本。使用 optimum-intel 程序包將 whisper-large-v3 模型轉(zhuǎn)換為 int 4 和 int8，并在 GPU 上使用 OpenVINO? 運行推理。沒有可用的輸出。

2025-06-23 07:11:11

什么是深度學習？使用FPGA進行深度學習的好處？

，即使使用具有一定低位寬的數(shù)據(jù)，深度學習推理也不會降低最終精度。目前據(jù)說8位左右可以提供穩(wěn)定的準確率，但最新的研究表明，已經(jīng)出現(xiàn)了即使降低到4位或2位也能獲得很好準確率的模型和學習方法，越來越多的正在

2023-02-17 16:56:59

在OpenVINO?工具套件的深度學習工作臺中無法導出INT8模型怎么解決？

無法在 OpenVINO? 工具套件的深度學習（DL）工作臺中導出 INT8 模型

2025-03-06 07:54:52

如何分析和比較XST綜合工具生成的報告

1323％DSP48E1的數(shù)量168641％設備利用率摘要（估計值）[ - ]邏輯利用用過的可得到采用切片寄存器的數(shù)量38695068736056％切片LUT的數(shù)量15269234368044％完全

2019-03-25 14:27:40

如何使用DSP45E1模塊實現(xiàn)Multply-Add操作？

嗨，我想使用DSP45E1模塊實現(xiàn)Multply-Add操作，其中一個要求是我需要DSP模塊上的3級流水線。查看UG479 7系列DSP48E1 Slice用戶指南（UG479） - Xilinx

2020-07-21 13:52:24

如何簡化DSP48E1片操作

　　DSP48E1片的數(shù)學部分由一個25位的預加器、2個25位、18位的補法器和3個48位的數(shù)據(jù)路徑多路復用器（具有輸出X、Y和Z）組成，然后是一個3輸入加法器/減法器或2輸入邏輯單元（參見圖2

2021-01-08 16:36:32

如何簡化DSP48E1片操作

簡化DSP48E1片操作

2021-01-27 07:13:57

如何解決通用Xilinx FPGA DSP片和邏輯單元上的問題？

切片是整個切片數(shù)量的一部分還是它們在FPGA上共享資源？2）如果我們沒有進行任何DSP操作，那么DSP48E Slice是否可以用于實現(xiàn)某些常規(guī)邏輯，或者這些DSP Slice是否專門用于實現(xiàn)DSP

2019-04-04 06:36:56

是否可以輸入隨機數(shù)據(jù)集來生成INT8訓練后量化模型？

無法確定是否可以輸入隨機數(shù)據(jù)集來生成 INT8 訓練后量化模型。

2025-03-06 06:45:31

求DSP48E1和BRAM36K / BRAM18K之間水平關(guān)系的信息？

DSP48E1磁貼（由2個切片和互連組成）與5個CLB具有相同的高度1 DSP48E1瓷磚與一個BRAM36K具有相同的高度1 DPS48E1 Slice水平對齊BRAM18K我讀到了xilinx asmbl架構(gòu)

2020-07-25 11:04:42

求大神指教：在labview的公式節(jié)點中如何定義一個靜態(tài)變量（例如：static int8 i=0;這樣可以嗎？）

求大神指教：在labview的公式節(jié)點中如何定義一個靜態(tài)變量（例如：static int8 i=0;這樣可以嗎？）

2016-04-13 21:37:29

深圳公司招聘DSP高手1名

的體系結(jié)構(gòu),熟練使用相關(guān)開發(fā)調(diào)試工具,擅長軟件性能分析和優(yōu)化,能在緊約束條件下充分利用硬件資源,深度優(yōu)化提升軟件效率; 8、勇于承擔責任，良好的溝通能力和團隊合作精神； 9、較好的英文閱讀能力。有興趣的朋友，請聯(lián)系我，企鵝號碼：1537906585

2016-05-04 17:40:52

請?zhí)峁?b class="flag-6" style="color: red">DSP48 slice中的Multipumping示例

嗨，我正在使用兩個使用級聯(lián)鏈路連接的DSP48切片來執(zhí)行所需的操作。我想嘗試多泵操作以有效地使用DSP48切片。請?zhí)峁?b class="flag-6" style="color: red">DSP48 slice中的Multipumping示例。提前致謝

2019-08-06 10:42:26

請問DSP28335 int8怎么自己宏定義？

本帖最后由一只耳朵怪于 2018-6-13 16:29 編輯大家好，使用28335也有1年多了，這個數(shù)制問題一直困擾我，就是如何自己定義8位的int型整數(shù)？在網(wǎng)上搜到的 typedef CPU_INT08U uint8; //[0 255]，這個能用么？謝謝大家～

2018-06-13 04:13:04

請問tms320c6670中TCP3D的軟量都是INT8字型的？

本帖最后由一只耳朵怪于 2018-6-25 14:58 編輯不能是INT16字型的？INT8精度不夠呀~

2018-06-25 01:12:25

請問在新CPU上推斷INT8模型的速度是否比舊CPU快？

與采用舊 CPU 的推理相比，在新 CPU 上推斷的 INT8 模型的推理速度更快。

2023-08-15 08:28:42

High Performance DSP Solutions

High DSP Performance Platform– The DSP48E Slice– Essential DSP Building Blocks• Imaging Algorithms

2009-04-09 22:05:31

MPEG4-SP在DSP上的優(yōu)化分析

本文簡要介紹了MPEG4-SP在DSP TM1300上的實現(xiàn)和優(yōu)化過程。分析了其性能優(yōu)化原理，給出了性能優(yōu)化中使用到的幾個技巧，最終取得了滿意的優(yōu)化效果。

2009-05-09 14:14:45

CDMA網(wǎng)絡深度覆蓋的天線應用與RSSI指標優(yōu)化分析

CDMA網(wǎng)絡深度覆蓋的天線應用與RSSI指標優(yōu)化分析，很好的網(wǎng)絡資料，快來學習吧。

2016-04-19 11:30:48

7 50T FPGA試用筆記（二）/DSP48E1

）：使用DS48E1的SIMD功能實現(xiàn)四路并行12位加法”，要求數(shù)據(jù)從不同的DSP48端口進去。評分標準： 1）使用Vivado 仿真通過 2）使用7A50T板子，使用Vivado硬件實現(xiàn)且記錄波形，或者，使用Matlab sysgen硬件仿真，或者其他硬件實現(xiàn)方式且有硬件結(jié)果軟件環(huán)境：

2017-02-07 20:23:33

3109

System generator DSP48E1 (1)：端口說明

(MACC, )，乘加，三輸入加法等等。該架構(gòu)還支持串聯(lián)多個DSP48E1 slice，避免使用fpga邏輯功能的繁瑣。 System generator DSP48E1 模塊參數(shù) 雙擊dsp48e1模塊

2017-02-08 01:07:12

1174

System generator DSP48E1 (2)：四路加法器

概述利用4個dsp48e1模塊，實現(xiàn)四路加法器，dsp48e1模塊在手冊中表示比較復雜，找了兩個圖，可以大致看懂他的基本功能。圖1 dsp48e1端口說明圖2 簡化的DSP48E1結(jié)構(gòu) 軟件

2017-02-08 01:10:08

994

S2C的KU115邏輯模塊具備很強的DSP原型功能

UltraScale DSP48E2 Slice 完美結(jié)合在一起。Prodigy KU 邏輯模塊理想適用于計算密集型應用；根據(jù) S2C 的介紹，該模塊提供的 DSP 資源比市場上任何原型板都要多。除了數(shù)千

2017-02-08 12:19:14

1310

Xilinx可編程邏輯器件設計與開發(fā)（基礎篇）連載14：Spartan

為了適應越來越復雜的DSP運算，Spartan-6在Spartan 3A DSP模塊DSP48A 基礎上，不斷進行功能擴展，推出了功能更強大的DSP48A1 SLICE。

2017-02-11 08:53:13

1495

Xilinx可編程邏輯器件設計與開發(fā)（基礎篇）連載24：Spartan

為了適應越來越復雜的DSP運算，Virtex-6中嵌入了功能更強大的DSP48E1 SLICE，簡化的DSP48E1模塊如圖5-16所示。

2017-02-11 09:17:13

1946

Xilinx INT8 優(yōu)化開發(fā)嵌入式視覺

賽靈思 INT8 優(yōu)化為使用深度學習推斷和傳統(tǒng)計算機視覺功能的嵌入式視覺應用提供最優(yōu)異的性能和能效最出色的計算方法。與其他 FPGA/DSP 架構(gòu)相比，賽靈思的集成 DSP 架構(gòu)在 INT8 深度學習運算上能實現(xiàn) 1.75 倍的性能優(yōu)勢。

2017-09-22 17:27:11

5970

基于24AA02E48/24AA025E48下的串行 EEPROM

最高待機電流和工作電流分別僅為 1 μA 和 1 mA。24AAXXXE48 還支持最多可寫入 8 字節(jié)數(shù)據(jù)的頁寫操作（在 24AA025E48 上為 16 字節(jié)）。 24AAXXXE48 提供標準的 8 引腳 SOIC、 5 引腳 SOT-23 和 6 引腳 SOT-23

2018-07-03 08:24:00

利用DSP48E2 Slice中的寬MUX產(chǎn)品反饋

了解如何為UltraScale +設計添加額外的安全級別。該視頻演示了如何防止差分功耗分析（DPA），以在比特流配置之上增加額外的安全性。

2018-11-27 06:24:00

3199

Virtex-7 FPGA系列DSP Slice功能的討論

本視頻介紹了7系列FPGA的DSP Slice功能。此外，還討論了Pre-Adder和Dynamic Pipeline控制資源。

2018-11-26 06:02:00

7799

賽靈思INT8優(yōu)化為嵌入式視覺應用性能和計算方法

賽靈思的 DSP 架構(gòu)和庫針對 INT8 運算進行了精心優(yōu)化。本白皮書介紹如何使用賽靈思 16nm 和 20nm All Programmable 器件中的 DSP48E2 Slice，在共享相同內(nèi)核權(quán)重的同時處理兩個并行的 INT8 MACC 運算。

2019-07-29 11:19:32

2985

賽靈思INT8優(yōu)化為嵌入式視覺應用提供性能和計算方法

要使用可編程邏輯上的 DSP 實現(xiàn)中值濾波器，可以對算法做改動。每次比較運算可以分為減法運算及后續(xù)的符號位檢查。對減法運算，DSP48E2 Slice 能夠以四個 12 位或兩個 24 位模式進行運算。要充分利用 DSP48E2 Slice，可以并行運算多個像素。

2019-07-30 08:59:46

4087

Intel Xe獨立顯卡獲得新技能將支持Int8整數(shù)數(shù)據(jù)

Intel近日發(fā)布了最新版的高性能深度學習優(yōu)化庫DNNL 1.2，證實即將推出的全新Xe架構(gòu)獨立GPU的一項新技能，那就是支持Int8整數(shù)數(shù)據(jù)類型。

2020-02-04 15:31:19

1745

DSP48的演變史

更加多樣化。DSP48基本結(jié)構(gòu)如下圖所示（圖片來源：ug073, Figure 2-1）。DSP48中的核心單元是18x18的乘法器。從圖中不難看出，DSP48可實現(xiàn)基本數(shù)學函數(shù)P=Z(X+Y+CIN

2020-10-30 17:16:51

7835

DSP48E1詳解（3）： DSP48E1屬性

A、B、C、CARRYIN、CARRYINSEL、OPMODE、BCIN、PCIN、ACIN、ALUMODE、CARRYCASCIN、MULTSIGNIN以及相應的時鐘啟用輸入和復位輸入都是保留端口。D和INMODE端口對于DSP48E1片是唯一的。本節(jié)詳細描述DSP48E1片的輸入端口

2022-07-25 18:00:18

6752

DSP48E1片的數(shù)據(jù)和控制輸入提供算術(shù)和邏輯階段

DSP48E1片的數(shù)學部分由一個25位的預加器、2個25位、18位的補法器和3個48位的數(shù)據(jù)路徑多路復用器(具有輸出X、Y和Z)組成，然后是一個3輸入加法器/減法器或2輸入邏輯單元(參見圖2-5)。使用2輸入邏輯單元時，不能使用乘法器。

2022-01-21 14:14:26

1831

7系列FPGA DSP48E1的參數(shù)特點概述

在DSP48E1列中，級聯(lián)各個DSP48E1片可以支持更高級的DSP功能。兩個數(shù)據(jù)路徑(ACOUT和BCOUT)和DSP48E1片輸出(PCOUT、MULTSIGNOUT和CARRYCASCOUT)提供級聯(lián)功能。級聯(lián)數(shù)據(jù)路徑的能力在過濾器設計中很有用。

2022-06-21 08:55:00

3250

DSP48E1詳解（1）：7系列FPGA DSP48E1片的特點

2021-01-27 07:34:32

DSP48E1詳解（3）：DSP48E1屬性

2021-01-27 08:18:02

DSP48E1詳解（2）：簡化DSP48E1片操作

2021-01-29 08:19:37

深度模型中的優(yōu)化與學習課件下載

深度模型中的優(yōu)化與學習課件下載

2021-04-07 16:21:01

ncnn avx2/armv8.2 基礎架構(gòu)

2020年開始，新手機 CPU 幾乎都是 armv8.2 架構(gòu)，這個架構(gòu)引入了新的 fp16 運算和 int8 dot 指令，優(yōu)化得當就能大幅加速深度學習框架的...

2022-01-26 18:53:19

Int8量化-ncnn社區(qū)Int8重構(gòu)之路

本文是對NCNN社區(qū)int8模塊的重構(gòu)開發(fā)，再也不用擔心溢出問題了，速度也還行。作者：圈圈蟲首發(fā)知乎傳送門ncnnBUG1989/caffe-int8-conver...

2022-02-07 12:38:26

英偉達：5nm實驗芯片用INT4達到INT8的精度

降低數(shù)字格式而不造成重大精度損失，要歸功于按矢量縮放量化（per-vector scaled quantization，VSQ）的技術(shù)。具體來說，一個INT4數(shù)字只能精確表示從-8到7的16個整數(shù)。

2022-12-12 15:48:15

1566

總結(jié)FasterTransformer Encoder(BERT)的cuda相關(guān)優(yōu)化技巧

FasterTransformer BERT 包含優(yōu)化的 BERT 模型、高效的 FasterTransformer 和 INT8 量化推理。

2023-01-30 09:34:48

4388

什么是深度學習中優(yōu)化算法

先大致講一下什么是深度學習中優(yōu)化算法吧，我們可以把模型比作函數(shù)，一種很復雜的函數(shù)：h(f(g(k(x))))，函數(shù)有參數(shù)，這些參數(shù)是未知的，深度學習中的“學習”就是通過訓練數(shù)據(jù)求解這些未知的參數(shù)。

2023-02-13 15:31:48

2442

總結(jié)FasterTransformer Encoder優(yōu)化技巧

FasterTransformer BERT 包含優(yōu)化的 BERT 模型、高效的 FasterTransformer 和 INT8 量化推理。

2023-05-30 15:15:15

2006

PyTorch教程12.1之優(yōu)化和深度學習

電子發(fā)燒友網(wǎng)站提供《PyTorch教程12.1之優(yōu)化和深度學習.pdf》資料免費下載

2023-06-05 15:08:41

PyTorch教程-12.1. 優(yōu)化和深度學習

目標上的標志。 12.1.1。優(yōu)化目標? 盡管優(yōu)化為深度學習提供了一種最小化損失函數(shù)的方法，但從本質(zhì)上講，優(yōu)化和深度學習的目標是根本不同的。前

2023-06-05 15:44:30

1012

YOLOv8模型ONNX格式INT8量化輕松搞定

深度學習模型量化支持深度學習模型部署框架支持的一種輕量化模型與加速模型推理的一種常用手段，ONNXRUNTIME支持模型的簡化、量化等腳本操作，簡單易學，非常實用。

2023-07-18 09:34:57

5763

INT8量子化PyTorch x86處理器

INT8量子化PyTorch x86處理器

2023-08-31 14:27:07

1688

在Xilinx器件上具有INT4優(yōu)化的卷積神經(jīng)網(wǎng)絡

電子發(fā)燒友網(wǎng)站提供《在Xilinx器件上具有INT4優(yōu)化的卷積神經(jīng)網(wǎng)絡.pdf》資料免費下載

2023-09-13 09:30:54

探索ChatGLM2在算能BM1684X上INT8量化部署，加速大模型商業(yè)落地

｜探索ChatGLM2-6B模型與TPU部署》。為了進一步提升模型的推理效率與降低存儲空間，我們對模型進行了INT8量化部署，整體性能提升70%以上，模型大小降低到

2023-10-10 10:18:03

5471

Yolo系列模型的部署、精度對齊與int8量化加速

可視化其他量化形式的engine和問題engine進行對比，我們發(fā)現(xiàn)是一些層的int8量化會出問題，由此找出問題量化節(jié)點解決。

2023-11-23 16:40:20

2524

深度學習編譯工具鏈中的核心——圖優(yōu)化

等，需要調(diào)整優(yōu)化網(wǎng)絡中使用的算子或算子組合，這就是深度學習編譯工具鏈中的核心——圖優(yōu)化。圖優(yōu)化是指對深度學習模型的計算圖進行分析和優(yōu)化的過程，通過替換子圖（算子）為在推理平臺上性能更佳的另一個等價子圖

2024-05-16 14:24:04

2262

深度學習的模型優(yōu)化與調(diào)試方法

深度學習模型在訓練過程中，往往會遇到各種問題和挑戰(zhàn)，如過擬合、欠擬合、梯度消失或爆炸等。因此，對深度學習模型進行優(yōu)化與調(diào)試是確保其性能優(yōu)越的關(guān)鍵步驟。本文將從數(shù)據(jù)預處理、模型設計、超參數(shù)調(diào)整、正則化、模型集成以及調(diào)試與驗證等方面，詳細介紹深度學習的模型優(yōu)化與調(diào)試方法。

2024-07-01 11:41:13

2534

深度神經(jīng)網(wǎng)絡模型量化的基本方法

深度神經(jīng)網(wǎng)絡模型量化是深度學習領(lǐng)域中的一種重要優(yōu)化技術(shù)，旨在通過減少模型參數(shù)的精度（即從高精度浮點數(shù)如32位浮點數(shù)FP32降低到低精度整數(shù)如8位整數(shù)INT8或更低）來降低模型的計算和存儲需求，同時

2024-07-15 11:26:24

1938

NPU在深度學習中的應用

設計的硬件加速器，它在深度學習中的應用日益廣泛。 1. NPU的基本概念 NPU是一種專門針對深度學習算法優(yōu)化的處理器，它與傳統(tǒng)的CPU和GPU有所不同。NPU通常具有高度并行的處理能力，能夠高效地執(zhí)行深度學習中的大規(guī)模矩陣運算和數(shù)據(jù)傳輸。這種設計使得NPU在處理深度學習任務時，

2024-11-14 15:17:39

3175

DD10-48D15E3(C)2 DD10-48D15E3(C)2

電子發(fā)燒友網(wǎng)為你提供AIPULNION(AIPULNION)DD10-48D15E3(C)2相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊，更有DD10-48D15E3(C)2的引腳圖、接線圖、封裝手冊、中文資料、英文資料，DD10-48D15E3(C)2真值表，DD10-48D15E3(C)2管腳等資料，希望可以幫助到廣大的電子工程師們。

2025-03-20 18:49:49