并行MACC運(yùn)算 - DSP48E2 Slice 上優(yōu)化 INT8 深度學(xué)習(xí)運(yùn)算分析

在卷積神經(jīng)網(wǎng)絡(luò)（CNN）中，卷積層一般主要使用同一組權(quán)重，從而形成 a x w 和 b x w 類型的并行MACC 運(yùn)算。因此除輸入共享外，還可以使用權(quán)重共享（見(jiàn)圖 7）。

圖 7 ：權(quán)重共享和輸入共享比較

創(chuàng)建 INT8 鏈接 MACC 的其他方法
INT8 MACC 還能用 FPGA 架構(gòu)內(nèi)與 DSP Slice 頻率近似的 LUT 來(lái)構(gòu)建。根據(jù) FPGA 的使用情況，這可以顯著提升深度學(xué)習(xí)性能，在某些情況下性能可提升三倍之多。許多情況下相對(duì)于其他非 FPGA 架構(gòu)而言，在計(jì)算可用深度學(xué)習(xí)運(yùn)算時(shí)這些可用的計(jì)算資源并未考慮在內(nèi)。

賽靈思 FPGA 中的編程架構(gòu)是獨(dú)有的，因?yàn)樗懿⑿星腋咝У靥幚矶鄻踊ぷ髫?fù)載。例如賽靈思 FPGA能并行執(zhí)行 CNN 圖像分類、網(wǎng)絡(luò)加密和數(shù)據(jù)壓縮。我們的深度學(xué)習(xí)性能競(jìng)爭(zhēng)分析并未將 MACC LUT 考慮在內(nèi)，因?yàn)橐话?LUT 用于執(zhí)行 MACC 功能比用于執(zhí)行其他并行功能時(shí)更有價(jià)值。

競(jìng)爭(zhēng)分析

在本競(jìng)爭(zhēng)分析中，將英特爾（前 Altera）的 Arria 10 和即將推出的 Stratix 10 器件與賽靈思的 Kintex UltraScale 和 Virtex UltraScale+ 進(jìn)行了對(duì)比。對(duì)這種高計(jì)算強(qiáng)度的比較，選擇的器件均為每個(gè)產(chǎn)品系列中 DSP 密度最高的器件：Arria 10 (AT115)、Stratix 10 (SX280)、Kintex UltraScale (KU115)、Virtex UltraScale+ (VU9P) 和 Virtex UltraScale+ (VU13P) 器件。比較的重點(diǎn)是能用于包括深度學(xué)習(xí)在內(nèi)的眾多應(yīng)用的通用 MACC 性能。

英特爾的 MACC 性能基于運(yùn)用預(yù)加法器的算子。但是這種實(shí)現(xiàn)方案產(chǎn)生的是乘積項(xiàng)和非唯一單獨(dú)乘積項(xiàng)之和，因此英特爾的預(yù)加法器不適用于深度學(xué)習(xí)運(yùn)算。

英特爾器件的功耗使用英特爾的 EPE 功耗估算工具估算，并假設(shè)在以下最壞情況下：
1. 在最大頻率 (FMAX) 下 DSP 利用率為 90%
2. 時(shí)鐘速率為 DSP FMAX 時(shí)邏輯利用率為 50%
3. 時(shí)鐘速率為 DSP FMAX 的一半時(shí),block RAM 利用率為 90%
4. 4 個(gè) DDR4 和 1 個(gè) PCIe Gen3 x 8
5. DSP 觸發(fā)率為 12.5%
6. 80°TJ

圖 8 所示為深度學(xué)習(xí)運(yùn)算的能效比較。憑借 INT8 優(yōu)化，賽靈思 UltraScale 和 UltraScale+ 器件在 INT8精度上相比 INT16 運(yùn)算（KU115 INT16/KU115 INT8）能效提升 1.75 倍。與英特爾的 Arria 10 和 Stratix 10器件相比，賽靈思器件在深度學(xué)習(xí)推斷運(yùn)算上能效高出 2-6 倍。

圖 8 ：INT8 深度學(xué)習(xí)能效對(duì)比：賽靈思對(duì)比英特爾

結(jié)論
本白皮書(shū)探討了如何在賽靈思 DSP48E2 Slice 上優(yōu)化 INT8 深度學(xué)習(xí)運(yùn)算，從而實(shí)現(xiàn) 1.75 倍的性能提升。賽靈思 DSP48E2 Slice 可用于在共享相同內(nèi)核權(quán)重的同時(shí)實(shí)現(xiàn)并行 INT8 MACC。為高效地實(shí)現(xiàn) INT, 需要采用 24 位輸入寬度，這項(xiàng)優(yōu)勢(shì)只有賽靈思 UltraScale 和 UltraScale+ FPGA DSP Slice 能夠提供支持。賽靈思非常適合用于深度學(xué)習(xí)應(yīng)用中的 INT8 工作負(fù)載（例如圖像分類）。賽靈思不斷創(chuàng)新新的基于軟/硬件的方法，以加快深度學(xué)習(xí)應(yīng)用的發(fā)展。

如需了解有關(guān)數(shù)據(jù)中心深度學(xué)習(xí)的更多信息，敬請(qǐng)?jiān)L問(wèn)： https://china.xilinx.com/accelerationstack

參考資料
1. 1.Dettmers, 8-Bit Approximations for Parallelism in Deep Learning, ICLR 2016
https://arxiv.org/pdf/1511.04561.pdf
2. Gysel et al, Hardware-oriented Approximation of Convolutional Neural Networks, ICLR 2016
https://arxiv.org/pdf/1604.03168v3.pdf
3. Han et al, Deep Compression:Compressing Deep Neural Networks With Pruning, Trained Quantization And Huffman Coding, ICLR 2016
https://arxiv.org/pdf/1510.00149v5.pdf
4. Rosenblatt, F., The Perceptron:A Probabilistic Model for Information Storage and Organization in the Brain, Psychological Review, Vol. 65, No. 6, 1958

閱讀全文

上一頁(yè)1 23全文

本文導(dǎo)航

第 1 頁(yè)：DSP48E2 Slice 上優(yōu)化 INT8 深度學(xué)習(xí)運(yùn)算分析
第 2 頁(yè)：計(jì)算規(guī)則
第 3 頁(yè)：并行MACC運(yùn)算

dsp(364930) dsp(364930)
Xilinx(130375) Xilinx(130375)
深度學(xué)習(xí)(124080) 深度學(xué)習(xí)(124080)

評(píng)論

深度學(xué)習(xí)的硬件架構(gòu)解析

深度學(xué)習(xí)在這十年，甚至是未來(lái)幾十年內(nèi)都有可能是最熱門(mén)的話題。雖然深度學(xué)習(xí)已是廣為人知了，但它并不僅僅包含數(shù)學(xué)、建模、學(xué)習(xí)和優(yōu)化。算法必須在優(yōu)化后的硬件上運(yùn)行，因?yàn)?b class="flag-6" style="color: red">學(xué)習(xí)成千上萬(wàn)的數(shù)據(jù)可能需要長(zhǎng)達(dá)幾周的時(shí)間。因此，深度學(xué)習(xí)網(wǎng)絡(luò)亟需更快、更高效的硬件。接下來(lái)，讓我們重點(diǎn)來(lái)看深度學(xué)習(xí)的硬件架構(gòu)。

2016-11-18 16:00:37

6007

FPGA中如何充分利用DSP資源，DSP48E1內(nèi)部詳細(xì)資源介紹

充分利用DSP資源，我們需要對(duì)DSP48E1有所了解。 1.DSP48E1介紹 DSP48E1是7系列的最小計(jì)算單元，DSP資源，支持許多獨(dú)立的功能，其基本功能如下所示 DSP48E1簡(jiǎn)易模型包括：帶有D寄存器的25位預(yù)加法器 25*18二進(jìn)制乘法 48位累加三輸入加法其他的一些功能還包括

2020-09-30 11:48:55

32568

深入理解DNN加速器中的基本單元——DSP

DSP48E2是zynq器件中使用的DSP類型，其主要結(jié)構(gòu)包括一個(gè)27bit前加器，27x18bit的乘法器，一個(gè)48bit的可以執(zhí)行加減法，累加以及邏輯功能的ALU。

2022-08-02 09:16:27

5383

如何在GPU上使用TensorRT部署深度學(xué)習(xí)應(yīng)用程序

本文未涉及的一個(gè)主題是在 TensorRT 中以 INT8 精度精確地執(zhí)行推理。 TensorRT 自動(dòng)轉(zhuǎn)換 FP32 網(wǎng)絡(luò)以進(jìn)行部署，同時(shí)降低精度損失。為了實(shí)現(xiàn)這一目標(biāo)， TensorRT 使用了

2022-04-01 15:19:43

5690

7系列FPGA DSP48E1片的特點(diǎn)

乘法器和一個(gè)三輸入加法器/減法器/累加器。DSP48E1乘法器具有非對(duì)稱的輸入，接受18位2的補(bǔ)數(shù)操作數(shù)和25位2的補(bǔ)數(shù)操作數(shù)。乘法器階段以兩個(gè)部分乘積的形式產(chǎn)生一個(gè)43位2的補(bǔ)碼結(jié)果。這些部分積在X

2021-01-08 16:46:10

7系列FPGA DSP48E1片的特點(diǎn)什么？

7系列FPGA DSP48E1片的特點(diǎn)什么

2021-03-05 06:26:41

DSP48E1 Slice的最大頻率是什么

我正在實(shí)例化DSP切片并進(jìn)行簡(jiǎn)單的乘法然后加法（（A * B）+ C）。根據(jù)DSP48E1用戶指南，當(dāng)使用所有三個(gè)流水線寄存器時(shí)，它給出了最高頻率為600 MHz。但就我而言，它使用流水線寄存器

2020-06-12 06:32:01

DSP48E1不會(huì)推斷預(yù)加法器

嗨，我有一個(gè)如下的指令：（D-A）* B + C.端口A，B，C，D與DSP48E1輸入引腳相對(duì)應(yīng)。我試圖將整個(gè)操作打包在DSP單元中。（順便說(shuō)一句，我的數(shù)據(jù)寬度是8位）在布局和布線完成后，我

2019-04-01 14:25:40

DSP48E1作為延遲移位寄存器

to use a DSP48E1 slice to delay data up to 48bits wide by three cycles and hence only use 1 DSP48 rather

2019-04-18 06:40:33

DSP48E1的屬性詳解

DSP48E1屬性

2021-01-27 06:21:23

DSP48E1的屬性詳解

和RSTB復(fù)位（如圖2-7和圖2-8所示）。　　　　P端口　　每個(gè)DSP48E1片都有一個(gè)48位的輸出端口p。這個(gè)輸出可以通過(guò)PCOUT路徑內(nèi)部連接（級(jí)聯(lián)連接）到相鄰的DSP48E1片。PCOUT連接

2020-12-23 16:54:08

DSP學(xué)習(xí)經(jīng)驗(yàn)

Memory，開(kāi)啟cache?！　　　∪?b class="flag-6" style="color: red">DSP能對(duì)SDRAM的不同4個(gè)bank可以同時(shí)訪問(wèn)，此時(shí)你可以將需要同時(shí)運(yùn)算的數(shù)據(jù)放入不同的bank　　　?。?b class="flag-6" style="color: red">8）開(kāi)啟仿真軟件的編譯優(yōu)化選項(xiàng)　　　　在菜單相應(yīng)的地方勾上

2011-10-19 10:31:23

INT8量化常見(jiàn)問(wèn)題的解決方案

一、int8的輸出和fp32模型輸出差異比較大解決方案：檢查前后處理是否有問(wèn)題，int8網(wǎng)絡(luò)輸入輸出一般需要做scale處理，看看是否遺漏？通過(guò)量化可視化工具分析int8的輸出和fp32

2023-09-19 06:09:33

深度學(xué)習(xí)存在哪些問(wèn)題？

深度學(xué)習(xí)常用模型有哪些？深度學(xué)習(xí)常用軟件工具及平臺(tái)有哪些？深度學(xué)習(xí)存在哪些問(wèn)題？

2021-10-14 08:20:47

深度學(xué)習(xí)框架只為GPU?

CPU優(yōu)化深度學(xué)習(xí)框架和函數(shù)庫(kù)機(jī)器學(xué)***器

2021-02-22 06:01:02

深度學(xué)習(xí)模型是如何創(chuàng)建的？

具有深度學(xué)習(xí)模型的嵌入式系統(tǒng)應(yīng)用程序帶來(lái)了巨大的好處。深度學(xué)習(xí)嵌入式系統(tǒng)已經(jīng)改變了各個(gè)行業(yè)的企業(yè)和組織。深度學(xué)習(xí)模型可以幫助實(shí)現(xiàn)工業(yè)流程自動(dòng)化，進(jìn)行實(shí)時(shí)分析以做出決策，甚至可以預(yù)測(cè)預(yù)警。這些AI

2021-10-27 06:34:15

Nanopi深度學(xué)習(xí)之路(1)深度學(xué)習(xí)框架分析

學(xué)習(xí)，也就是現(xiàn)在最流行的深度學(xué)習(xí)領(lǐng)域，關(guān)注論壇的朋友應(yīng)該看到了，開(kāi)發(fā)板試用活動(dòng)中有【NanoPi K1 Plus試用】的申請(qǐng)，介紹中NanopiK1plus的高大上優(yōu)點(diǎn)之一就是“可運(yùn)行深度學(xué)習(xí)算法的智能

2018-06-04 22:32:12

UltraScale DSP48 Slice架構(gòu)的優(yōu)勢(shì)是什么？

UltraScale DSP48 Slice架構(gòu)的優(yōu)勢(shì)是什么？UltraScale內(nèi)存架構(gòu)的優(yōu)勢(shì)是什么？

2021-05-24 06:34:00

Xilinx Vertex-4 DSP應(yīng)用程序xapp706是否可在Spartan-6上移植

the slice, can't I use the DSP48A1 macro itself to test this Xapp706 application?

2019-07-04 15:36:07

Xilinx大神都懂的數(shù)字運(yùn)算單元—DSP48E1

，這樣的輸入選擇有助于構(gòu)建多種類型，高流水化的DSP應(yīng)用。 2. DSP48E1使用 (1)DSP原語(yǔ)使用的每個(gè)端口及位寬如下所示： ①表示的數(shù)據(jù)通道，運(yùn)算數(shù)據(jù)的輸入。 ②寄存器配置通道，我們可以通過(guò)

2023-06-20 14:29:51

esp-dl int8量化模型數(shù)據(jù)集評(píng)估精度下降的疑問(wèn)求解？

一試著將模型進(jìn)行了esp-dl上int16和int8的量化，并在測(cè)試數(shù)據(jù)集上進(jìn)行精度評(píng)估，其中int16的模型精度基本沒(méi)有下降，但是int8的模型評(píng)估精度下降了很多，目前正在嘗試修改

2024-06-28 15:10:47

i.mx95的EIQ轉(zhuǎn)換器將int8更改為uint8后出現(xiàn)報(bào)錯(cuò)怎么解決？

我有一個(gè)大型量化 tensorflow lite 模型。它包括輸入和輸出類型為 “int8” 的 “Softmax”作。我正在運(yùn)行 eIQ 模型工具版本 1.14.0 將模型轉(zhuǎn)換為 i.MX95

2025-04-14 07:15:56

yolov5量化INT8出錯(cuò)怎么處理？

model_deploy.py --mlir yolov5l.mlir --quantize INT8 --calibration_table yolov5l_cali_table --chip

2024-01-10 06:40:14

【ELF 2學(xué)習(xí)板試用】ELF2開(kāi)發(fā)板（飛凌嵌入式）搭建深度學(xué)習(xí)環(huán)境部署（RKNN環(huán)境部署）

模型進(jìn)行量化部署轉(zhuǎn)換為rknn模型，并編譯好基本腳本上傳至開(kāi)發(fā)板。模型工具的介紹 RKNN-Toolkit2 ? ?RKNN-Toolkit2 是由瑞芯微電子開(kāi)發(fā)的一套深度學(xué)習(xí)模型優(yōu)化和推理工具。它

2025-02-04 14:15:27

【PYNQ-Z2試用體驗(yàn)】剪枝量化好幫手，深鑒科技Deepin套件DNNDK使用(結(jié)項(xiàng))

caffe模型（浮點(diǎn)），得到int8的模型，再通過(guò)sdk編程，直接部署到FPGA上，這個(gè)過(guò)程本質(zhì)上應(yīng)該還是使用了SDSoC的相關(guān)工具。大佬們開(kāi)發(fā)了DPU這個(gè)深度學(xué)習(xí)的IP，在不遠(yuǎn)的將來(lái)要放置到

2019-03-21 15:09:29

【TL6748 DSP申請(qǐng)】齒輪故障診斷（基于振動(dòng)數(shù)據(jù)采集分析處理）

申請(qǐng)理由：1）由于剛接觸到DSP不久，希望通過(guò)DSP的開(kāi)發(fā)板能夠快速入門(mén)，前期實(shí)現(xiàn)一些基本的功能；2）在學(xué)習(xí)到DSP的一些基本知識(shí)后，將逐漸運(yùn)用DSP的實(shí)際項(xiàng)目中，先試著嘗試解決一些振動(dòng)數(shù)據(jù)分析

2015-09-10 11:20:00

【米爾FZ3深度學(xué)習(xí)計(jì)算卡試用體驗(yàn)】DPU搭建

計(jì)算公司賽靈思（NASDAQ：XLNX）宣布，收購(gòu)北京人工智能（AI）芯片初創(chuàng)公司深鑒科技。深鑒科技擁有業(yè)界較為領(lǐng)先的機(jī)器學(xué)習(xí)能力，專注于神經(jīng)網(wǎng)絡(luò)剪枝、深度壓縮技術(shù)及系統(tǒng)級(jí)優(yōu)化。深鑒科技原本是一家芯片

2020-12-10 15:23:40

【資料上新】迅為基于3568開(kāi)發(fā)板的NPU開(kāi)發(fā)資料全面升級(jí)

開(kāi)始的，相比傳統(tǒng)的CPU和GPU，在深度學(xué)習(xí)運(yùn)算能力上有比較大幅度的提升。接下來(lái)在RV1109和RV1126上使用了第二代NPU，提升了NPU的利用率。第三代NPU應(yīng)用在RK3566和RK3568上

2022-06-23 15:05:22

為什么無(wú)法在GPU上使用INT8 和 INT4量化模型獲得輸出？

安裝OpenVINO? 2024.0 版本。使用 optimum-intel 程序包將 whisper-large-v3 模型轉(zhuǎn)換為 int 4 和 int8，并在 GPU 上使用 OpenVINO? 運(yùn)行推理。沒(méi)有可用的輸出。

2025-06-23 07:11:11

什么是深度學(xué)習(xí)？使用FPGA進(jìn)行深度學(xué)習(xí)的好處？

，即使使用具有一定低位寬的數(shù)據(jù)，深度學(xué)習(xí)推理也不會(huì)降低最終精度。目前據(jù)說(shuō)8位左右可以提供穩(wěn)定的準(zhǔn)確率，但最新的研究表明，已經(jīng)出現(xiàn)了即使降低到4位或2位也能獲得很好準(zhǔn)確率的模型和學(xué)習(xí)方法，越來(lái)越多的正在

2023-02-17 16:56:59

在OpenVINO?工具套件的深度學(xué)習(xí)工作臺(tái)中無(wú)法導(dǎo)出INT8模型怎么解決？

無(wú)法在 OpenVINO? 工具套件的深度學(xué)習(xí) （DL）工作臺(tái)中導(dǎo)出 INT8 模型

2025-03-06 07:54:52

如何分析和比較XST綜合工具生成的報(bào)告

1323％DSP48E1的數(shù)量168641％設(shè)備利用率摘要（估計(jì)值）[ - ]邏輯利用用過(guò)的可得到采用切片寄存器的數(shù)量38695068736056％切片LUT的數(shù)量15269234368044％完全

2019-03-25 14:27:40

如何使用DSP45E1模塊實(shí)現(xiàn)Multply-Add操作？

嗨，我想使用DSP45E1模塊實(shí)現(xiàn)Multply-Add操作，其中一個(gè)要求是我需要DSP模塊上的3級(jí)流水線。查看UG479 7系列DSP48E1 Slice用戶指南（UG479） - Xilinx

2020-07-21 13:52:24

如何簡(jiǎn)化DSP48E1片操作

　　DSP48E1片的數(shù)學(xué)部分由一個(gè)25位的預(yù)加器、2個(gè)25位、18位的補(bǔ)法器和3個(gè)48位的數(shù)據(jù)路徑多路復(fù)用器（具有輸出X、Y和Z）組成，然后是一個(gè)3輸入加法器/減法器或2輸入邏輯單元（參見(jiàn)圖2

2021-01-08 16:36:32

如何簡(jiǎn)化DSP48E1片操作

簡(jiǎn)化DSP48E1片操作

2021-01-27 07:13:57

如何解決通用Xilinx FPGA DSP片和邏輯單元上的問(wèn)題？

切片是整個(gè)切片數(shù)量的一部分還是它們?cè)贔PGA上共享資源？2）如果我們沒(méi)有進(jìn)行任何DSP操作，那么DSP48E Slice是否可以用于實(shí)現(xiàn)某些常規(guī)邏輯，或者這些DSP Slice是否專門(mén)用于實(shí)現(xiàn)DSP

2019-04-04 06:36:56

是否可以輸入隨機(jī)數(shù)據(jù)集來(lái)生成INT8訓(xùn)練后量化模型？

無(wú)法確定是否可以輸入隨機(jī)數(shù)據(jù)集來(lái)生成 INT8 訓(xùn)練后量化模型。

2025-03-06 06:45:31

求DSP48E1和BRAM36K / BRAM18K之間水平關(guān)系的信息？

DSP48E1磁貼（由2個(gè)切片和互連組成）與5個(gè)CLB具有相同的高度1 DSP48E1瓷磚與一個(gè)BRAM36K具有相同的高度1 DPS48E1 Slice水平對(duì)齊BRAM18K我讀到了xilinx asmbl架構(gòu)

2020-07-25 11:04:42

求大神指教：在labview的公式節(jié)點(diǎn)中如何定義一個(gè)靜態(tài)變量（例如：static int8 i=0;這樣可以嗎？）

求大神指教：在labview的公式節(jié)點(diǎn)中如何定義一個(gè)靜態(tài)變量（例如：static int8 i=0;這樣可以嗎？）

2016-04-13 21:37:29

深圳公司招聘DSP高手1名

的體系結(jié)構(gòu),熟練使用相關(guān)開(kāi)發(fā)調(diào)試工具,擅長(zhǎng)軟件性能分析和優(yōu)化,能在緊約束條件下充分利用硬件資源,深度優(yōu)化提升軟件效率; 8、勇于承擔(dān)責(zé)任，良好的溝通能力和團(tuán)隊(duì)合作精神； 9、較好的英文閱讀能力。有興趣的朋友，請(qǐng)聯(lián)系我，企鵝號(hào)碼：1537906585

2016-05-04 17:40:52

請(qǐng)?zhí)峁?b class="flag-6" style="color: red">DSP48 slice中的Multipumping示例

嗨，我正在使用兩個(gè)使用級(jí)聯(lián)鏈路連接的DSP48切片來(lái)執(zhí)行所需的操作。我想嘗試多泵操作以有效地使用DSP48切片。請(qǐng)?zhí)峁?b class="flag-6" style="color: red">DSP48 slice中的Multipumping示例。提前致謝

2019-08-06 10:42:26

請(qǐng)問(wèn)DSP28335 int8怎么自己宏定義？

本帖最后由一只耳朵怪于 2018-6-13 16:29 編輯大家好，使用28335也有1年多了，這個(gè)數(shù)制問(wèn)題一直困擾我，就是如何自己定義8位的int型整數(shù)？在網(wǎng)上搜到的 typedef CPU_INT08U uint8; //[0 255]，這個(gè)能用么？謝謝大家～

2018-06-13 04:13:04

請(qǐng)問(wèn)tms320c6670中TCP3D的軟量都是INT8字型的？

本帖最后由一只耳朵怪于 2018-6-25 14:58 編輯不能是INT16字型的？INT8精度不夠呀~

2018-06-25 01:12:25

請(qǐng)問(wèn)在新CPU上推斷INT8模型的速度是否比舊CPU快？

與采用舊 CPU 的推理相比，在新 CPU 上推斷的 INT8 模型的推理速度更快。

2023-08-15 08:28:42

High Performance DSP Solutions

High DSP Performance Platform– The DSP48E Slice– Essential DSP Building Blocks• Imaging Algorithms

2009-04-09 22:05:31

MPEG4-SP在DSP上的優(yōu)化分析

本文簡(jiǎn)要介紹了MPEG4-SP在DSP TM1300上的實(shí)現(xiàn)和優(yōu)化過(guò)程。分析了其性能優(yōu)化原理，給出了性能優(yōu)化中使用到的幾個(gè)技巧，最終取得了滿意的優(yōu)化效果。

2009-05-09 14:14:45

CDMA網(wǎng)絡(luò)深度覆蓋的天線應(yīng)用與RSSI指標(biāo)優(yōu)化分析

CDMA網(wǎng)絡(luò)深度覆蓋的天線應(yīng)用與RSSI指標(biāo)優(yōu)化分析，很好的網(wǎng)絡(luò)資料，快來(lái)學(xué)習(xí)吧。

2016-04-19 11:30:48

7 50T FPGA試用筆記（二）/DSP48E1

）：使用DS48E1的SIMD功能實(shí)現(xiàn)四路并行12位加法”，要求數(shù)據(jù)從不同的DSP48端口進(jìn)去。評(píng)分標(biāo)準(zhǔn)： 1）使用Vivado 仿真通過(guò) 2）使用7A50T板子，使用Vivado硬件實(shí)現(xiàn)且記錄波形，或者，使用Matlab sysgen硬件仿真，或者其他硬件實(shí)現(xiàn)方式且有硬件結(jié)果軟件環(huán)境：

2017-02-07 20:23:33

3109

System generator DSP48E1 (1)：端口說(shuō)明

(MACC, )，乘加，三輸入加法等等。該架構(gòu)還支持串聯(lián)多個(gè)DSP48E1 slice，避免使用fpga邏輯功能的繁瑣。 System generator DSP48E1 模塊參數(shù) 雙擊dsp48e1模塊

2017-02-08 01:07:12

1174

System generator DSP48E1 (2)：四路加法器

概述利用4個(gè)dsp48e1模塊，實(shí)現(xiàn)四路加法器，dsp48e1模塊在手冊(cè)中表示比較復(fù)雜，找了兩個(gè)圖，可以大致看懂他的基本功能。圖1 dsp48e1端口說(shuō)明圖2 簡(jiǎn)化的DSP48E1結(jié)構(gòu) 軟件

2017-02-08 01:10:08

994

S2C的KU115邏輯模塊具備很強(qiáng)的DSP原型功能

UltraScale DSP48E2 Slice 完美結(jié)合在一起。Prodigy KU 邏輯模塊理想適用于計(jì)算密集型應(yīng)用；根據(jù) S2C 的介紹，該模塊提供的 DSP 資源比市場(chǎng)上任何原型板都要多。除了數(shù)千

2017-02-08 12:19:14

1310

Xilinx可編程邏輯器件設(shè)計(jì)與開(kāi)發(fā)（基礎(chǔ)篇）連載14：Spartan

為了適應(yīng)越來(lái)越復(fù)雜的DSP運(yùn)算，Spartan-6在Spartan 3A DSP模塊DSP48A 基礎(chǔ)上，不斷進(jìn)行功能擴(kuò)展，推出了功能更強(qiáng)大的DSP48A1 SLICE。

2017-02-11 08:53:13

1495

Xilinx可編程邏輯器件設(shè)計(jì)與開(kāi)發(fā)（基礎(chǔ)篇）連載24：Spartan

為了適應(yīng)越來(lái)越復(fù)雜的DSP運(yùn)算，Virtex-6中嵌入了功能更強(qiáng)大的DSP48E1 SLICE，簡(jiǎn)化的DSP48E1模塊如圖5-16所示。

2017-02-11 09:17:13

1946

Xilinx INT8 優(yōu)化開(kāi)發(fā)嵌入式視覺(jué)

賽靈思 INT8 優(yōu)化為使用深度學(xué)習(xí)推斷和傳統(tǒng)計(jì)算機(jī)視覺(jué)功能的嵌入式視覺(jué)應(yīng)用提供最優(yōu)異的性能和能效最出色的計(jì)算方法。與其他 FPGA/DSP 架構(gòu)相比，賽靈思的集成 DSP 架構(gòu)在 INT8 深度學(xué)習(xí)運(yùn)算上能實(shí)現(xiàn) 1.75 倍的性能優(yōu)勢(shì)。

2017-09-22 17:27:11

5970

基于24AA02E48/24AA025E48下的串行 EEPROM

最高待機(jī)電流和工作電流分別僅為 1 μA 和 1 mA。24AAXXXE48 還支持最多可寫(xiě)入 8 字節(jié)數(shù)據(jù)的頁(yè)寫(xiě)操作（在 24AA025E48 上為 16 字節(jié)）。 24AAXXXE48 提供標(biāo)準(zhǔn)的 8 引腳 SOIC、 5 引腳 SOT-23 和 6 引腳 SOT-23

2018-07-03 08:24:00

利用DSP48E2 Slice中的寬MUX產(chǎn)品反饋

了解如何為UltraScale +設(shè)計(jì)添加額外的安全級(jí)別。該視頻演示了如何防止差分功耗分析（DPA），以在比特流配置之上增加額外的安全性。

2018-11-27 06:24:00

3199

Virtex-7 FPGA系列DSP Slice功能的討論

本視頻介紹了7系列FPGA的DSP Slice功能。此外，還討論了Pre-Adder和Dynamic Pipeline控制資源。

2018-11-26 06:02:00

7799

賽靈思INT8優(yōu)化為嵌入式視覺(jué)應(yīng)用性能和計(jì)算方法

賽靈思的 DSP 架構(gòu)和庫(kù)針對(duì) INT8 運(yùn)算進(jìn)行了精心優(yōu)化。本白皮書(shū)介紹如何使用賽靈思 16nm 和 20nm All Programmable 器件中的 DSP48E2 Slice，在共享相同內(nèi)核權(quán)重的同時(shí)處理兩個(gè)并行的 INT8 MACC 運(yùn)算。

2019-07-29 11:19:32

2985

賽靈思INT8優(yōu)化為嵌入式視覺(jué)應(yīng)用提供性能和計(jì)算方法

要使用可編程邏輯上的 DSP 實(shí)現(xiàn)中值濾波器，可以對(duì)算法做改動(dòng)。每次比較運(yùn)算可以分為減法運(yùn)算及后續(xù)的符號(hào)位檢查。對(duì)減法運(yùn)算，DSP48E2 Slice 能夠以四個(gè) 12 位或兩個(gè) 24 位模式進(jìn)行運(yùn)算。要充分利用 DSP48E2 Slice，可以并行運(yùn)算多個(gè)像素。

2019-07-30 08:59:46

4087

Intel Xe獨(dú)立顯卡獲得新技能將支持Int8整數(shù)數(shù)據(jù)

Intel近日發(fā)布了最新版的高性能深度學(xué)習(xí)優(yōu)化庫(kù)DNNL 1.2，證實(shí)即將推出的全新Xe架構(gòu)獨(dú)立GPU的一項(xiàng)新技能，那就是支持Int8整數(shù)數(shù)據(jù)類型。

2020-02-04 15:31:19

1745

DSP48的演變史

更加多樣化。DSP48基本結(jié)構(gòu)如下圖所示（圖片來(lái)源：ug073, Figure 2-1）。DSP48中的核心單元是18x18的乘法器。從圖中不難看出，DSP48可實(shí)現(xiàn)基本數(shù)學(xué)函數(shù)P=Z(X+Y+CIN

2020-10-30 17:16:51

7835

DSP48E1詳解（3）： DSP48E1屬性

A、B、C、CARRYIN、CARRYINSEL、OPMODE、BCIN、PCIN、ACIN、ALUMODE、CARRYCASCIN、MULTSIGNIN以及相應(yīng)的時(shí)鐘啟用輸入和復(fù)位輸入都是保留端口。D和INMODE端口對(duì)于DSP48E1片是唯一的。本節(jié)詳細(xì)描述DSP48E1片的輸入端口

2022-07-25 18:00:18

6752

DSP48E1片的數(shù)據(jù)和控制輸入提供算術(shù)和邏輯階段

DSP48E1片的數(shù)學(xué)部分由一個(gè)25位的預(yù)加器、2個(gè)25位、18位的補(bǔ)法器和3個(gè)48位的數(shù)據(jù)路徑多路復(fù)用器(具有輸出X、Y和Z)組成，然后是一個(gè)3輸入加法器/減法器或2輸入邏輯單元(參見(jiàn)圖2-5)。使用2輸入邏輯單元時(shí)，不能使用乘法器。

2022-01-21 14:14:26

1831

7系列FPGA DSP48E1的參數(shù)特點(diǎn)概述

在DSP48E1列中，級(jí)聯(lián)各個(gè)DSP48E1片可以支持更高級(jí)的DSP功能。兩個(gè)數(shù)據(jù)路徑(ACOUT和BCOUT)和DSP48E1片輸出(PCOUT、MULTSIGNOUT和CARRYCASCOUT)提供級(jí)聯(lián)功能。級(jí)聯(lián)數(shù)據(jù)路徑的能力在過(guò)濾器設(shè)計(jì)中很有用。

2022-06-21 08:55:00

3250

DSP48E1詳解（1）：7系列FPGA DSP48E1片的特點(diǎn)

2021-01-27 07:34:32

DSP48E1詳解（3）：DSP48E1屬性

2021-01-27 08:18:02

DSP48E1詳解（2）：簡(jiǎn)化DSP48E1片操作

2021-01-29 08:19:37

深度模型中的優(yōu)化與學(xué)習(xí)課件下載

深度模型中的優(yōu)化與學(xué)習(xí)課件下載

2021-04-07 16:21:01

ncnn avx2/armv8.2 基礎(chǔ)架構(gòu)

2020年開(kāi)始，新手機(jī) CPU 幾乎都是 armv8.2 架構(gòu)，這個(gè)架構(gòu)引入了新的 fp16 運(yùn)算和 int8 dot 指令，優(yōu)化得當(dāng)就能大幅加速深度學(xué)習(xí)框架的...

2022-01-26 18:53:19

Int8量化-ncnn社區(qū)Int8重構(gòu)之路

本文是對(duì)NCNN社區(qū)int8模塊的重構(gòu)開(kāi)發(fā)，再也不用擔(dān)心溢出問(wèn)題了，速度也還行。作者：圈圈蟲(chóng)首發(fā)知乎傳送門(mén)ncnnBUG1989/caffe-int8-conver...

2022-02-07 12:38:26

英偉達(dá)：5nm實(shí)驗(yàn)芯片用INT4達(dá)到INT8的精度

降低數(shù)字格式而不造成重大精度損失，要?dú)w功于按矢量縮放量化（per-vector scaled quantization，VSQ）的技術(shù)。具體來(lái)說(shuō)，一個(gè)INT4數(shù)字只能精確表示從-8到7的16個(gè)整數(shù)。

2022-12-12 15:48:15

1566

總結(jié)FasterTransformer Encoder(BERT)的cuda相關(guān)優(yōu)化技巧

FasterTransformer BERT 包含優(yōu)化的 BERT 模型、高效的 FasterTransformer 和 INT8 量化推理。

2023-01-30 09:34:48

4388

什么是深度學(xué)習(xí)中優(yōu)化算法

先大致講一下什么是深度學(xué)習(xí)中優(yōu)化算法吧，我們可以把模型比作函數(shù)，一種很復(fù)雜的函數(shù)：h(f(g(k(x))))，函數(shù)有參數(shù)，這些參數(shù)是未知的，深度學(xué)習(xí)中的“學(xué)習(xí)”就是通過(guò)訓(xùn)練數(shù)據(jù)求解這些未知的參數(shù)。

2023-02-13 15:31:48

2442

總結(jié)FasterTransformer Encoder優(yōu)化技巧

FasterTransformer BERT 包含優(yōu)化的 BERT 模型、高效的 FasterTransformer 和 INT8 量化推理。

2023-05-30 15:15:15

2006

PyTorch教程12.1之優(yōu)化和深度學(xué)習(xí)

電子發(fā)燒友網(wǎng)站提供《PyTorch教程12.1之優(yōu)化和深度學(xué)習(xí).pdf》資料免費(fèi)下載

2023-06-05 15:08:41

PyTorch教程-12.1. 優(yōu)化和深度學(xué)習(xí)

目標(biāo)上的標(biāo)志。 12.1.1。優(yōu)化目標(biāo)? 盡管優(yōu)化為深度學(xué)習(xí)提供了一種最小化損失函數(shù)的方法，但從本質(zhì)上講，優(yōu)化和深度學(xué)習(xí)的目標(biāo)是根本不同的。前

2023-06-05 15:44:30

1012

YOLOv8模型ONNX格式INT8量化輕松搞定

深度學(xué)習(xí)模型量化支持深度學(xué)習(xí)模型部署框架支持的一種輕量化模型與加速模型推理的一種常用手段，ONNXRUNTIME支持模型的簡(jiǎn)化、量化等腳本操作，簡(jiǎn)單易學(xué)，非常實(shí)用。

2023-07-18 09:34:57

5763

INT8量子化PyTorch x86處理器

INT8量子化PyTorch x86處理器

2023-08-31 14:27:07

1688

在Xilinx器件上具有INT4優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)

電子發(fā)燒友網(wǎng)站提供《在Xilinx器件上具有INT4優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò).pdf》資料免費(fèi)下載

2023-09-13 09:30:54

探索ChatGLM2在算能BM1684X上INT8量化部署，加速大模型商業(yè)落地

｜探索ChatGLM2-6B模型與TPU部署》。為了進(jìn)一步提升模型的推理效率與降低存儲(chǔ)空間，我們對(duì)模型進(jìn)行了INT8量化部署，整體性能提升70%以上，模型大小降低到

2023-10-10 10:18:03

5471

Yolo系列模型的部署、精度對(duì)齊與int8量化加速

可視化其他量化形式的engine和問(wèn)題engine進(jìn)行對(duì)比，我們發(fā)現(xiàn)是一些層的int8量化會(huì)出問(wèn)題，由此找出問(wèn)題量化節(jié)點(diǎn)解決。

2023-11-23 16:40:20

2524

深度學(xué)習(xí)編譯工具鏈中的核心——圖優(yōu)化

等，需要調(diào)整優(yōu)化網(wǎng)絡(luò)中使用的算子或算子組合，這就是深度學(xué)習(xí)編譯工具鏈中的核心——圖優(yōu)化。圖優(yōu)化是指對(duì)深度學(xué)習(xí)模型的計(jì)算圖進(jìn)行分析和優(yōu)化的過(guò)程，通過(guò)替換子圖（算子）為在推理平臺(tái)上性能更佳的另一個(gè)等價(jià)子圖

2024-05-16 14:24:04

2262

深度學(xué)習(xí)的模型優(yōu)化與調(diào)試方法

深度學(xué)習(xí)模型在訓(xùn)練過(guò)程中，往往會(huì)遇到各種問(wèn)題和挑戰(zhàn)，如過(guò)擬合、欠擬合、梯度消失或爆炸等。因此，對(duì)深度學(xué)習(xí)模型進(jìn)行優(yōu)化與調(diào)試是確保其性能優(yōu)越的關(guān)鍵步驟。本文將從數(shù)據(jù)預(yù)處理、模型設(shè)計(jì)、超參數(shù)調(diào)整、正則化、模型集成以及調(diào)試與驗(yàn)證等方面，詳細(xì)介紹深度學(xué)習(xí)的模型優(yōu)化與調(diào)試方法。

2024-07-01 11:41:13

2534

深度神經(jīng)網(wǎng)絡(luò)模型量化的基本方法

深度神經(jīng)網(wǎng)絡(luò)模型量化是深度學(xué)習(xí)領(lǐng)域中的一種重要優(yōu)化技術(shù)，旨在通過(guò)減少模型參數(shù)的精度（即從高精度浮點(diǎn)數(shù)如32位浮點(diǎn)數(shù)FP32降低到低精度整數(shù)如8位整數(shù)INT8或更低）來(lái)降低模型的計(jì)算和存儲(chǔ)需求，同時(shí)

2024-07-15 11:26:24

1938

NPU在深度學(xué)習(xí)中的應(yīng)用

設(shè)計(jì)的硬件加速器，它在深度學(xué)習(xí)中的應(yīng)用日益廣泛。 1. NPU的基本概念 NPU是一種專門(mén)針對(duì)深度學(xué)習(xí)算法優(yōu)化的處理器，它與傳統(tǒng)的CPU和GPU有所不同。NPU通常具有高度并行的處理能力，能夠高效地執(zhí)行深度學(xué)習(xí)中的大規(guī)模矩陣運(yùn)算和數(shù)據(jù)傳輸。這種設(shè)計(jì)使得NPU在處理深度學(xué)習(xí)任務(wù)時(shí)，

2024-11-14 15:17:39

3175

DD10-48D15E3(C)2 DD10-48D15E3(C)2

電子發(fā)燒友網(wǎng)為你提供AIPULNION(AIPULNION)DD10-48D15E3(C)2相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè)，更有DD10-48D15E3(C)2的引腳圖、接線圖、封裝手冊(cè)、中文資料、英文資料，DD10-48D15E3(C)2真值表，DD10-48D15E3(C)2管腳等資料，希望可以幫助到廣大的電子工程師們。

2025-03-20 18:49:49