chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DSP篇:專用處理器比較分析(2022)

智能計(jì)算芯世界 ? 來(lái)源:專用處理器比較分析 ? 2023-05-22 09:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

專用處理器 (或?qū)S眉铀倨鳎?顧名思義, 就是用于處理 “特定應(yīng)用” 的處理器, 相對(duì)于通用處理器而言, 這類處理器性能更高、功耗更低、通常價(jià)格也更便宜, 但是使用范圍也相對(duì)有限。 計(jì)算芯片產(chǎn)業(yè)在過(guò)去 50 年的發(fā)展歷程中, 比較成功的專用處理器門類只有數(shù)字信號(hào)處理器 (DSP)、圖形處理器(GPU) 和網(wǎng)絡(luò)處理器 (NPU), 這是 20 世紀(jì) 90 年代就已經(jīng)基本定型的格局。

AI芯片專利技術(shù)研發(fā)態(tài)勢(shì)

在過(guò)去 5 年中, 用于處理深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)處理器 (AI 芯片) 也開始快速發(fā)展, 比較成功的案例包括 Google 公司的張量處理器 TPU、寒武紀(jì)公司的 DianNao 系列深度學(xué)習(xí)處理器 [5] 等。 專用處理器的最終目標(biāo)不是替代通用 CPU, 而是與現(xiàn)有的通用 CPU 技術(shù)協(xié)作, 即將部分 CPU 運(yùn)行效率低下的應(yīng)用卸載 (offloading) 到用加速器上運(yùn)行, 通過(guò)構(gòu)建異構(gòu)計(jì)算平臺(tái)來(lái)高效地處理計(jì)算任務(wù)。 從產(chǎn)業(yè)生態(tài)的視角來(lái)看, 相比于通用處理器的硬件與軟件分離的 “水平” 模式, 專用加速器更注重軟硬協(xié)同的 “垂直” 發(fā)展模式。

c372916c-f82f-11ed-90ce-dac502259ad0.png

從芯片的效能和適應(yīng)性兩個(gè)維度來(lái)刻畫芯片的特征。 這里效能指的是單位功耗下提供的計(jì)算能力, 適應(yīng)性就是通常意義下的通用性。 業(yè)界通常將數(shù)據(jù)處理芯片大體分為三大類: 處理器芯片、ASIC(application specifific integrated circuit) 芯片和 FPGA (fifield programmable gate array) 芯片。

處理器芯片包括 CPU, GPU, DSP 等, 是用戶可編程的芯片; ASIC 是面向特定應(yīng)用 (application-specifific) 的專用集成電路 [8], 通常也稱之為全定制芯片, 不可編程; FPGA 器件屬于專用集成電路中的一種半定制電路, 是可 “編程” 的邏輯列陣, 利用查找表來(lái)實(shí)現(xiàn)組合邏輯, 但 FPGA 的 “編程” 與處理器芯片的軟件編程不同, 主要是配置邏輯, 可以理解為硬件編程。

從相對(duì)性能來(lái)看, ASIC 芯片最好, 處理器芯片最差, FPGA 介于二者之間; 但是從應(yīng)用的適應(yīng)性來(lái)看, 處理器芯片最好, FPGA 次之, ASIC 芯片最差。

值得注意的是這種分類標(biāo)準(zhǔn)并不是按照電路制造工藝, 例如處理器芯片和 ASIC 芯片本質(zhì)上都是全定制的集成電路, 處理器芯片本質(zhì)也是一種 ASIC, 但與通常意義上 ASIC 的最大差別還在于是否具有指令集, 有指令集的就更類似傳統(tǒng)的處理器, 反之就歸類為 ASIC. 此外, 處理器芯片由于其使用廣泛、出貨量大, 與軟件生態(tài)聯(lián)系尤其緊密, 所以將其獨(dú)立為一個(gè)大的類別。

無(wú)論是 DSP、GPU、AI 芯片、NPU, 還是現(xiàn)在更新的各種 “XPU”, 都是處理數(shù)據(jù)的芯片, 最終都需要執(zhí)行二進(jìn)制代碼的程序來(lái)完成計(jì)算。 因此專用處理器設(shè)計(jì)也大都需要涉及如下 6 方面內(nèi)容:

(1) 約定二進(jìn)制代碼的格式, 即指令;

(2) 需要將指令變換為機(jī)器碼, 即匯編;

(3) 為了提高編程方便程度, 需要將高層程序語(yǔ)言轉(zhuǎn)換為匯編語(yǔ)言, 即編譯;

(4) 為了提高編程的效率, 提供了各種編程環(huán)境, 即集成開發(fā)環(huán)境 (integrated development environment, IDE);

(5) 充分復(fù)用高度優(yōu)化的代碼, 即應(yīng)用程序庫(kù);

(6) 為了方便程序調(diào)試, 還需要提供各種仿真工具, 即仿真器 (emulator)。

c3a3270a-f82f-11ed-90ce-dac502259ad0.png

所以, 從系統(tǒng)抽象層次來(lái)看, 與通用處理器幾乎沒有區(qū)別。 但是不同的 DSIC 側(cè)重點(diǎn)不同, 有些 DSIC 只提供 API (application programming interface) 方式的調(diào)用, 例如早期的 GPU, 將編譯、匯編等過(guò)程全都凝結(jié)在運(yùn)行時(shí)庫(kù)中,從用戶角度看, 調(diào)用過(guò)程與使用 OpenCL [9] 中的 “內(nèi)建核函數(shù) (built-in kernels)” 類似,與調(diào)用普通的庫(kù)函數(shù)過(guò)程相同; 雖弱化的可編程性, 但是強(qiáng)化了用戶使用的便利性。 但也有些 DSIC, 如 DSP, 使用了大量底層編程, 雖編程難度高, 但方便精確地性能調(diào)優(yōu)。

DSP: 靈活的數(shù)據(jù)格式

DSP 也許是最早出現(xiàn)的專用集成電路。 DSP 的使用范圍非常廣, 從簡(jiǎn)單的 MP3 播放器到最新一代的 5G 通信都有使用場(chǎng)景。 常見的 DSP 大多帶有豐富的外設(shè)接口, 例如 PCIe、以太網(wǎng)、UARTI2C等, 尤其在很多嵌入式設(shè)備中, 豐富的外設(shè)接口對(duì)于提高系統(tǒng)的集成度、降低成本和功耗都有很大幫助, 所以很多 DSP 產(chǎn)品也演變成帶有豐富外設(shè)接口的 SoC (system on chip) 芯片, 如圖 2(a) 所示。

但是 DSP 最大的特點(diǎn)還是進(jìn)行數(shù)字信號(hào)處理的核。 大多數(shù) DSP 由于使用場(chǎng)景多為移動(dòng)設(shè)備, 或者只是作為 CPU 系統(tǒng)的數(shù)據(jù)輸入前端, 在系統(tǒng)中的地位并不高, 通常在功耗、散熱等方面都不可能給予太高容限, 所以功耗敏感、計(jì)算位寬對(duì) DSP 很重要, 定點(diǎn)、浮點(diǎn), 半精度、單精度、雙精度, 16 位、24 位、32 位、40 位等各種數(shù)據(jù)格式規(guī)范 “五花八門”。 在尋址上, DSP 對(duì)于數(shù)據(jù)對(duì)齊方式也最靈活, 設(shè)置了大量專門的指令對(duì)數(shù)據(jù)進(jìn)行對(duì)齊操作。

TI 公司是 DSP 芯片的龍頭, 被媒體評(píng)為是半導(dǎo)體行業(yè)利潤(rùn)率最高的公司。 2019 財(cái)年?duì)I業(yè)總收入144 億美金, 稅后凈利潤(rùn)高達(dá) 50 億美金, 利潤(rùn)率高達(dá) 35%. 作為比較, 同期 Intel 收入 720 億美金, 利潤(rùn)率 29%; 英偉達(dá)總營(yíng)收 110 億美金, 利潤(rùn)率 25%. TI 公司的 DSP 主要分為 3 大系列: C2000 系列,集成了 AD 轉(zhuǎn)換、Flash 存儲(chǔ)等, 主要用于控制馬達(dá)、變頻器等工控產(chǎn)品; C5000 系列, 16 位定點(diǎn), 主要用于便攜聲音、視頻、機(jī)頂盒等設(shè)備; C6000 系列, 采用了 VLIW (very long instruction word) 架構(gòu), 每秒執(zhí)行指令峰值可達(dá)百億條, 主要用于數(shù)字通信、圖像增強(qiáng)、傳輸、加密解密等對(duì)性能要求更高的場(chǎng)景。 下面就以比較復(fù)雜的 C6678 為例做簡(jiǎn)要介紹, 其頂層架構(gòu)如圖 2 所示。

1、通過(guò) VLIW 架構(gòu)提高性能

在 C6000 系列的 DSP 中, 采用了超長(zhǎng)指令字 (VLIW) 技術(shù), 性能的提升主要是通過(guò)引入 SIMD(single instruction multiple data) 來(lái)實(shí)現(xiàn)。 從 2 路 16 位、4 路 8 位 SIMD 操作, 到 8 路 16 位、4 路 32 位向量操作。 為了支持較寬的向量化操作, C66x 系列 DSP 設(shè)置了 8 個(gè)功能單元、兩組寄存器堆文件、兩條獨(dú)立數(shù)據(jù)通路; 每組寄存器文件包含 32 個(gè) 32 位通用寄存器, 而且可以支持 8, 16, 32, 40, 64 位等非常靈活的數(shù)據(jù)位寬打包存儲(chǔ)。 例如一個(gè)完整 32 位寄存器連同相鄰寄存器的低 8 位存儲(chǔ)一個(gè) 40 位的浮點(diǎn)數(shù), 同時(shí)相鄰寄存器的高 24 位還可以用于存其他的數(shù)。 乘法器支持 128, 40, 64 位數(shù)據(jù)。 顯然支持那么多 “非標(biāo)” 的定點(diǎn)和浮點(diǎn)數(shù), 如何來(lái)安排寄存器的分配成為一個(gè)很有挑戰(zhàn)的問(wèn)題。

2、指令緩存和程序緩存分離

將指令與數(shù)據(jù)分離也就是著名的 “哈佛結(jié)構(gòu)”, 一級(jí)程序緩存 (L1P) 采用直接映射, 一級(jí)數(shù)據(jù)緩存(L1D) 采用多路組相連。 這樣導(dǎo)致了緩存替換策略的不同, L1P 采用新緩存行替換同一位置的舊緩存行, 采用讀 – 分配 (read-allocate) 策略。 相較而言, L1D 復(fù)雜的多, 采用了最近最少使用 (least recently used, LRU) 替換策略和回寫 (writeback) 機(jī)制: 當(dāng)數(shù)據(jù)被更新時(shí), 并不立即更新相應(yīng)的緩存位置和存儲(chǔ)器地址, 而只做 “dirty” 標(biāo)記, 只有數(shù)據(jù)被替換出緩存, 或者手動(dòng)啟動(dòng)一致性操作指令, 或出現(xiàn)長(zhǎng)距離訪問(wèn) (此時(shí)所有高速緩存的局部性都極有可能被破壞), 才會(huì)寫回到存儲(chǔ)器。 這也說(shuō)明指令的局部性是比數(shù)據(jù)的局部性顯著得多, 而且對(duì)于核而言, 指令緩存是只讀的, 而數(shù)據(jù)緩存可讀可寫, 從這個(gè)意義上看, 將二者分開也是有好處的。 此外, DSP 的緩存還支持很多先進(jìn)的管理功能, 例如強(qiáng)制凍結(jié)模式(freeze mode), 可以防止中斷程序破壞已經(jīng)建立在緩存中的數(shù)據(jù)局部性, 降低中斷恢復(fù)后 “冷啟動(dòng)” 性能開銷。 這些操作也全都由程序員來(lái)完成。

3、硬件指令支持一致性管理

多核并不是 CPU 的 “專利”, C6000 系列也提供多核的 DSP, 由于多核引入會(huì)導(dǎo)致數(shù)據(jù)一致性的問(wèn)題, C66x 系列 DSP 也提供了柵欄指令 (MFENCE) 來(lái)處理緩存回寫, 強(qiáng)制或阻止一致性操作的執(zhí)行等, 方便程序員管理數(shù)據(jù)一致性。

4、硬件化的帶寬管理防止運(yùn)行阻塞

DSP 核中還設(shè)置了硬件化帶寬管理, 負(fù)責(zé)管理一級(jí)數(shù)據(jù)緩存 (L1D)、一級(jí)程序緩存 (L1P)、二級(jí)緩存 (L2)、寄存器配置總線等 4 類資源的訪問(wèn)優(yōu)先級(jí)。 訪問(wèn)發(fā)起方包括 DSP、外部 DMA (enhanced direct memory access, EDMA)、內(nèi)部 DMA (internal direct memory access, IDMA)、數(shù)據(jù)一致性操作。

管理按照每次訪問(wèn)授予優(yōu)先級(jí), 而不是按照訪問(wèn)類型固定優(yōu)先級(jí), 通過(guò)設(shè)置競(jìng)爭(zhēng)強(qiáng)度計(jì)數(shù)器來(lái)反映對(duì)資源的 “饑渴” 程度, 即便是最低優(yōu)先級(jí)的訪問(wèn), 隨著等待時(shí)間增加, 優(yōu)先級(jí)就會(huì)逐漸升高, 當(dāng)達(dá)到最長(zhǎng)等待周期數(shù), 就會(huì)強(qiáng)制授予一次訪問(wèn)。 而這些都是硬件管理的, 程序員只能設(shè)置最長(zhǎng)等待時(shí)間, 不能設(shè)置競(jìng)爭(zhēng)計(jì)數(shù)器。 這樣的硬件化維護(hù)資源公平性的設(shè)置在 CPU 中并不常見。

由以上分析可以看出, DSP 作為一類典型的專用處理器, 其結(jié)構(gòu)與數(shù)字信號(hào)處理需要豐富的 IO接口便于集成, 強(qiáng)大的浮點(diǎn)處理能力支持高帶寬的信號(hào)處理, 還提供了豐富的底層數(shù)據(jù)通路的控制手段方便專業(yè)用戶的性能調(diào)優(yōu)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    20065

    瀏覽量

    242565
  • asic
    +關(guān)注

    關(guān)注

    34

    文章

    1263

    瀏覽量

    123499
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4819

    瀏覽量

    106012
  • 數(shù)據(jù)處理
    +關(guān)注

    關(guān)注

    0

    文章

    635

    瀏覽量

    29642
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    HXS320F28027數(shù)字信號(hào)處理器(32位RISC-V DSP

    HXS320F28027數(shù)字信號(hào)處理器(32位RISC-V DSP)HXS320F28027是中科昊芯(Haawking)基于自主研發(fā)的H28x內(nèi)核推出的32位定點(diǎn)RISC-V DSP架構(gòu)數(shù)字信號(hào)
    發(fā)表于 05-21 10:21

    適用于單核、雙核和四核應(yīng)用處理器的PMIC DA9063L-A數(shù)據(jù)手冊(cè)

    DA9063L-A 是一款功能強(qiáng)大的系統(tǒng)電源管理集成電路(PMIC),適用于單核、雙核和四核應(yīng)用處理器,例如那些基于 ARM? Cortex?-A9和 Cortex-A15 架構(gòu)的處理器。 *附件
    的頭像 發(fā)表于 04-01 18:19 ?641次閱讀
    適用于單核、雙核和四核應(yīng)<b class='flag-5'>用處理器</b>的PMIC DA9063L-A數(shù)據(jù)手冊(cè)

    低功耗處理器的優(yōu)勢(shì)分析

    隨著科技的飛速發(fā)展,電子設(shè)備的種類和數(shù)量不斷增加,人們對(duì)設(shè)備的能效要求也越來(lái)越高。低功耗處理器因其在節(jié)能、環(huán)保和成本效益方面的優(yōu)勢(shì)而受到廣泛關(guān)注。 低功耗處理器的定義 低功耗處理器是指在設(shè)計(jì)時(shí)
    的頭像 發(fā)表于 02-07 09:14 ?1514次閱讀

    ads1601推薦的處理器DSP,我用stm32行嗎?

    ads1601推薦的處理器DSP,我用stm32行嗎? VIMD是中點(diǎn)電壓,想問(wèn)下這個(gè)腳有什么作用啊?可能是我自己看的不太仔細(xì) The digital outputs from
    發(fā)表于 02-05 08:38

    恩智浦i.MX 94應(yīng)用處理器如何變革工業(yè)和汽車連接

    恩智浦半導(dǎo)體發(fā)布i.MX 94系列應(yīng)用處理器,為工業(yè)和汽車連接設(shè)定了新的標(biāo)準(zhǔn)。作為i.MX 9系列應(yīng)用處理器的最新成員,i.MX 94旨在提供高性能和低延遲的實(shí)時(shí)計(jì)算能力,這是工業(yè)自動(dòng)化和汽車信息服務(wù)應(yīng)用的關(guān)鍵功能。
    的頭像 發(fā)表于 01-17 10:51 ?1321次閱讀

    選擇DSP處理器ADSP-2101與DSP16A的注意事項(xiàng)

    電子發(fā)燒友網(wǎng)站提供《選擇DSP處理器ADSP-2101與DSP16A的注意事項(xiàng).pdf》資料免費(fèi)下載
    發(fā)表于 01-14 15:28 ?0次下載
    選擇<b class='flag-5'>DSP</b><b class='flag-5'>處理器</b>ADSP-2101與<b class='flag-5'>DSP</b>16A的注意事項(xiàng)

    AN-400:選擇DSP處理器的注意事項(xiàng)--為什么選擇ADSP-2181

    電子發(fā)燒友網(wǎng)站提供《AN-400:選擇DSP處理器的注意事項(xiàng)--為什么選擇ADSP-2181.pdf》資料免費(fèi)下載
    發(fā)表于 01-13 18:05 ?0次下載
    AN-400:選擇<b class='flag-5'>DSP</b><b class='flag-5'>處理器</b>的注意事項(xiàng)--為什么選擇ADSP-2181

    EE-241:SHARC DSP到TigerSHARC處理器代碼移植指南

    電子發(fā)燒友網(wǎng)站提供《EE-241:SHARC DSP到TigerSHARC處理器代碼移植指南.pdf》資料免費(fèi)下載
    發(fā)表于 01-13 15:35 ?0次下載
    EE-241:SHARC <b class='flag-5'>DSP</b>到TigerSHARC<b class='flag-5'>處理器</b>代碼移植指南

    高速ADC、DAC與處理器之間是怎么通信的呢?

    一般低速的ADC、DAC通過(guò)串行通信接口,比如SPI與處理器/DSP通信,但高速ADC、DAC與處理器之間是怎么通信的呢
    發(fā)表于 01-10 08:30

    官宣!OpenWrt正式支持賽昉科技JH-7110 RISC-V應(yīng)用處理器

    OpenWrt官方近日發(fā)布了全新的LTS(長(zhǎng)期支持)版本——OpenWrt24.10,并正式支持賽昉科技的昉·驚鴻-7110(JH-7110)RISC-V應(yīng)用處理器。這一支持確保了基于JH-7110
    的頭像 發(fā)表于 12-09 16:56 ?1798次閱讀
    官宣!OpenWrt正式支持賽昉科技JH-7110 RISC-V應(yīng)<b class='flag-5'>用處理器</b>

    走進(jìn)北大 | 算能RISC-V通用處理器設(shè)計(jì)成功開課

    近日,北京大學(xué)集成電路學(xué)院賈天宇老師開設(shè)的《現(xiàn)代SoC處理器架構(gòu)設(shè)計(jì)》如期進(jìn)行,算能首席科學(xué)家楊柳西博士、處理器架構(gòu)師張明俊受邀,為北大博士講授了RXU高性能通用處理器設(shè)計(jì)的課程?!冬F(xiàn)代系統(tǒng)SoC
    的頭像 發(fā)表于 12-06 01:06 ?1330次閱讀
    走進(jìn)北大 | 算能RISC-V通<b class='flag-5'>用處理器</b>設(shè)計(jì)成功開課

    瑞薩電子推出高性能四核應(yīng)用處理器

    全球半導(dǎo)體解決方案供應(yīng)商瑞薩電子(TSE:6723)宣布,推出瑞薩面向工業(yè)應(yīng)用打造的最高性能微處理器(MPU)——RZ/T2H,憑借其強(qiáng)大的應(yīng)用處理能力和實(shí)時(shí)性能不僅能夠?qū)崿F(xiàn)對(duì)多達(dá)9軸工業(yè)機(jī)器人電機(jī)
    的頭像 發(fā)表于 11-29 11:34 ?1084次閱讀
    瑞薩電子推出高性能四核應(yīng)<b class='flag-5'>用處理器</b>

    恩智浦發(fā)布i.MX 94系列應(yīng)用處理器

    恩智浦半導(dǎo)體發(fā)布i.MX 9系列應(yīng)用處理器的新成員i.MX 94系列。該系列旨在用于工業(yè)控制、可編程邏輯控制(PLC)、遠(yuǎn)程信息處理、工業(yè)和汽車網(wǎng)關(guān)以及樓宇和能量控制。
    的頭像 發(fā)表于 11-26 17:48 ?2220次閱讀

    RK3566高性能低功耗四核應(yīng)用處理器數(shù)據(jù)手冊(cè)

    電子發(fā)燒友網(wǎng)站提供《RK3566高性能低功耗四核應(yīng)用處理器數(shù)據(jù)手冊(cè).pdf》資料免費(fèi)下載
    發(fā)表于 10-24 16:53 ?4次下載

    將TMS320F280x DSP配置為I2C主處理器或從處理器

    電子發(fā)燒友網(wǎng)站提供《將TMS320F280x DSP配置為I2C主處理器或從處理器.pdf》資料免費(fèi)下載
    發(fā)表于 10-15 09:34 ?0次下載
    將TMS320F280x <b class='flag-5'>DSP</b>配置為I2C主<b class='flag-5'>處理器</b>或從<b class='flag-5'>處理器</b>