TI 處理器與深度學(xué)習(xí)加速器
[TI]的AM6xA(如[AM68Ax]和[AM69Ax])邊緣AI處理器采用異構(gòu)架構(gòu),帶有用于深度學(xué)習(xí)計(jì)算的專用加速器。這個(gè)加速器被稱為MMA -矩陣乘法加速器。該MMA與TI自己的C7x數(shù)字信號處理器一起,可以進(jìn)行高效的張量,矢量和標(biāo)量處理。加速器是獨(dú)立的深度學(xué)習(xí)處理,不依賴于主機(jī)ARM CPU。由于模型計(jì)算有大量的數(shù)據(jù)傳輸,加速器有自己的DMA引擎和內(nèi)存子系統(tǒng),與SoC的其余部分連接到相同的DDR。這與專有的Super-tiling技術(shù)一起,導(dǎo)致高達(dá)90%的加速器引擎利用率和DDR帶寬驅(qū)動(dòng)盡可能低的功耗,以實(shí)現(xiàn)節(jié)能計(jì)算。
*附件:am68a 數(shù)據(jù)手冊.pdf
*附件:am69a數(shù)據(jù)手冊.pdf
MMA架構(gòu)(來源:TI)
使用MMA作為AI功能的加速,整體SoC框圖如下圖所示。產(chǎn)品組合中的每個(gè)邊緣AI設(shè)備(如AM62A、AM68A等)的架構(gòu)都是相似的。
AM6xA處理器框圖(來源:TI)
基于異構(gòu)架構(gòu),片上系統(tǒng)(SoC)經(jīng)過優(yōu)化,可在多核Cortex-A微處理單元(mpu)上輕松編程,同時(shí)集成深度學(xué)習(xí)、成像、視覺、視頻和圖形處理等計(jì)算密集型任務(wù)。任務(wù)被卸載到專用硬件加速器和可編程核心上。使用高帶寬互連和智能存儲(chǔ)器架構(gòu)對這些核心進(jìn)行整體系統(tǒng)級集成,可實(shí)現(xiàn)高吞吐量和能源效率。通過系統(tǒng)組件的預(yù)集成實(shí)現(xiàn)優(yōu)化的系統(tǒng)BOM。請注意,像AM62A這樣的成本和功耗優(yōu)化的SoC并不包括所有硬件功能,例如GPU和DMPAC,或者可能包括性能降低的加速器變體以降低功耗。
深度學(xué)習(xí)效率
通常,TOPS(每秒tera次操作)用于衡量深度學(xué)習(xí)的性能比較。TOPS不能完全涵蓋深度學(xué)習(xí)性能的所有方面,因?yàn)樗€依賴于內(nèi)存(DDR)容量和神經(jīng)網(wǎng)絡(luò)架構(gòu)。
實(shí)際的推理時(shí)間取決于系統(tǒng)架構(gòu)利用系統(tǒng)中最優(yōu)數(shù)據(jù)流的效率。因此,更好的性能基準(zhǔn)是給定模型在給定輸入圖像分辨率下的推理時(shí)間。更快的推理時(shí)間允許處理更多的圖像,從而產(chǎn)生更高的每秒幀數(shù)(FPS)。因此,F(xiàn)PS除以TOPS (FPS/TOPS)顯示了建筑的效率。同樣,F(xiàn)PS/瓦特是嵌入式處理器能源效率的一個(gè)很好的基準(zhǔn)。
特性
處理器內(nèi)核:
- 高達(dá)雙 64 位 Arm Cortex-A72 微處理器子系統(tǒng),頻率高達(dá) 2GHz
- 每個(gè)雙核 Cortex-A72 群集 1MB 共享 L2 緩存
- 每個(gè) Cortex-A72 內(nèi)核 32KB L1 D-Cache 和 48KB L1 I-Cache
- 深度學(xué)習(xí)加速器:
- 高達(dá) 8 萬億次每秒作 (TOPS)
- 帶有圖像信號處理器 (ISP) 和多個(gè)視覺輔助加速器的視覺處理加速器 (VPAC)
- 雙核 Arm Cortex-R5F MCU,在通用計(jì)算分區(qū)中高達(dá) 1.0GHz,帶 FFI
- 16KB L1 D-Cache、16KB L1 I-Cache 和 64KB L2 TCM
- 雙核 Arm? Cortex-R5F? MCU,頻率高達(dá) 1.0 GHz,支持設(shè)備管理
- 32K L1 D-Cache、32K I-Cache 和 64K L2 TCM,所有內(nèi)存均支持 SECDED ECC
- 帶有圖像信號處理器 (ISP) 和多個(gè)視覺輔助加速器的視覺處理加速器 (VPAC)
- 480 MPixel/s 圖像處理器
- 支持高達(dá) 16 位的輸入 RAW 格式
- 寬動(dòng)態(tài)范圍 (WDR)、鏡頭畸變校正 (LDC)、視覺成像子系統(tǒng) (VISS) 和多標(biāo)量 (MSC) 支持
- 輸出顏色格式 : 8 位、12 位和 YUV 4:2:2、YUV 4:2:0、RGB、HSV/HSL
多媒體:
- 顯示子系統(tǒng)支持:
- 3D 圖形處理單元
- IMG BXS-4-64,高達(dá) 800MHz
- 50GFLOPS,4GTexels/秒
500MTexels/s,>8GFLOPs
- 支持至少 2 個(gè)合成圖層
- 最高支持 2048x1080 @60fps
- 支持 ARGB32、RGB565 和 YUV 格式
- 支持 2D 圖形
- OpenGL ES 3.1、Vulkan 1.2
- 兩個(gè) CSI2.0 4L 攝像機(jī)串行接口 (CSI-Rx) 加上帶 DPHY 的 CSI2.- 4L Tx (CSI-Tx)
- 視頻編碼器/解碼器
- 支持 5.1 級高級的 HEVC (H.265) 主要配置文件
- 支持 5.2 級 H.264 BaseLine/Main/High 配置文件
- 支持高達(dá) 4K UHD 分辨率 (3840 × 2160)
- 4K60 H.264/H.265 編碼/解碼(高達(dá) 480MP/s)
內(nèi)存子系統(tǒng):
- 高達(dá) 4MB 的片上 L3 RAM,具有 ECC 和一致性
- ECC 錯(cuò)誤保護(hù)
- 共享一致性緩存
- 支持內(nèi)部 DMA 引擎
- 最多兩個(gè)帶 ECC 的外部內(nèi)存接口 (EMIF) 模塊
- 支持 LPDDR4 內(nèi)存類型
- 支持高達(dá) 4266MT/s 的速度
- 多達(dá) 2 個(gè) 32 位數(shù)據(jù)總線,每個(gè) EMIF 具有高達(dá) 17GB/s 的內(nèi)聯(lián) ECC
- 通用內(nèi)存控制器 (GPMC)
- 在 MAIN 域中最多兩個(gè) 512KB 片上 SRAM,受 ECC 保護(hù)
設(shè)備安全性:
- 具有安全運(yùn)行時(shí)支持的安全啟動(dòng)
- 客戶可編程根密鑰,最高 RSA-4K 或 ECC-512
- 嵌入式硬件安全模塊
- 加密硬件加速器 – 具有 ECC、AES、SHA、RNG、DES 和 3DES 的 PKA
高速串行接口:
- 一個(gè) PCI-Express (PCIe) Gen3 控制器
- 每個(gè)控制器最多 4 個(gè)通道
- 第 1 代 (2.5GT/s)、第 2 代 (5.0GT/s) 和第 3 代 (8.0GT/s)作,具有自動(dòng)協(xié)商功能
- 一個(gè) USB 3.0 雙角色設(shè)備 (DRD) 子系統(tǒng)
- 兩個(gè) CSI2.0 4L 攝像機(jī)串行接口 RX (CSI-RX) 和兩個(gè)帶 DPHY 的 CSI2.0 4L TX (CSI-TX)
- 符合 MIPI CSI 1.3 標(biāo)準(zhǔn) + MIPI-DPHY 1.2
- CSI-RX 支持 1、2、3 或 4 數(shù)據(jù)通道模式,每通道高達(dá) 2.5Gbps
- CSI-TX 支持 1、2 或 4 數(shù)據(jù)通道模式,每通道高達(dá) 2.5Gbps
- 兩個(gè)以太網(wǎng) RMII/RGMII 接口
閃存接口:
- 嵌入式多媒體卡接口 (eMMC? 5.1)
- 1 個(gè)安全數(shù)字 3.0/安全數(shù)字輸入輸出 3.0 接口 (SD3.0/SDIO3.0)
- 兩個(gè)同步閃存接口配置為
- 一個(gè) OSPI 或 HyperBus? 或 QSPI,以及
- 一個(gè) QSPI
技術(shù)/封裝:
- 16nm FinFET 技術(shù)
- 23mm x 23mm、0.8mm 間距、770 引腳 FCBGA (ALZ)
技術(shù)文檔
=TI 選擇的此產(chǎn)品的熱門文檔
-
處理器
+關(guān)注
關(guān)注
68文章
20069瀏覽量
242802 -
加速器
+關(guān)注
關(guān)注
2文章
833瀏覽量
39579 -
AI
+關(guān)注
關(guān)注
88文章
37026瀏覽量
290072 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5586瀏覽量
123644
發(fā)布評論請先 登錄
TDA4VL-Q1處理器技術(shù)文檔總結(jié)

TDA4AL-Q1處理器的技術(shù)文檔摘要

AM62A7-Q1處理器的技術(shù)文檔總結(jié)

?AM62Ax處理器技術(shù)文檔總結(jié)

AM62A3處理器技術(shù)文檔總結(jié)

AM67x處理器技術(shù)文檔總結(jié)

【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)
Andes晶心科技推出新一代深度學(xué)習(xí)加速器
德州儀器AM62Ax Sitara?處理器技術(shù)解析

TPU處理器的特性和工作原理

AI MPU# 瑞薩RZ/V2H 四核視覺 ,采用 DRP-AI3 加速器和高性能實(shí)時(shí)處理器

端側(cè) AI 音頻處理器:集成音頻處理與 AI 計(jì)算能力的創(chuàng)新芯片

評論