chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用設(shè)計(jì)網(wǎng)關(guān)的 IP 內(nèi)核在 Xilinx VCK190 評估套件上加速人工智能應(yīng)用

innswaiter ? 2022-11-29 18:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

XilinxVersal AI Core 系列器件旨在解決獨(dú)特且最困難的 AI 推理問題,方法是使用高計(jì)算效率 ASIC 級 AI 計(jì)算引擎和靈活的可編程結(jié)構(gòu)來構(gòu)建具有加速器的 AI 應(yīng)用,從而最大限度地提高任何給定工作負(fù)載的效率,同時(shí)提供低功耗和低延遲。

Versal AI Core 系列VCK190 評估套件采用VC1902器件,該器件在產(chǎn)品組合中具有最佳的 AI 性能。該套件專為需要高吞吐量 AI 推理和信號處理計(jì)算性能的設(shè)計(jì)而設(shè)計(jì)。VCK190 套件的計(jì)算能力是當(dāng)前服務(wù)器級 CPU 的 100 倍,并具有多種連接選項(xiàng),是從云到邊緣的各種應(yīng)用的理想評估和原型設(shè)計(jì)平臺。

賽靈思 Versal AI 內(nèi)核系列 VCK190 評估套件圖像圖 1:賽靈思 Versal AI 內(nèi)核系列 VCK190 評估套件。(圖片來源:AMD, Inc)

VCK190 評估套件的主要特性

  • 板載 Versal AI 核心系列設(shè)備
    • 配備 Versal ACAP XCVC1902 量產(chǎn)芯片
    • AI 和 DSP 引擎的計(jì)算性能比當(dāng)今的服務(wù)器級 CPU 高 100 倍
    • 用于快速原型設(shè)計(jì)的預(yù)構(gòu)建合作伙伴參考設(shè)計(jì)
  • 用于前沿應(yīng)用開發(fā)的最新連接技術(shù)
    • 內(nèi)置 PCIe 第 4 代硬 IP,用于高性能設(shè)備接口,如 NVMe? 固態(tài)盤和主機(jī)處理器
    • 內(nèi)置 100G EMAC 硬 IP,用于高速 100G 網(wǎng)絡(luò)接口
    • DDR4 和 LPDDR4 內(nèi)存接口
  • 協(xié)同優(yōu)化工具和調(diào)試方法
    • Vivado? ML, Vitis 統(tǒng)一軟件平臺, Vitis? AI, 用于 AI 推理應(yīng)用開發(fā)的 AI 引擎工具

利用賽靈思 Versal AI 內(nèi)核系列器件實(shí)現(xiàn) AI 接口加速

賽靈思 Versal AI 內(nèi)核 VC1902 ACAP 器件框圖
圖 2:賽靈思 Versal AI 內(nèi)核 VC1902 ACAP 器件框圖。(圖片來源:AMD, Inc)

Versal? AI Core 自適應(yīng)計(jì)算加速平臺 (ACAP) 是一款高度集成的多核異構(gòu)設(shè)備,可在硬件和軟件級別動態(tài)適應(yīng)各種 AI 工作負(fù)載,使其成為 AI 邊緣計(jì)算應(yīng)用或云加速器卡的理想選擇。該平臺集成了用于嵌入式計(jì)算的下一代標(biāo)量引擎、用于硬件靈活性的自適應(yīng)引擎,以及由 DSP 引擎和用于推理和信號處理的革命性 AI 引擎組成的智能引擎。其結(jié)果是一個(gè)適應(yīng)性強(qiáng)的加速器,其性能、延遲和能效超過了傳統(tǒng) FPGAGPU 的性能、延遲和能效,適用于 AI/ML 工作負(fù)載。

Versal ACAP 平臺亮點(diǎn)

  • 適應(yīng)性強(qiáng)的引擎:
    • 自定義內(nèi)存層次結(jié)構(gòu)優(yōu)化了加速器內(nèi)核的數(shù)據(jù)移動和管理
    • 預(yù)處理和后處理功能,包括神經(jīng)網(wǎng)絡(luò) RT 壓縮和圖像縮放
  • 人工智能引擎 (DPU)
    • 矢量處理器的平鋪陣列,使用 XCVC1902 設(shè)備(稱為深度學(xué)習(xí)處理單元或 DPU)時(shí),性能高達(dá) 133 INT8 TOPS
    • 非常適合神經(jīng)網(wǎng)絡(luò),包括CNN,RNN和MLP;硬件可適應(yīng)不斷演變的算法進(jìn)行優(yōu)化
  • 標(biāo)量引擎
    • 四核ARM處理子系統(tǒng),用于安全、電源和比特流管理的平臺管理控制器

VCK190 人工智能推理性能

與當(dāng)前服務(wù)器級 CPU 相比,VCK190 能夠提供超過 100 倍的計(jì)算性能。下面是基于 C32B6 DPU 內(nèi)核的 AI 引擎實(shí)現(xiàn)的性能示例,批處理 = 6。有關(guān) VCK190 上各種神經(jīng)網(wǎng)絡(luò)樣本的吞吐量性能(以幀/秒或 fps 為單位),DPU 以 1250 MHz 運(yùn)行,請參閱下表。

no 神經(jīng)網(wǎng)絡(luò) 輸入大小 共和黨 性能(幀率)(多線程)
1 face_landmark 96x72 0.14 24605.3
2 facerec_resnet20 112×96 3.5 5695.3
3 inception_v2 224×224 4 1845.8
4 medical_seg_cell_tf2 128×128 5.3 3036.3
5 MLPerf_resnet50_v1.5_tf 224×224 8.19 2744.2
6 精煉Medical_EDD_tf 320x320 9.8 1283.6
7 tiny_yolov3_vmss 416×416 5.46 1424.4
8 yolov2_voc_pruned_0_77 448×448 7.8 1366.0

表 1:VCK190 AI 推理性能示例。

有關(guān) VCK190 AI 性能的更多詳細(xì)信息,請參閱 Vitis AI 庫用戶指南 (UG1354), r2.5.0 athttps://docs.xilinx.com/r/en-US/ug1354-xilinx-ai-sdk/VCK190-Evaluation-Board

設(shè)計(jì)網(wǎng)關(guān)的 IP 核如何提高 AI 應(yīng)用程序性能?

設(shè)計(jì)網(wǎng)關(guān)的IP 核設(shè)計(jì)用于處理網(wǎng)絡(luò)和數(shù)據(jù)存儲協(xié)議,無需 CPU 干預(yù)。這使得將CPU系統(tǒng)從復(fù)雜的協(xié)議處理中完全卸載成為理想的選擇,并使它們能夠?qū)⒋蟛糠钟?jì)算能力用于AI應(yīng)用程序,包括AI推理,前后數(shù)據(jù)處理,用戶界面,網(wǎng)絡(luò)通信和數(shù)據(jù)存儲訪問,以獲得最佳性能。

具有設(shè)計(jì)網(wǎng)關(guān) IP 核的 AI 應(yīng)用程序示例框圖圖 3:具有設(shè)計(jì)網(wǎng)關(guān) IP 核的示例 AI 應(yīng)用程序的框圖。(圖片來源:設(shè)計(jì)網(wǎng)關(guān))

設(shè)計(jì)網(wǎng)關(guān)的 TCP 卸載引擎 IP (TOExxG-IP) 性能

傳統(tǒng) CPU 系統(tǒng)處理超過 10GbE 或 25GbE 的高速、高吞吐量 TCP 數(shù)據(jù)流需要超過 50% 的 CPU 時(shí)間,這會降低 AI 應(yīng)用程序的整體性能。根據(jù)賽靈思MPSoC Linux系統(tǒng)上的10G TCP性能測試,10GbE TCP傳輸過程中的CPU使用率超過50%,TCP發(fā)送和接收數(shù)據(jù)傳輸速度可以達(dá)到10GbE速度的40%至60%左右或400 MB / s至600 MB / s。

通過實(shí)施設(shè)計(jì)網(wǎng)關(guān)的TOExxG-IP 內(nèi)核,通過 10GbE 和 25GbE 傳輸?shù)?CPU 使用率可以降低到幾乎 0%,同時(shí)以太網(wǎng)帶寬利用率可以達(dá)到接近 100%。這允許通過純硬件邏輯直接通過 TCP 網(wǎng)絡(luò)發(fā)送和接收數(shù)據(jù),并以最小的 CPU 使用率和盡可能低的延遲饋送到 Versal AI 引擎。下面的圖 4 顯示了 TOExxG-IP 和 MPSoC Linux 系統(tǒng)之間的 CPU 使用率和 TCP 傳輸速度比較。

MPSoC Linux系統(tǒng)10G/25G TCP傳輸性能對比圖片圖 4:MPSoC Linux 系統(tǒng)和 Design Gateway 的 TOExxG-IP 內(nèi)核對 10G/25G TCP 傳輸?shù)男阅鼙容^。(圖片來源:設(shè)計(jì)網(wǎng)關(guān))

設(shè)計(jì)網(wǎng)關(guān)的 TOExxG-IP for Versal 設(shè)備

TOExxG-IP 系統(tǒng)概述示意圖圖 5:TOExxG-IP 系統(tǒng)概述。(圖片來源:設(shè)計(jì)網(wǎng)關(guān))

TOExxG-IP 內(nèi)核實(shí)現(xiàn)了 TCP/IP 堆棧(硬線邏輯),并與賽靈思的 EMAC 硬 IP 和以太網(wǎng)子系統(tǒng)模塊連接,以實(shí)現(xiàn) 10G/25G/100G 以太網(wǎng)速度的下層硬件接口。TOExxG-IP 的用戶界面由用于控制信號的寄存器接口和用于數(shù)據(jù)信號的 FIFO 接口組成。TOExxG-IP 設(shè)計(jì)用于通過 AXI4-ST 接口與賽靈思以太網(wǎng)子系統(tǒng)連接。用戶界面的時(shí)鐘頻率取決于以太網(wǎng)接口速度(例如,156.625 MHz 或 322.266 MHz)。

TOExxG-IP的特點(diǎn)

  • 完整的 TCP/IP 堆棧實(shí)現(xiàn),無需 CPU
  • 支持一個(gè)會話與一個(gè) TOExxG-IP
  • 可以使用多個(gè) TOExxG-IP 實(shí)例實(shí)現(xiàn)多會話
  • 支持服務(wù)器和客戶端模式(被動/主動打開和關(guān)閉)
  • 支持巨型幀
  • 通過標(biāo)準(zhǔn)先進(jìn)先出接口實(shí)現(xiàn)簡單的數(shù)據(jù)接口
  • 通過單端口 RAM 接口實(shí)現(xiàn)簡單的控制接口

XCVC1902-VSVA2197-2MP-ES FPGA 器件上的 FPGA 資源使用情況如下表 2 所示。

家庭 示例設(shè)備 最大頻率 (兆赫 負(fù)載均衡注冊 負(fù)載均衡 LUT IOB 布拉姆蒂勒^1^ 烏蘭 設(shè)計(jì)工具
Versal AI Core XCVC1902-VSVA2197-2MP-ES 350 11340 10921 2165 - 51.5 - 萬歲2021.2

表 2:Versal 設(shè)備的實(shí)現(xiàn)統(tǒng)計(jì)信息示例。

TOExxG-IP 的更多詳細(xì)信息在其數(shù)據(jù)表中進(jìn)行了描述,可通過以下鏈接從設(shè)計(jì)網(wǎng)關(guān)的網(wǎng)站下載:

Design Gateway's NVMe Host Controller IP performance

NVMe Storage interface speed with PCIe Gen3 x4 or PCIe Gen4 x4 has data rates up to 32 Gbps and 64 Gbps. This is three to six times higher than 10GbE Ethernet speed. Processing complicated NVMe storage protocol by the CPU to achieve the highest possible disk access speed requires more CPU time than TCP protocol over 10GbE.

Design Gateway solved this problem by developing the NVMe IP core that is able to run as a standalone NVMe host controller, able to communicate with an NVMe SSD directly without the CPU. This enables a high efficiency and performance of the NVMe PCIe Gen3 and Gen4 SSD access, which simplifies the user interface and standard features for ease of usage without needing knowledge of the NVMe protocol. NVMe PCIe Gen4 SSD performance can achieve up to a 6 GB/s transfer speed with NVMe IP as shown in Figure 6.

Image of performance comparison of NVMe PCIe Gen3 and Gen4 SSDFigure 6: Performance comparison of NVMe PCIe Gen3 and Gen4 SSD with Design Gateway's NVMe-IP Core. (Image source: Design Gateway)

Design Gateway's NVMe-IP’s for Versal devices

Diagram of NVMe-IP systems overviewFigure 7: NVMe-IP systems overview. (Image source: Design Gateway)

NVMe-IP’s features

  • Able to implement application layer, transaction layer, data link layer, and some parts of the physical layer to access the NVMe SSD without a CPU or external DDR memory
  • Operates with Xilinx PCIe Gen3 and Gen4 Hard IP
  • 能夠利用BRAM和URAM作為數(shù)據(jù)緩沖區(qū),而無需外部存儲器接口
  • 支持六個(gè)命令:識別、關(guān)機(jī)、寫入、讀取、SMART 和刷新(提供可選的附加命令支持)

XCVC1902-VSVA2197-2MP-E-S FPGA 器件上的 FPGA 資源使用情況如表 2 所示。

家庭 示例設(shè)備 最大頻率 (兆赫) 負(fù)載均衡注冊 負(fù)載均衡 LUT IOB 布拉姆蒂勒^1^ 烏蘭 設(shè)計(jì)工具
Versal AI Core XCVC1902-VSVA2197-2MP-ES 375 6280 3948 1050 - 4 8 萬歲2022.1

表 3:Versal 設(shè)備的實(shí)現(xiàn)統(tǒng)計(jì)信息示例。

有關(guān) Versal 器件的 NVMe-IP 的更多詳細(xì)信息,請參見其數(shù)據(jù)表,可通過以下鏈接從 Design Gateway 的網(wǎng)站下載:

面向第四代賽靈思的 NVMe IP 核數(shù)據(jù)表

結(jié)論

TOExxG-IP 和 NVMe-IP 內(nèi)核都可以通過將 CPU 系統(tǒng)從計(jì)算和內(nèi)存密集型協(xié)議(如 TCP 和 NVMe 存儲協(xié)議)中完全卸載來幫助加速 AI 應(yīng)用程序性能,這對于實(shí)時(shí) AI 應(yīng)用程序至關(guān)重要。這使得賽靈思的 Versal AI Core 系列器件能夠執(zhí)行 AI 推理和高性能計(jì)算應(yīng)用,而不會出現(xiàn)網(wǎng)絡(luò)和數(shù)據(jù)存儲協(xié)議處理的瓶頸或延遲。

VCK190 評估套件和 Design Gateway 的網(wǎng)絡(luò)和存儲 IP 解決方案可在 Xilinx 的 Versal AI Core 器件上以盡可能低的 FPGA 資源使用量和極高的能效在 AI 應(yīng)用中實(shí)現(xiàn)最佳性能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 測試
    +關(guān)注

    關(guān)注

    8

    文章

    5892

    瀏覽量

    130241
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    利用超微型 Neuton ML 模型解鎖 SoC 邊緣人工智能

    的框架小 10 倍,速度也快 10 倍,甚至可以最先進(jìn)的邊緣設(shè)備上進(jìn)行人工智能處理。在這篇博文中,我們將介紹這對開發(fā)人員意味著什么,以及使用 Neuton 模型如何改進(jìn)您的開發(fā)和終端
    發(fā)表于 08-31 20:54

    AI 邊緣計(jì)算網(wǎng)關(guān):開啟智能新時(shí)代的鑰匙?—龍興物聯(lián)

    順暢地通向云端,實(shí)現(xiàn)設(shè)備與云端之間高效的數(shù)據(jù)傳輸與交互。通過融合先進(jìn)的邊緣計(jì)算和人工智能技術(shù),AI 邊緣計(jì)算網(wǎng)關(guān)能夠靠近數(shù)據(jù)源的網(wǎng)絡(luò)邊緣,對數(shù)據(jù)進(jìn)行實(shí)時(shí)處理和精準(zhǔn)分析,進(jìn)而實(shí)現(xiàn)智能
    發(fā)表于 08-09 16:40

    挖到寶了!人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器

    ,技術(shù)自主可控 如今這個(gè)科技競爭激烈的時(shí)代,國產(chǎn)化硬件的重要性不言而喻。比鄰星人工智能綜合實(shí)驗(yàn)箱就做到了這一點(diǎn),采用國產(chǎn)化硬件,積極推進(jìn)全行業(yè)產(chǎn)業(yè)鏈上下游環(huán)節(jié)的國產(chǎn)化進(jìn)程,把國產(chǎn)自主可控的軟硬件平臺
    發(fā)表于 08-07 14:30

    挖到寶了!比鄰星人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器!

    ,技術(shù)自主可控 如今這個(gè)科技競爭激烈的時(shí)代,國產(chǎn)化硬件的重要性不言而喻。比鄰星人工智能綜合實(shí)驗(yàn)箱就做到了這一點(diǎn),采用國產(chǎn)化硬件,積極推進(jìn)全行業(yè)產(chǎn)業(yè)鏈上下游環(huán)節(jié)的國產(chǎn)化進(jìn)程,把國產(chǎn)自主可控的軟硬件平臺
    發(fā)表于 08-07 14:23

    AMD Versal自適應(yīng)SoC使用QEMU+協(xié)同仿真示例

    Cortex A72 (QEMU) 運(yùn)行的固件進(jìn)行仿真,該固件會訪問當(dāng)前 AMD Vivado Design Suite 仿真中正在進(jìn)行仿真的 PL 中的 IP。本文將使用 Versal VCK190 和 Vivado 20
    的頭像 發(fā)表于 08-06 17:21 ?1312次閱讀
    <b class='flag-5'>在</b>AMD Versal自適應(yīng)SoC<b class='flag-5'>上</b>使用QEMU+協(xié)同仿真示例

    愛立信攜手超微加速邊緣人工智能部署

    愛立信與超微 Supermicro近日宣布有意開展戰(zhàn)略合作,加速邊緣人工智能部署。
    的頭像 發(fā)表于 06-17 09:42 ?1.4w次閱讀

    STM32N6570-DK:邊緣人工智能開發(fā)的全能探索板

    STM32N6570-DKDiscovery套件是一款專為邊緣人工智能開發(fā)設(shè)計(jì)的完整演示和開發(fā)平臺,基于ArmCortex-M55內(nèi)核的STM32N657X0H3Q微控制器。該套件集成
    的頭像 發(fā)表于 05-06 16:00 ?1064次閱讀
    STM32N6570-DK:邊緣<b class='flag-5'>人工智能</b>開發(fā)的全能探索板

    Cognizant將與NVIDIA合作部署神經(jīng)人工智能平臺,加速企業(yè)人工智能應(yīng)用

    -Cognizant將與NVIDIA合作部署神經(jīng)人工智能平臺,加速企業(yè)人工智能應(yīng)用 Cognizant將在關(guān)鍵增長領(lǐng)域提供解決方案,包括企業(yè)級AI智能體、定制化行業(yè)大型語言模型及搭載N
    的頭像 發(fā)表于 03-26 14:42 ?495次閱讀
    Cognizant將與NVIDIA合作部署神經(jīng)<b class='flag-5'>人工智能</b>平臺,<b class='flag-5'>加速</b>企業(yè)<b class='flag-5'>人工智能</b>應(yīng)用

    支持實(shí)時(shí)物體識別的視覺人工智能微處理器RZ/V2MA數(shù)據(jù)手冊

    。此外,利用了 DRP技術(shù)高靈活性特點(diǎn)的 OpenCV 加速器,除了可進(jìn)行人工智能推理的圖像預(yù)處理之外,還能在單芯片實(shí)現(xiàn)人工智能范疇之外的
    的頭像 發(fā)表于 03-18 18:12 ?640次閱讀
    支持實(shí)時(shí)物體識別的視覺<b class='flag-5'>人工智能</b>微處理器RZ/V2MA數(shù)據(jù)手冊

    Banana Pi 攜手 ArmSoM 推出人工智能加速 RK3576 CM5 計(jì)算模塊

    的直接替代品。 ArmSoM 在其創(chuàng)建過程中寫道:“ArmSoM-CM5 是一款由 Rockchip RK3576 第二代 8nm 高性能 AIOT(人工智能物聯(lián)網(wǎng))平臺驅(qū)動的計(jì)算模塊。它集成了四核
    發(fā)表于 12-11 18:38

    光庭信息亮相2024東湖國際人工智能高峰論壇

    近日,2024東湖國際人工智能高峰論壇中國光谷科技會展中心盛大舉辦。論壇以“智聯(lián)世界,共創(chuàng)未來”為主題,旨在加速推動人工智能創(chuàng)新成果規(guī)?;瘧?yīng)用,進(jìn)一步搭建多模態(tài)
    的頭像 發(fā)表于 11-28 10:19 ?797次閱讀

    AMD/Xilinx Zynq? UltraScale+ ? MPSoC ZCU102 評估套件

    AMD/Xilinx Zynq? UltraScale+ ? MPSoC ZCU102 評估套件可快速啟動汽車、工業(yè)、視頻和通信應(yīng)用設(shè)計(jì)。AMD/Xilinx MPSoC ZCU102
    的頭像 發(fā)表于 11-20 15:32 ?2097次閱讀
    AMD/<b class='flag-5'>Xilinx</b> Zynq? UltraScale+ ? MPSoC ZCU102 <b class='flag-5'>評估</b><b class='flag-5'>套件</b>

    嵌入式和人工智能究竟是什么關(guān)系?

    人工智能的結(jié)合,無疑是科技發(fā)展中的一場革命。人工智能硬件加速中,嵌入式系統(tǒng)以其獨(dú)特的優(yōu)勢和重要性,發(fā)揮著不可或缺的作用。通過深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等算法,嵌入式系統(tǒng)能夠高效地處理大量數(shù)
    發(fā)表于 11-14 16:39

    加速人工智能研發(fā),韓國設(shè)立人工智能研究實(shí)驗(yàn)室

    10月29日資訊,據(jù)國際媒體報(bào)道,OpenAI訓(xùn)練的ChatGPT全球范圍內(nèi)掀起熱潮后,多個(gè)國家紛紛加大對人工智能領(lǐng)域的投資,通過強(qiáng)化人才培養(yǎng)和基礎(chǔ)設(shè)施建設(shè),積極推動人工智能技術(shù)的研發(fā)與應(yīng)用。
    的頭像 發(fā)表于 10-30 15:44 ?1031次閱讀

    如何申請xilinx IP核的license

    使用FPGA的時(shí)候,有些IP核是需要申請后才能使用的,本文介紹如何申請xilinx IP核的license。
    的頭像 發(fā)表于 10-25 16:48 ?1868次閱讀
    如何申請<b class='flag-5'>xilinx</b> <b class='flag-5'>IP</b>核的license