chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

【產(chǎn)品測試】利用設(shè)計網(wǎng)關(guān)的 IP 內(nèi)核在 Xilinx VCK190 評估套件上加速人工智能應(yīng)用

innswaiter ? 2022-11-29 18:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

XilinxVersal AI Core 系列器件旨在解決獨特且最困難的 AI 推理問題,方法是使用高計算效率 ASIC 級 AI 計算引擎和靈活的可編程結(jié)構(gòu)來構(gòu)建具有加速器的 AI 應(yīng)用,從而最大限度地提高任何給定工作負載的效率,同時提供低功耗和低延遲。

Versal AI Core 系列VCK190 評估套件采用VC1902器件,該器件在產(chǎn)品組合中具有最佳的 AI 性能。該套件專為需要高吞吐量 AI 推理和信號處理計算性能的設(shè)計而設(shè)計。VCK190 套件的計算能力是當(dāng)前服務(wù)器級 CPU 的 100 倍,并具有多種連接選項,是從云到邊緣的各種應(yīng)用的理想評估和原型設(shè)計平臺。

賽靈思 Versal AI 內(nèi)核系列 VCK190 評估套件圖像圖 1:賽靈思 Versal AI 內(nèi)核系列 VCK190 評估套件。(圖片來源:AMD, Inc)

VCK190 評估套件的主要特性

  • 板載 Versal AI 核心系列設(shè)備
    • 配備 Versal ACAP XCVC1902 量產(chǎn)芯片
    • AI 和 DSP 引擎的計算性能比當(dāng)今的服務(wù)器級 CPU 高 100 倍
    • 用于快速原型設(shè)計的預(yù)構(gòu)建合作伙伴參考設(shè)計
  • 用于前沿應(yīng)用開發(fā)的最新連接技術(shù)
    • 內(nèi)置 PCIe 第 4 代硬 IP,用于高性能設(shè)備接口,如 NVMe? 固態(tài)盤和主機處理器
    • 內(nèi)置 100G EMAC 硬 IP,用于高速 100G 網(wǎng)絡(luò)接口
    • DDR4 和 LPDDR4 內(nèi)存接口
  • 協(xié)同優(yōu)化工具和調(diào)試方法
    • Vivado? ML, Vitis 統(tǒng)一軟件平臺, Vitis? AI, 用于 AI 推理應(yīng)用開發(fā)的 AI 引擎工具

利用賽靈思 Versal AI 內(nèi)核系列器件實現(xiàn) AI 接口加速

賽靈思 Versal AI 內(nèi)核 VC1902 ACAP 器件框圖圖 2:賽靈思 Versal AI 內(nèi)核 VC1902 ACAP 器件框圖。(圖片來源:AMD, Inc)

Versal? AI Core 自適應(yīng)計算加速平臺 (ACAP) 是一款高度集成的多核異構(gòu)設(shè)備,可在硬件和軟件級別動態(tài)適應(yīng)各種 AI 工作負載,使其成為 AI 邊緣計算應(yīng)用或云加速器卡的理想選擇。該平臺集成了用于嵌入式計算的下一代標(biāo)量引擎、用于硬件靈活性的自適應(yīng)引擎,以及由 DSP 引擎和用于推理和信號處理的革命性 AI 引擎組成的智能引擎。其結(jié)果是一個適應(yīng)性強的加速器,其性能、延遲和能效超過了傳統(tǒng) FPGAGPU 的性能、延遲和能效,適用于 AI/ML 工作負載。

Versal ACAP 平臺亮點

  • 適應(yīng)性強的引擎:
    • 自定義內(nèi)存層次結(jié)構(gòu)優(yōu)化了加速器內(nèi)核的數(shù)據(jù)移動和管理
    • 預(yù)處理和后處理功能,包括神經(jīng)網(wǎng)絡(luò) RT 壓縮和圖像縮放
  • 人工智能引擎 (DPU)
    • 矢量處理器的平鋪陣列,使用 XCVC1902 設(shè)備(稱為深度學(xué)習(xí)處理單元或 DPU)時,性能高達 133 INT8 TOPS
    • 非常適合神經(jīng)網(wǎng)絡(luò),包括CNN,RNN和MLP;硬件可適應(yīng)不斷演變的算法進行優(yōu)化
  • 標(biāo)量引擎
    • 四核ARM處理子系統(tǒng),用于安全、電源和比特流管理的平臺管理控制器

VCK190 人工智能推理性能

與當(dāng)前服務(wù)器級 CPU 相比,VCK190 能夠提供超過 100 倍的計算性能。下面是基于 C32B6 DPU 內(nèi)核的 AI 引擎實現(xiàn)的性能示例,批處理 = 6。有關(guān) VCK190 上各種神經(jīng)網(wǎng)絡(luò)樣本的吞吐量性能(以幀/秒或 fps 為單位),DPU 以 1250 MHz 運行,請參閱下表。

| | No | Neural Network | Input Size | GOPS | Performance (fps) (Multiple thread) |
| ---- | -------------------------- | ------------ | ------ | ------------------------------------- |
| 1 | face_landmark | 96x72 | 0.14 | 24605.3 |
| 2 | facerec_resnet20 | 112x96 | 3.5 | 5695.3 |
| 3 | inception_v2 | 224x224 | 4 | 1845.8 |
| 4 | medical_seg_cell_tf2 | 128x128 | 5.3 | 3036.3 |
| 5 | MLPerf_resnet50_v1.5_tf | 224x224 | 8.19 | 2744.2 |
| 6 | RefineDet-Medical_EDD_tf | 320x320 | 9.8 | 1283.6 |
| 7 | tiny_yolov3_vmss | 416x416 | 5.46 | 1424.4 |
| 8 | yolov2_voc_pruned_0_77 | 448x448 | 7.8 | 1366.0 |

Table 1: Example of VCK190 AI Inference performance.

See more detail of VCK190 AI performance from Vitis AI Library User Guide (UG1354), r2.5.0 at https://docs.xilinx.com/r/en-US/ug1354-xilinx-ai-sdk/VCK190-Evaluation-Board

How Design Gateway's IP cores accelerate AI application performance?

Design Gateway's IP Cores are designed to handle Networking and Data Storage protocol without need for CPU intervention. This makes it ideal to fully offload CPU systems from complicated protocol processing and which enables them to utilize most of their computing power for AI applications including AI inference, pre and post data processing, user interface, network communication and data storage access for the best possible performance.

Block diagram of example an AI Application with Design Gateway's IP CoresFigure 3: Block diagram of example an AI Application with Design Gateway's IP Cores. (Image source: Design Gateway)

Design Gateway's TCP Offload Engine IP (TOExxG-IP) performance

Processing high speed, high throughput TCP data streams over 10GbE or 25GbE by traditional CPU systems needs more than 50% of CPU time which reduces overall performance of AI applications. According to 10G TCP performance test on Xilinx's MPSoC Linux systems, CPU usage during 10GbE TCP transmission is more than 50%, TCP send and receive data transfer speed could be achieved just around 40% to 60% of 10GbE speed or 400 MB/s to 600 MB/s.

By implementing Design Gateway's TOExxG-IP Core, CPU usage for TCP transmission over 10GbE and 25GbE can be reduced to almost 0% while ethernet bandwidth utilization can be achieved close to 100%. This allows the sending and receiving of data over the TCP network directly by pure hardware logic and be fed into the Versal AI Engine with minimum CPU usage and the lowest possible latency. Figure 4 below shows the CPU usage and TCP transmission speed comparison between TOExxG-IP and MPSoC Linux systems.

Image of performance comparison of 10G/25G TCP transmission by MPSoC Linux systemsFigure 4: Performance comparison of 10G/25G TCP transmission by MPSoC Linux systems and Design Gateway's TOExxG-IP Core. (Image source: Design Gateway)

Design Gateway’s TOExxG-IP for Versal devices

Diagram of TOExxG-IP systems overviewFigure 5: TOExxG-IP systems overview. (Image source: Design Gateway)

The TOExxG-IP core implements the TCP/IP stack (in hardwire logic) and connects with Xilinx’s EMAC Hard IP and Ethernet Subsystem module for the lower-layer hardware interface with 10G/25G/100G Ethernet speed. The user interface of the TOExxG-IP consists of a Register interface for control signals and a FIFO interface for data signals. The TOExxG-IP is designed to connect with Xilinx's Ethernet subsystem through the AXI4-ST interface. The clock frequency of the user interface depends on the Ethernet interface speed (e.g., 156.625 MHz or 322.266 MHz).

TOExxG-IP’s features

  • Full TCP/IP stack implementation without need of the CPU
  • Supports one session with one TOExxG-IP
  • Multi-session can be implemented by using multiple TOExxG-IP instances
  • Support for both Server and Client mode (Passive/Active open and close)
  • Supports Jumbo frame
  • Simple data interface by standard FIFO interface
  • Simple control interface by single port RAM interface

FPGA resource usages on the XCVC1902-VSVA2197-2MP-ES FPGA device are shown in Table 2 below.

| | Family | Example Device | Fmax (MHz) | CLB Regs | CLB LUTs | Slice | IOB | BRAMTile^1^ | URAM | Design Tools |
| ---------------- | -------------------------- | ------------ | ---------- | ---------- | ------- | ----- | -------------- | ------ | -------------- |
| Versal AI Core | XCVC1902-VSVA2197-2MP-ES | 350 | 11340 | 10921 | 2165 | - | 51.5 | - | Vivado2021.2 |

Table 2: Example Implementation Statistics for Versal device.

More details of the TOExxG-IP are described in its datasheet which can be downloaded from Design Gateway’s website at the following links:

Design Gateway's NVMe Host Controller IP performance

NVMe Storage interface speed with PCIe Gen3 x4 or PCIe Gen4 x4 has data rates up to 32 Gbps and 64 Gbps. This is three to six times higher than 10GbE Ethernet speed. Processing complicated NVMe storage protocol by the CPU to achieve the highest possible disk access speed requires more CPU time than TCP protocol over 10GbE.

Design Gateway solved this problem by developing the NVMe IP core that is able to run as a standalone NVMe host controller, able to communicate with an NVMe SSD directly without the CPU. This enables a high efficiency and performance of the NVMe PCIe Gen3 and Gen4 SSD access, which simplifies the user interface and standard features for ease of usage without needing knowledge of the NVMe protocol. NVMe PCIe Gen4 SSD performance can achieve up to a 6 GB/s transfer speed with NVMe IP as shown in Figure 6.

Image of performance comparison of NVMe PCIe Gen3 and Gen4 SSDFigure 6: Performance comparison of NVMe PCIe Gen3 and Gen4 SSD with Design Gateway's NVMe-IP Core. (Image source: Design Gateway)

Design Gateway's NVMe-IP’s for Versal devices

NVMe-IP 系統(tǒng)概述圖圖 7:NVMe-IP 系統(tǒng)概述。(圖片來源:設(shè)計網(wǎng)關(guān))

NVMe-IP的功能

  • 能夠?qū)崿F(xiàn)應(yīng)用層、事務(wù)層、數(shù)據(jù)鏈路層和物理層的某些部分,無需CPU或外部DDR存儲器即可訪問NVMe SSD
  • 與賽靈思 PCIe 第 3 代和第 4 代硬 IP 配合使用
  • 能夠利用BRAM和URAM作為數(shù)據(jù)緩沖區(qū),而無需外部存儲器接口
  • 支持六個命令:識別、關(guān)機、寫入、讀取、SMART 和刷新(提供可選的附加命令支持)

XCVC1902-VSVA2197-2MP-E-S FPGA 器件上的 FPGA 資源使用情況如表 2 所示。

| | 家庭 | 示例設(shè)備 | 最大頻率 (兆赫) | 負載均衡注冊 | 負載均衡 LUT | 片 | IOB | 布拉姆蒂勒^1^ | 烏蘭 | 設(shè)計工具 |
| ---------------- | -------------------------- | ------------------- | -------------- | -------------- | ------ | ----- | ---------------- | ------ | ------------ |
| Versal AI Core | XCVC1902-VSVA2197-2MP-ES | 375 | 6280 | 3948 | 1050 | - | 4 | 8 | 萬歲2022.1 |

表 3:Versal 設(shè)備的實現(xiàn)統(tǒng)計信息示例。

有關(guān) Versal 器件的 NVMe-IP 的更多詳細信息,請參見其數(shù)據(jù)表,可通過以下鏈接從 Design Gateway 的網(wǎng)站下載:

面向第四代賽靈思的 NVMe IP 核數(shù)據(jù)表

結(jié)論

TOExxG-IP 和 NVMe-IP 內(nèi)核都可以通過將 CPU 系統(tǒng)從計算和內(nèi)存密集型協(xié)議(如 TCP 和 NVMe 存儲協(xié)議)中完全卸載來幫助加速 AI 應(yīng)用程序性能,這對于實時 AI 應(yīng)用程序至關(guān)重要。這使得賽靈思的 Versal AI Core 系列器件能夠執(zhí)行 AI 推理和高性能計算應(yīng)用,而不會出現(xiàn)網(wǎng)絡(luò)和數(shù)據(jù)存儲協(xié)議處理的瓶頸或延遲。

VCK190 評估套件和 Design Gateway 的網(wǎng)絡(luò)和存儲 IP 解決方案可在 Xilinx 的 Versal AI Core 器件上以盡可能低的 FPGA 資源使用量和極高的能效在 AI 應(yīng)用中實現(xiàn)最佳性能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 網(wǎng)關(guān)
    +關(guān)注

    關(guān)注

    9

    文章

    6399

    瀏覽量

    55512
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    Jtti設(shè)計網(wǎng)絡(luò)態(tài)勢感知測試海外VPS:安全評估與實施方案

    全球化網(wǎng)絡(luò)環(huán)境中,海外VPS的安全性能測試已成為企業(yè)網(wǎng)絡(luò)安全建設(shè)的核心環(huán)節(jié)。本文將系統(tǒng)解析如何通過設(shè)計網(wǎng)絡(luò)態(tài)勢感知測試方案,有效評估海外虛
    的頭像 發(fā)表于 10-11 11:48 ?292次閱讀

    利用超微型 Neuton ML 模型解鎖 SoC 邊緣人工智能

    應(yīng)用。 為什么選擇 Neuton 作為開發(fā)人員,在產(chǎn)品中使用邊緣人工智能的兩個最大障礙是: ML 模型對于您所選微控制器的內(nèi)存來說太大。 創(chuàng)建自定義 ML 模型本質(zhì)是一個手動過程,需要高度的數(shù)據(jù)科學(xué)知識
    發(fā)表于 08-31 20:54

    AI 邊緣計算網(wǎng)關(guān):開啟智能新時代的鑰匙?—龍興物聯(lián)

    順暢地通向云端,實現(xiàn)設(shè)備與云端之間高效的數(shù)據(jù)傳輸與交互。通過融合先進的邊緣計算和人工智能技術(shù),AI 邊緣計算網(wǎng)關(guān)能夠靠近數(shù)據(jù)源的網(wǎng)絡(luò)邊緣,對數(shù)據(jù)進行實時處理和精準(zhǔn)分析,進而實現(xiàn)智能
    發(fā)表于 08-09 16:40

    挖到寶了!人工智能綜合實驗箱,高校新工科的寶藏神器

    ,技術(shù)自主可控 如今這個科技競爭激烈的時代,國產(chǎn)化硬件的重要性不言而喻。比鄰星人工智能綜合實驗箱就做到了這一點,采用國產(chǎn)化硬件,積極推進全行業(yè)產(chǎn)業(yè)鏈上下游環(huán)節(jié)的國產(chǎn)化進程,把國產(chǎn)自主可控的軟硬件平臺
    發(fā)表于 08-07 14:30

    挖到寶了!比鄰星人工智能綜合實驗箱,高校新工科的寶藏神器!

    ,技術(shù)自主可控 如今這個科技競爭激烈的時代,國產(chǎn)化硬件的重要性不言而喻。比鄰星人工智能綜合實驗箱就做到了這一點,采用國產(chǎn)化硬件,積極推進全行業(yè)產(chǎn)業(yè)鏈上下游環(huán)節(jié)的國產(chǎn)化進程,把國產(chǎn)自主可控的軟硬件平臺
    發(fā)表于 08-07 14:23

    AMD Versal自適應(yīng)SoC使用QEMU+協(xié)同仿真示例

    Cortex A72 (QEMU) 運行的固件進行仿真,該固件會訪問當(dāng)前 AMD Vivado Design Suite 仿真中正在進行仿真的 PL 中的 IP。本文將使用 Versal VCK190 和 Vivado 20
    的頭像 發(fā)表于 08-06 17:21 ?1666次閱讀
    <b class='flag-5'>在</b>AMD Versal自適應(yīng)SoC<b class='flag-5'>上</b>使用QEMU+協(xié)同仿真示例

    是德示波器DSOX6002A人工智能芯片測試中的應(yīng)用

    功能,AI芯片的研發(fā)、驗證和量產(chǎn)測試中扮演著關(guān)鍵角色。本文將從信號完整性、電源完整性、時序分析、調(diào)試優(yōu)化及一致性測試等方面深入探討其應(yīng)用。 一、AI芯片測試的核心挑戰(zhàn)與示波器的關(guān)鍵作
    的頭像 發(fā)表于 07-31 17:30 ?662次閱讀
    是德示波器DSOX6002A<b class='flag-5'>在</b><b class='flag-5'>人工智能</b>芯片<b class='flag-5'>測試</b>中的應(yīng)用

    超小型Neuton機器學(xué)習(xí)模型, 在任何系統(tǒng)級芯片(SoC)上解鎖邊緣人工智能應(yīng)用.

    Neuton 是一家邊緣AI 公司,致力于讓機器 學(xué)習(xí)模型更易于使用。它創(chuàng)建的模型比競爭對手的框架小10 倍,速度也快10 倍,甚至可以最先進的邊緣設(shè)備上進行人工智能處理。在這篇博文中,我們將介紹
    發(fā)表于 07-31 11:38

    固態(tài)電池測試套件

    電極壓實與界面優(yōu)化,加速工藝突破 測試流程 首先將固態(tài)粉末放入STBE-SF10固態(tài)扣式電池裝置 STBE-SF10固態(tài)扣式電池裝置是一款應(yīng)用于固態(tài)電池的專用測試裝置,夾具由壓桿、下
    發(fā)表于 07-25 17:15

    愛立信攜手超微加速邊緣人工智能部署

    愛立信與超微 Supermicro近日宣布有意開展戰(zhàn)略合作,加速邊緣人工智能部署。
    的頭像 發(fā)表于 06-17 09:42 ?1.5w次閱讀

    STM32N6570-DK:邊緣人工智能開發(fā)的全能探索板

    STM32N6570-DKDiscovery套件是一款專為邊緣人工智能開發(fā)設(shè)計的完整演示和開發(fā)平臺,基于ArmCortex-M55內(nèi)核的STM32N657X0H3Q微控制器。該套件集成
    的頭像 發(fā)表于 05-06 16:00 ?1116次閱讀
    STM32N6570-DK:邊緣<b class='flag-5'>人工智能</b>開發(fā)的全能探索板

    開售RK3576 高性能人工智能主板

    ,HDMI-4K 輸出,支 持千兆以太網(wǎng),WiFi,USB 擴展/重力感應(yīng)/RS232/RS485/IO 擴展/I2C 擴展/MIPI 攝像頭/紅外遙控 器等功能,豐富的接口,一個全新八核擁有超強性能的人工智能
    發(fā)表于 04-23 10:55

    Cognizant將與NVIDIA合作部署神經(jīng)人工智能平臺,加速企業(yè)人工智能應(yīng)用

    -Cognizant將與NVIDIA合作部署神經(jīng)人工智能平臺,加速企業(yè)人工智能應(yīng)用 Cognizant將在關(guān)鍵增長領(lǐng)域提供解決方案,包括企業(yè)級AI智能體、定制化行業(yè)大型語言模型及搭載N
    的頭像 發(fā)表于 03-26 14:42 ?567次閱讀
    Cognizant將與NVIDIA合作部署神經(jīng)<b class='flag-5'>人工智能</b>平臺,<b class='flag-5'>加速</b>企業(yè)<b class='flag-5'>人工智能</b>應(yīng)用

    Reddit測試人工智能問答功能Reddit Answers

    近日,Reddit公司宣布了一項重要的新功能測試計劃,旨在通過人工智能技術(shù)為用戶提供更加便捷的問答體驗。這項新功能被命名為Reddit Answers。 據(jù)Reddit官方介紹,Reddit
    的頭像 發(fā)表于 12-12 09:46 ?949次閱讀

    Banana Pi 攜手 ArmSoM 推出人工智能加速 RK3576 CM5 計算模塊

    的直接替代品。 ArmSoM 在其創(chuàng)建過程中寫道:“ArmSoM-CM5 是一款由 Rockchip RK3576 第二代 8nm 高性能 AIOT(人工智能物聯(lián)網(wǎng))平臺驅(qū)動的計算模塊。它集成了四核
    發(fā)表于 12-11 18:38