chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用 DLA 在 NVIDIA Jetson Orin 上最大限度地提高深度學習性能

NVIDIA英偉達 ? 來源:未知 ? 2023-08-22 19:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

31020dca-40dd-11ee-a2ef-92fbcf53809c.png

NVIDIA Jetson Orin 是同類嵌入式人工智能平臺中的翹楚。Jetson Orin SoC 模塊NVIDIA Ampere 架構(gòu) GPU 為核心,但 SoC 上還有更多的計算功能:

NVIDIA Orin SoC 的功能非常強大,擁有 275 個峰值 AI TOPs,是最佳的嵌入式和汽車 AI 平臺。您知道嗎,這些 AI TOPs 中近 40% 來自 NVIDIA Orin 上的兩個 DLA?NVIDIA Ampere GPU 擁有同類產(chǎn)品中最佳的吞吐量,而第二代 DLA 則擁有同類產(chǎn)品中最佳的能效。近年來,隨著 AI 應用的快速增長,對更高效計算的需求也在不斷增長。在能效始終是關(guān)鍵 KPI 的嵌入式方面尤其如此。

這就是 DLA 的用武之地。DLA 專門為深度學習推理而設計,可以比 CPU 更有效地執(zhí)行卷積等計算密集型深度學習操作。

當集成到 SoC(如Jetson AGX OrinNVIDIA DRIVE Orin)中時, GPU 和 DLA 的組合可以為您的嵌入式 AI 應用程序提供一個完整的解決方案。我們將在這篇文章中討論深度學習加速器,讓您不再錯過。我們將介紹涵蓋汽車和機器人領(lǐng)域的幾個案例研究,以展示 DLA 如何幫助 AI 開發(fā)者為其應用程序添加更多功能和性能。最后,我們將介紹視覺 AI 開發(fā)者如何使用 DeepStream SDK 構(gòu)建應用工作流,使用 DLA 和整個 Jetson SoC 實現(xiàn)最佳性能。

以下是 DLA 會產(chǎn)生重大影響的一些關(guān)鍵性能指標。

關(guān)鍵性能指標

在設計應用程序時,您需要滿足一些關(guān)鍵性能指標或 KPI。例如最大性能和能效之間的設計權(quán)衡,這需要開發(fā)團隊仔細分析和設計應用程序,以便在 SoC 上使用不同的 IP。

如果應用程序的關(guān)鍵 KPI 是延遲,則必須在一定的延遲預算下在應用程序中安排任務。您可以將 DLA 作為加速器,用于與運行在 GPU 上的計算密集型任務并行的任務。DLA 峰值性能對 NVIDIA Orin 整體深度學習(DL)性能的貢獻率在 38% 至 74% 之間,具體取決于電源模式。

3133ff6a-40dd-11ee-a2ef-92fbcf53809c.png

表 1. DLA 吞吐量

Jetson AGX Orin 64GB 上 30W 和 50W 功率模式的 DLA TOPs 與 NVIDIA DRIVE Orin 汽車平臺上的最大時鐘相當。

如果功耗是您的關(guān)鍵 KPI 之一,那么就應該考慮使用 DLA 來利用其功耗效率方面的優(yōu)勢。與 GPU 相比,每瓦 DLA 的性能平均高出 3–5 倍,這具體取決于電源模式和工作負載。以下圖表顯示了代表常見用例的三個模型的每瓦性能。

314aaee0-40dd-11ee-a2ef-92fbcf53809c.png

圖 1. DLA 能效

315f7b04-40dd-11ee-a2ef-92fbcf53809c.png

圖 2. 結(jié)構(gòu)化稀疏性和每瓦性能優(yōu)勢

換句話說,如果沒有 DLA 的能效,就不可能在給定的平臺功率預算下在 NVIDIA Orin 上實現(xiàn)高達 275 個峰值的 DL TOPs。想要了解更多信息和更多型號的測量結(jié)果,請參閱 DLA-SW GitHub 庫。

以下是 NVIDIA 內(nèi)部如何在汽車和機器人領(lǐng)域使用 DLA 提供的 AI 計算的一些案例研究。

案例研究:汽車

NVIDIA DRIVE AV是端到端的自動駕駛解決方案堆棧,可幫助汽車原始設備制造商在其汽車產(chǎn)品組合中添加自動駕駛和映射功能。它包括感知層、映射層和規(guī)劃層,以及基于高質(zhì)量真實駕駛數(shù)據(jù)訓練的各種 DNN。

NVIDIA DRIVE AV 團隊的工程師致力于設計和優(yōu)化感知、映射,并通過利用整個 NVIDIA Orin SoC 平臺規(guī)劃工作流??紤]到自動駕駛堆棧中需要處理大量的神經(jīng)網(wǎng)絡和其他非 DNN 任務,它們會依靠 DLA 作為 NVIDIA Orin SoC 上的專用推理引擎來運行 DNN 任務。這一點至關(guān)重要,因為 GPU 計算能力是為處理非 DNN 任務而保留的。如果沒有 DLA 計算,團隊將無法達到 KPI。

31754696-40dd-11ee-a2ef-92fbcf53809c.png

圖3.感知管線的一部分

想要了解更多信息,請訪問Near-Range Obstacle Perception with Early Grid Fusion:https://developer.nvidia.cn/zh-cn/blog/near-range-obstacle-perception-with-early-grid-fusion/

例如,在感知工作流中,它們有來自八個不同相機傳感器的輸入,整個工作流的延遲必須低于某個閾值。感知堆棧是 DNN 的重頭戲,占所有計算的 60% 以上。

為了達到這些 KPI,并行工作流任務被映射到 GPU 和 DLA,其中幾乎所有的 DNN 都在 DLA 上運行,而非 DNN 任務則在 GPU 上運行,以實現(xiàn)總體工作流的延遲目標。然后,其他 DNN 在映射和規(guī)劃等其他工作流中按順序或并行消耗輸出。您可以將工作流視為一個巨大的圖形,其中的任務在 GPU 和 DLA 上并行運行。通過使用 DLA,該團隊將延遲降低了 2.5 倍。

319e50ae-40dd-11ee-a2ef-92fbcf53809c.png

圖 4. 作為感知堆棧一部分的對象檢測

NVIDIA 自動駕駛團隊工程經(jīng)理 Abhishek Bajarger 表示:“利用整個 SoC,特別是 DLA 中專用的深度學習推理引擎,使我們能夠在滿足延遲要求和 KPI 目標的同時,為軟件堆棧添加重要功能。只有 DLA 才能做到這一點?!?/p>

案例研究:機器人

NVIDIA Isaac 是一個功能強大的端到端平臺,用于開發(fā)、仿真和部署機器人開發(fā)者使用的 AI 機器人。特別是對于移動機器人來說,可用的 DL 計算、確定性延遲和電池續(xù)航能力是非常重要的因素。這就是為什么將 DL 推理映射到 DLA 非常重要的原因。

NVIDIA Isaac 團隊的一組工程師開發(fā)了一個使用 DNN 進行臨近分割的庫。鄰近分割可用于確定障礙物是否在鄰近場內(nèi),并避免在導航過程中與障礙物發(fā)生碰撞。他們在 DLA 上實現(xiàn)了 BI3D 網(wǎng)絡,該網(wǎng)絡可通過立體攝像頭執(zhí)行二進制深度分類。

31db9716-40dd-11ee-a2ef-92fbcf53809c.png

圖 5. 近距離分割流水線

一個關(guān)鍵的 KPI 是確保從立體攝像頭輸入進行 30 幀/秒的實時檢測。NVIDIA Isaac 團隊將這些任務分配到 SoC 上,并將 DLA 用于 DNN,同時為在 GPU 上運行的硬件和軟件提供功能安全多樣性。想要了解更多信息,請訪問NVIDIA Isaac ROS 鄰近分割https://github.com/NVIDIA-ISAAC-ROS/isaac_ros_proximity_segmentation

31f37854-40dd-11ee-a2ef-92fbcf53809c.gif

圖 6. 使用 BI3D 對立體輸入進行鄰近分割

將 NVIDIA DeepStream 用于 DLA

探索 DLA 最快捷的方式是通過 NVIDIA DeepStream SDK,一個完整的流分析工具包。

如果你是一名視覺 AI 開發(fā)者,正在構(gòu)建 AI 驅(qū)動的應用程序來分析視頻和傳感器數(shù)據(jù),那么 DeepStream SDK 可以幫助您構(gòu)建最佳的端到端工作流。對于零售分析、停車管理、物流管理、光學檢測、機器人技術(shù)和體育分析等云端或邊緣用例,DeepStream 可讓您不費吹灰之力就能使用整個 SoC,特別是 DLA。

例如,您可以使用下表中突出顯示的 Model Zoo 中的預訓練模型在 DLA 上運行。在 DLA 上運行這些網(wǎng)絡就像設置一個標志一樣簡單。想要了解更多信息,請訪問如何使用 DLA 進行推理https://docs.nvidia.com/metropolis/deepstream/dev-guide/text/DS_Quickstart.html#using-dla-for-inference

32dc432c-40dd-11ee-a2ef-92fbcf53809c.png

表 2. Model Zoo 網(wǎng)絡樣本

及其在 DLA 上的吞吐量

開始使用深度學習加速器

準備好深入了解了嗎?有關(guān)詳細信息,請參閱以下資源:

  • Jetson DLA 教程演示了基本的 DLA 工作流,幫助您開始將 DNN 部署到 DLA:https://github.com/NVIDIA-AI-IOT/jetson_dla_tutorial

  • DLA-SW GitHub存儲庫中有一系列參考網(wǎng)絡,您可以使用它們來探索在 Jetson Orin DLA 上運行 DNN:https://github.com/NVIDIA/Deep-Learning-Accelerator-SW/tree/main/scripts/prepare_models

  • 示例頁面提供了關(guān)于如何使用 DLA 充分利用 Jetson SoC 的其他示例和資源:https://github.com/NVIDIA/Deep-Learning-Accelerator-SW/

  • DLA 論壇有其他用戶的想法和反饋:https://forums.developer.nvidia.com/tag/dla

SIGGRAPH 2023

NVIDIA 精彩發(fā)布

SIGGRAPH 2023 | NVIDIA 主題演講重磅發(fā)布精彩回顧,探索 AI 無限未來!

敬請持續(xù)關(guān)注...

SIGGRAPH 2023 NVIDIA 主題演講中文字幕版已上線 !掃描下方海報二維碼,或點擊“閱讀原文”即可觀看,與 NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛一起探索 AI 的未來!


原文標題:使用 DLA 在 NVIDIA Jetson Orin 上最大限度地提高深度學習性能

文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英偉達
    +關(guān)注

    關(guān)注

    23

    文章

    4016

    瀏覽量

    96827

原文標題:使用 DLA 在 NVIDIA Jetson Orin 上最大限度地提高深度學習性能

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    NVIDIA Jetson AGX Thor開發(fā)者套件重磅發(fā)布

    開發(fā)者與未來創(chuàng)造者們,準備好迎接邊緣AI的史詩級革新了嗎?NVIDIA以顛覆性技術(shù)再次突破極限,正式推出Jetson AGX Thor開發(fā)者套件!作為繼傳奇產(chǎn)品Jetson AGX Orin
    的頭像 發(fā)表于 08-28 14:31 ?1015次閱讀

    基于 NVIDIA Blackwell 的 Jetson Thor 現(xiàn)已發(fā)售,加速通用機器人時代的到來

    Jetson AGX Orin,AI 算力提升至 7.5 倍,能效提升至 3.5 倍,能夠?qū)崿F(xiàn)實時推理,這對于高性能物理 AI 應用至關(guān)重要。 ·Jetson Thor 解決了機器人
    發(fā)表于 08-26 09:28 ?1122次閱讀
    基于 <b class='flag-5'>NVIDIA</b> Blackwell 的 <b class='flag-5'>Jetson</b> Thor 現(xiàn)已發(fā)售,加速通用機器人時代的到來

    NVIDIA Jetson AGX Thor開發(fā)者套件概述

    TFLOPS 的 AI 計算性能,從而輕松運行最新的生成式 AI模型,且功耗不超過 130 W。與 NVIDIA Jetson AGX Orin 相比,其 AI 計算
    的頭像 發(fā)表于 08-11 15:03 ?1386次閱讀

    Jetson平臺核心組件BOM清單概覽

    Jetson平臺核心組件BOM清單概覽 NVIDIA Jetson系列作為業(yè)界領(lǐng)先的邊緣計算和人工智能(AI)平臺,其強大的性能背后是一系列精心挑選的核心芯片、電源管理集成電路(PMI
    的頭像 發(fā)表于 07-30 16:11 ?2176次閱讀

    研華NVIDIA Jetson Orin Nano系統(tǒng)支持Super Mode

    提升生成式AI性能1.7倍 2025年春季— 研華科技,作為全球工業(yè)嵌入式 AI 解決方案供應商,宣布推出搭載NVIDIA Jetson Orin Nano 8GB系統(tǒng)模塊的AI邊緣運
    發(fā)表于 03-10 14:07 ?551次閱讀
    研華<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b> <b class='flag-5'>Orin</b> Nano系統(tǒng)支持Super Mode

    智能電機控制裝置如何最大限度提高恢復能力和正常運行時間

    作者:Jeff Shepard 投稿人:DigiKey 北美編輯 在下一代工業(yè) 4.0 制造、金屬與基礎材料加工、礦物提煉與采礦以及像飲用水和污水處理廠之類關(guān)鍵基礎設施中,都需要能夠最大限度提高
    的頭像 發(fā)表于 01-25 16:40 ?1020次閱讀
    智能電機控制裝置如何<b class='flag-5'>最大限度</b>地<b class='flag-5'>提高</b>恢復能力和正常運行時間

    NVIDIA發(fā)布小巧高性價比的Jetson Orin Nano Super開發(fā)者套件

    為2070元人民幣。 與上一代產(chǎn)品相比,Jetson Orin Nano Super開發(fā)者套件性能上有了顯著提升。
    的頭像 發(fā)表于 12-19 11:28 ?1313次閱讀

    初創(chuàng)公司借助NVIDIA Metropolis和Jetson提高生產(chǎn)線效率

    初創(chuàng)公司使用 NVIDIA Metropolis 視覺 AI 和 Jetson 邊緣 AI 平臺提高生產(chǎn)線效率。
    的頭像 發(fā)表于 11-19 14:39 ?949次閱讀

    使用NVIDIA Jetson打造機器人導盲犬

    Selin Alara Ornek 是一名富有遠見的高中生。她使用機器學習NVIDIA Jetson邊緣 AI 和機器人平臺,為視障人士打造了機器人導盲犬。
    的頭像 發(fā)表于 11-09 13:51 ?1090次閱讀

    TAS5630如何才能最大限度地減少電壓失調(diào),或者調(diào)節(jié)為0?

    交流耦合輸入的情況下,將 BTL 模式下的輸出失調(diào)電壓指定為高達 150mV。這對PBTL 模式是否同樣適用?如何才能最大限度地減少電壓失調(diào),或者調(diào)節(jié)為 0?
    發(fā)表于 11-08 08:02

    Orin芯片在汽車行業(yè)的應用

    。 Orin芯片概述 Orin芯片是NVIDIA推出的一款系統(tǒng)級芯片(SoC),專為自動駕駛汽車設計。它基于ARM架構(gòu),集成了NVIDIA的GPU、
    的頭像 發(fā)表于 10-27 15:55 ?2295次閱讀

    Orin芯片市場前景預測

    NVIDIA的下一代GPU架構(gòu),擁有高達200 TOPS(每秒萬億次操作)的AI性能,能夠處理復雜的自動駕駛算法。 高度集成:Orin芯片集成了CPU、GPU、深度
    的頭像 發(fā)表于 10-27 15:52 ?1433次閱讀

    Orin芯片功耗分析

    NVIDIA推出的一款專為自動駕駛設計的系統(tǒng)級芯片(SoC),它基于Arm架構(gòu),采用了先進的制程技術(shù)。Orin芯片集成了多個高性能的CPU核心、GPU核心以及深度
    的頭像 發(fā)表于 10-27 15:45 ?2686次閱讀

    Orin芯片與其他芯片對比

    Orin芯片是由NVIDIA推出的一款高性能自動駕駛芯片,它代表了NVIDIA自動駕駛領(lǐng)域的最新技術(shù)成果。
    的頭像 發(fā)表于 10-27 15:42 ?4297次閱讀

    最大限度提高MSP430? FRAM的寫入速度

    電子發(fā)燒友網(wǎng)站提供《最大限度提高MSP430? FRAM的寫入速度.pdf》資料免費下載
    發(fā)表于 10-18 10:09 ?1次下載
    <b class='flag-5'>最大限度</b>地<b class='flag-5'>提高</b>MSP430? FRAM的寫入速度