中文天堂WWW最新版资源,明星造梦程潇免费网站,网红老熟女丝袜高跟视频

1.1 概述

OpenVINO 2022.1是自OpenVINO工具套件2018年首次發(fā)布以來最大的更新之一，參見《OpenVINO 迎來迄今為止最重大更新，2022.1新特性搶先看！》。在眾多新特性中，AUTO插件和自動批處理(Automatic-Batching)是最重要的新特性之一，它幫助開發(fā)者無需復雜的編程即可提高推理計算的性能和效率。

1.1.1 什么是AUTO插件？

AUTO插件1 ，全稱叫自動設備選擇(Automatic device selection)，它是一個構建在CPU/GPU插件之上的虛擬插件，如圖1-1所示。在OpenVINO 文檔中，“設備(device)”是指用于推理計算的 Intel 處理器，它可以是受支持的CPU、GPU、VPU（視覺處理單元）或 GNA（高斯神經(jīng)加速器協(xié)處理器）或這些設備的組合3 。

圖1-1 OpenVINO Runtime支持的設備插件3

AUTO插件好處有：

■ 首先檢測運行時平臺上所有可用的計算設備，然后選擇最佳的一個計算設備進行推理計算，并根據(jù)深度學習模型和所選設備的特性以最佳配置使用它。

■使 GPU 實現(xiàn)更快的首次推理延遲：GPU 插件需要在開始推理之前在運行時進行在線模型編譯——可能需要 10 秒左右才能完成，具體取決于平臺性能和模型的復雜性。當選擇獨立或集成GPU時，“AUTO”插件開始會首先利用CPU進行推理，以隱藏此GPU模型編譯時間。

■使用簡單，開發(fā)者只需將compile_model()方法的device_name參數(shù)指定為“AUTO”即可，如圖1-2所示。

圖1-2 指定AUTO插件

1.1.2 什么是自動批處理？

自動批處理(Automatic Batching)2 ，又叫自動批處理執(zhí)行(Automatic Batching Execution)，是OpenVINO Runtime支持的設備之一，如圖1-1所示。

一般來說，批尺寸(batch size) 越大的推理計算，推理效率和吞吐量就越好。自動批處理執(zhí)行將用戶程序發(fā)出的多個異步推理請求組合起來，將它們視為多批次推理請求，并將批推理結果拆解后，返回給各推理請求。

自動批處理無需開發(fā)者手動指定。當compile_model()方法的config參數(shù)設置為{“PERFORMANCE_HINT”: ”THROUGHPUT”}時，OpenVINO Runtime會自動啟動自動批處理執(zhí)行，如圖1-3所示，讓開發(fā)人員以最少的編碼工作即可享受計算設備利用率和吞吐量的提高。

圖1-3 自動啟動自動批處理執(zhí)行

1.2 動手學AUTO插件的特性

讀書是學習，實踐也是學習，而且是更有效的學習。本文提供了完整的實驗代碼，供讀者一邊動手實踐，一邊學習總結。

Github地址: https://github.com/yas-sim/openvino-auto-feature-visualization

1.2.1 搭建實驗環(huán)境

第一步，克隆代碼倉到本地。

git clone https://github.com/yas-sim/openvino-auto-feature-visualization.git

第二步，在openvino-auto-feature-visualization路徑執(zhí)行：

python -m pip install --upgrade pip

pip install -r requirements.txt

第三步，下載模型并完成轉換

omz_downloader --list models.txt

omz_converter --list models.txt

到此，實驗環(huán)境搭建完畢。實驗程序的所有配置和設置參數(shù)都硬編碼在源代碼中，您需要手動修改源代碼以更改測試配置，如圖1-4所示。

圖1-4 手動修改源代碼中的配置

1.2.2 AUTO插件自動切換計算設備

GPU插件需要在 GPU 上開始推理之前將IR模型編譯為 OpenCL 模型。這個模型編譯過程可能需要很長時間，例如 10 秒，會延遲應用程序開始推理，使得應用程序啟動時的用戶體驗不好。

為了隱藏這種 GPU 模型編譯延遲，AUTO插件將在 GPU 模型編譯進行時使用CPU執(zhí)行推理任務；當GPU模型編譯完成后，AUTO插件會自動將推理計算設備從CPU切換到GPU，如圖1-5所示。

圖1-5 AUTO插件自動切換計算設備

1.2.3 動手觀察自動切換計算設備的行為

AUTO插件會依據(jù)設備優(yōu)先級1 : dGPU > iGPU > VPU > CPU, 來選擇最佳計算設備。當自動插件選擇 GPU 作為最佳設備時，會發(fā)生推理設備切換，以隱藏首次推理延遲。

請注意，設備切換前后的推理延遲不同；此外，推理延遲故障可能發(fā)生在設備切換的那一刻，如圖1-6所示。

請如圖1-6所示，設置auto-test-latency-graph.py配置參數(shù)為：

cfg['PERFORMANCE_HINT'] = ['THROUGHPUT', 'LATENCY'][0]

并運行命令：

python auto-test-latency-graph.py

同時打開Windows任務管理器，觀察CPU和iGPU的利用率。

圖1-6 config={“PERFORMANE_HINT”:”THROUGPUT”}的執(zhí)行行為

1.2.4 PERFORMANCE_HINT設置

如1.1.2節(jié)所述，AUTO插件的執(zhí)行行為取決于compile_model()方法的config參數(shù)的PERFORMANCE_HINT設置，如表1-1所示：

表1-1 PERFORMANCE_HINT設置

設置auto-test-latency-graph.py配置參數(shù)為：

cfg['PERFORMANCE_HINT'] = ['THROUGHPUT', 'LATENCY'][1]

并運行命令：

python auto-test-latency-graph.py

同時打開Windows任務管理器，觀察CPU和iGPU的利用率，運行結果如圖1-7所示。

圖1-7 config={“PERFORMANE_HINT”:”LATENCY”}的執(zhí)行行為

通過實驗，我們可以發(fā)現(xiàn)，根據(jù)不同的config參數(shù)設置，使得AUTO插件可以工作在不同的模式下：

■ 在Latency模式，不會自動啟動Auto Batching，執(zhí)行設備切換后，GPU上的推理延遲很小，且不會抖動。

■在THROUGHPUT模式，自動啟動Auto Batching，執(zhí)行設備切換后，GPU上的推理延遲較大，而且會抖動。

接下來，本文將討論Auto Batching對推理計算行為的影響。

1.3 動手學Auto Batching的特性

如1.1.2節(jié)所述，自動批處理執(zhí)行將用戶程序發(fā)出的多個異步推理請求組合起來，將它們視為多批次推理請求，并將批推理結果拆解后，返回給各推理請求，如圖1-8所示。

圖1-8 Auto Batching的執(zhí)行過程

Auto Batching在收集到指定數(shù)量的異步推理請求或計時器超時（默認超時=1,000 毫秒）時啟動批推理計算(batch-inference)，如圖1-9所示。

圖1-9 啟動批推理計算

1.3.1 Auto Batching被禁止時

Auto Batching被禁止時，所有推理請求都是單獨被處理的。

請配置并運行auto-test.py。

Device: AUTO

Config: {'PERFORMANCE_HINT': 'LATENCY'}

niter: 20 , interval: 30 ms

OPTIMAL_NUMBER_OF_INFER_REQUESTS 1

Number of infer requests: 1

運行結果如圖1-10所示，可見每一個推理請求是被單獨處理的。

圖1-10 Auto Batching被禁止時的運行結果

1.3.2 Auto Batching被使能時

Auto Batching被使能時，異步推理請求將作為多批次推理請求進行綁定和處理。推理完成后，結果將分發(fā)給各個異步推理請求并返回。需要注意的是：批推理計算不保證異步推理請求的推理順序。

請配置并運行auto-test.py。

Device: GPU

Config: {'CACHE_DIR': './cache', 'PERFORMANCE_HINT': 'THROUGHPUT', 'ALLOW_AUTO_BATCHING': 'YES'}

niter: 200 , interval: 30 ms

OPTIMAL_NUMBER_OF_INFER_REQUESTS 64

Number of infer requests: 16

運行結果如圖1-11所示，可見每16個推理請求被組合成一個批次進行批推理計算，推理計算順序不被保證。

圖1-11 Auto Batching被使能時的運行結果

1.3.3 Auto Batching會導致推理延遲變長

由于較長的默認超時設置(默認timeout = 1,000ms)，在低推理請求頻率情況下可能會引入較長的推理延遲。

由于Auto Batching將等待指定數(shù)量的推理請求進入或超時計時器超時，在低推理頻率的情況下，它無法在指定的超時時間內收集足夠的推理請求來啟動批推理計算，因此，提交的推理請求將被推遲，直到計時器超時，這將引入大于timeout設置的推理延遲。

為解決上述問題，用戶可以通過 AUTO_BATCH_TIMEOUT 配置參數(shù)指定超時時間，以盡量減少此影響。

請使用AutoBatching的默認timeout，運行auto-test.py。

Device: GPU

Config: {'CACHE_DIR': './cache', 'PERFORMANCE_HINT': 'THROUGHPUT'}

niter: 20, interval: 300 ms

OPTIMAL_NUMBER_OF_INFER_REQUESTS 64

Number of infer requests: 64

運行結果如圖1-12所示，由于每次都無法在timeout時間內收集到指定數(shù)量的推理請求，由此導致推理請求的延遲很高。

圖1-12 timeout=1000ms運行結果

請配置AutoBatching的timeout=100ms，然后運行auto-test.py。

Device: GPU

Config: {'CACHE_DIR': './cache', 'PERFORMANCE_HINT': 'THROUGHPUT', 'AUTO_BATCH_TIMEOUT': '100'}

niter: 20 , interval: 300 ms

OPTIMAL_NUMBER_OF_INFER_REQUESTS 64

Number of infer requests: 16

圖1-13 timeout=100ms運行結果

運行結果如圖1-13所示， timeout=100ms時間內，僅能收集到一個推理請求。

1.3.4 Auto Batching最佳實踐

綜上所述，Auto Batching的最佳編程實踐：

■ 要記住，默認情況下Auto Batching不會啟用。

■只有在以下情況時，Auto Batching才啟用：

{'PERFORMANCE_HINT': 'THROUGHPUT', 'ALLOW_AUTO_BATCHING': 'YES'}

■如果您的應用程序能夠以高頻率連續(xù)提交推理請求，請使用自動批處理。

■警告：如果您的應用間歇性地提交推理請求，則最后一個推理請求可能會出現(xiàn)意外的長延遲。

■如果推理節(jié)奏或頻率較低，即推理頻率遠低于AUTO_BATCH_TIMEOUT（默認為 1,000 毫秒），請勿開啟自動批處理。

■您可以使用AUTO_BATCH_TIMEOUT 參數(shù)更改自動批處理的超時設置，以最大限度地減少不需要的長延遲，參數(shù)值的單位是“ms”。

■如果您知道工作負載的最佳批處理大小，請使用PERFORMANCE_HINT_NUM_REQUESTS 指定適當?shù)呐幚頂?shù)量，即 {'PERFORMANCE_HINT_NUM_REQUESTS'：'4'}。同時，以GPU為例，AUTO插件會在后臺根據(jù)可以使用的內存，模型精度等計算出最佳批處理大小。

1.4 總結

本節(jié)給出AUTO 插件和Auto Batching的快速小結，如表1-2所示。

表1-2 AUTO插件和自動批處理執(zhí)行快速小結表