麻豆精品一区二区综合Av,欧美地下酒吧性派对视频,大乳护士巨好爽视频

假設(shè)您已經(jīng)使用 PyTorch 、 TensorFlow 或您選擇的框架訓(xùn)練了您的模型，并對(duì)其準(zhǔn)確性感到滿意，并且正在考慮將其部署為服務(wù)。有兩個(gè)重要的目標(biāo)需要考慮：最大化模型性能和構(gòu)建將其部署為服務(wù)所需的基礎(chǔ)設(shè)施。這篇文章討論了這兩個(gè)目標(biāo)。

通過在三個(gè)堆棧級(jí)別上加速模型，可以從模型中擠出更好的性能：

硬件加速

軟件加速

算法或網(wǎng)絡(luò)加速。

NVIDIA GPU 是深度學(xué)習(xí)從業(yè)者在硬件加速方面的首選，其優(yōu)點(diǎn)在業(yè)界得到廣泛討論。

關(guān)于 GPU 軟件加速的討論通常圍繞庫(kù)，如 cuDNN 、 NCCL 、 TensorRT 和其他 CUDA-X 庫(kù)。

算法或網(wǎng)絡(luò)加速圍繞量化和知識(shí)提取等技術(shù)的使用，這些技術(shù)本質(zhì)上是對(duì)網(wǎng)絡(luò)本身進(jìn)行修改，其應(yīng)用高度依賴于您的模型。

這種加速需求主要是由業(yè)務(wù)問題驅(qū)動(dòng)的，如降低成本或通過減少延遲來改善最終用戶體驗(yàn)，以及戰(zhàn)術(shù)考慮因素，如在計(jì)算資源較少的邊緣設(shè)備上部署模型。

服務(wù)深度學(xué)習(xí)模型

在模型加速后，下一步是構(gòu)建一個(gè)服務(wù)服務(wù)來部署您的模型，這會(huì)帶來一系列獨(dú)特的挑戰(zhàn)。這是一個(gè)非詳盡列表：

該服務(wù)能否在不同的硬件平臺(tái)上工作？

它會(huì)處理我必須同時(shí)部署的其他模型嗎？

服務(wù)是否可靠？

如何減少延遲？

使用不同的框架和技術(shù)堆棧訓(xùn)練模型；我該如何應(yīng)對(duì)？

如何縮放？

這些都是有效的問題，解決每一個(gè)問題都是一個(gè)挑戰(zhàn)。

圖 1 。使用 TensorRT 和 NVIDIA Triton ?聲波風(fēng)廓線儀優(yōu)化和部署 DL 模型

解決方案概述

本文討論了使用 NVIDIA TensorRT 及其 PyTorch 和 TensorFlow 的框架集成、 NVIDIA Triton 推理服務(wù)器和 NVIDIA GPU 來加速和部署模型。

NVIDIA TensorRT 公司

NVIDIA TensorRT 是一個(gè)用于高性能深度學(xué)習(xí)推理的 SDK 。它包括深度學(xué)習(xí)推理優(yōu)化器和運(yùn)行時(shí)，為深度學(xué)習(xí)推理應(yīng)用程序提供低延遲和高吞吐量。

通過其與 PyTorch 和 TensorFlow 的框架集成，只需一行代碼就可以將推理速度提高 6 倍。

NVIDIA Triton 推理服務(wù)器

NVIDIA Triton 推理服務(wù)器是一種開源的推理服務(wù)軟件，提供單一的標(biāo)準(zhǔn)化推理平臺(tái)。它可以支持在數(shù)據(jù)中心、云、嵌入式設(shè)備或虛擬化環(huán)境中的任何 GPU 或基于 CPU 的基礎(chǔ)設(shè)施上對(duì)來自多個(gè)框架的模型進(jìn)行推理。

有關(guān)更多信息，請(qǐng)參閱以下視頻：

介紹用于高性能深度學(xué)習(xí)推理的 NVIDIA TensorRT

NVIDIA Torch TensorRT 入門

TensorFlow TensorRT 入門

Triton 簡(jiǎn)化推理的五大原因

工作流概述

在深入細(xì)節(jié)之前，下面是總體工作流程。接下來，請(qǐng)參閱以下參考資料：

TensorRT

Torch-TensorRT

Tensorflow-TensorRT

圖 1 顯示了您必須完成的步驟。

圖 2 ：使用 TensorRT 優(yōu)化模型并使用 NVIDIA Triton ?聲波風(fēng)廓線儀的總體工作流程

在你開始跟隨之前，準(zhǔn)備好你訓(xùn)練過的模型。

第 1 步：優(yōu)化模型。您可以使用 TensorRT 或其框架集成來實(shí)現(xiàn)這一點(diǎn)。如果選擇 TensorRT ，則可以使用 trtexec 命令行界面。對(duì)于與 TensorFlow 或 Pytorch 的框架集成，可以使用單行 API 。

第 2 步：構(gòu)建模型存儲(chǔ)庫(kù)。啟動(dòng) NVIDIA Triton 推理服務(wù)器需要一個(gè)模型存儲(chǔ)庫(kù)。該存儲(chǔ)庫(kù)包含要提供服務(wù)的模型、指定詳細(xì)信息的配置文件以及任何必需的元數(shù)據(jù)。

第 3 步：啟動(dòng)服務(wù)器。

第 4 步：最后，我們提供了簡(jiǎn)單而健壯的 HTTP 和 gRPC API ，您可以使用它們來查詢服務(wù)器！

在本文中，使用 NGC 中的 Docker 容器。您可能需要?jiǎng)?chuàng)建一個(gè)帳戶并獲得 API key 來訪問這些容器?，F(xiàn)在，這里是細(xì)節(jié)！

使用 TensorRT 加速模型

TensorRT 通過圖優(yōu)化和量化加速模型。您可以通過以下任何方式獲得這些好處：

trtexec CLI 工具

Python / C ++ API

Torch- TensorRT （與 PyTorch 集成）

TensorFlow- TensorRT （與 TensorFlow 集成）

圖 3 。使用 TensorRT 或其框架集成優(yōu)化模型

雖然 TensorRT 在本機(jī)上支持圖形優(yōu)化的更大定制，但框架集成為生態(tài)系統(tǒng)的新開發(fā)人員提供了易用性。由于選擇用戶可能采用的路由取決于其網(wǎng)絡(luò)的特定需求，我們希望列出所有選項(xiàng)。有關(guān)更多信息，請(qǐng)參閱使用 NVIDIA TensorRT 加速深度學(xué)習(xí)推理（更新）。

對(duì)于 TensorRT ，有幾種方法可以構(gòu)建 TensorRT 引擎。對(duì)于本文，請(qǐng)使用 trtexec CLI 工具。如果您想要一個(gè)腳本來導(dǎo)出一個(gè)預(yù)訓(xùn)練的模型，請(qǐng)使用 export_resnet_to_onnx.py 示例。

docker run -it --gpus all -v /path/to/this/folder:/trt_optimize nvcr.io/nvidia/tensorrt:-py3 trtexec --onnx=resnet50.onnx \ --saveEngine=resnet50.engine \ --explicitBatch \ --useCudaGraph

要使用 FP16 ，請(qǐng)?jiān)诿钪刑砑?code style="font-size:inherit;color:inherit;margin:0px;padding:0px;border:0px;font-style:inherit;font-variant:inherit;font-weight:inherit;line-height:inherit;vertical-align:baseline;background-color:rgb(244,244,244);">--fp16。在繼續(xù)下一步之前，您必須知道網(wǎng)絡(luò)輸入層和輸出層的名稱，這是定義 NVIDIA Triton 模型存儲(chǔ)庫(kù)配置時(shí)所必需的。一種簡(jiǎn)單的方法是使用polygraphy，它與 TensorRT 容器一起打包。

polygraphy inspect model resnet50.engine --mode=basic

ForTorch TensorRT ，拉動(dòng)NVIDIA PyTorch 容器，安裝了 TensorRT 和火炬 TensorRT 。要繼續(xù)，請(qǐng)使用sample。有關(guān)更多示例，請(qǐng)?jiān)L問Torch-TensorRTGitHub repo 。

#  is the yy:mm for the publishing tag for NVIDIA's Pytorch # container; eg. 21.12 docker run -it --gpus all -v /path/to/this/folder:/resnet50_eg nvcr.io/nvidia/pytorch:-py3 python torch_trt_resnet50.py

為了擴(kuò)展細(xì)節(jié)，您基本上使用 Torch- TensorRT 用 TensorRT 編譯 PyTorch 模型。在幕后，您的模型被轉(zhuǎn)換為 TorchScript 模塊，然后對(duì) TensorRT 支持的操作進(jìn)行優(yōu)化。有關(guān)更多信息，請(qǐng)參閱PyTorch – TensorRT 文件.

model = torch.hub.load('pytorch/vision:v0.10.0', 'resnet50', pretrained=True).eval().to("cuda") # Compile with Torch TensorRT;
trt_model = torch_tensorrt.compile(model, inputs= [torch_tensorrt.Input((1, 3, 224, 224))], enabled_precisions= { torch_tensorrt.dtype.float32} # Runs with FP32; can use FP16
) # Save the model
torch.jit.save(trt_model, "model.pt")

對(duì)于 TensorFlow TensorRT ，過程基本相同。首先，拉動(dòng)NVIDIA TensorFlow Container，它與 TensorRT 和 TensorFlow TensorRT 一起提供。我們以short scripttf_trt_resnet50.py為例。有關(guān)更多示例，請(qǐng)參閱TensorFlow TensorRTgithub 回購(gòu)。

#  is the yy:mm for the publishing tag for the NVIDIA Tensorflow
# container; eg. 21.12 docker run -it --gpus all -v /path/to/this/folder:/resnet50_eg nvcr.io/nvidia/tensorflow:-tf2-py3 python tf_trt_resnet50.py

同樣，您基本上是使用 TensorFlow- TensorRT 用 TensorRT 編譯 TensorFlow 模型。在幕后，您的模型被分割成包含 TensorRT 支持的操作的子圖，然后進(jìn)行優(yōu)化。有關(guān)更多信息，請(qǐng)參閱張量流 – TensorRT 文檔.

# Load model
model = ResNet50(weights='imagenet')
model.save('resnet50_saved_model') # Optimize with tftrt converter = trt.TrtGraphConverterV2(input_saved_model_dir='resnet50_saved_model')
converter.convert() # Save the model
converter.save(output_saved_model_dir='resnet50_saved_model_TFTRT_FP32')

現(xiàn)在，您已經(jīng)使用 TensorRT 優(yōu)化了模型，可以繼續(xù)下一步，設(shè)置 NVIDIA Triton ?聲波風(fēng)廓線儀。

設(shè)置 NVIDIA Triton 推理服務(wù)器

NVIDIA Triton 推理服務(wù)器用于簡(jiǎn)化生產(chǎn)環(huán)境中大規(guī)模部署模型或模型集合。為了實(shí)現(xiàn)易用性和靈活性，使用 NVIDIA Triton 圍繞著構(gòu)建一個(gè)模型存儲(chǔ)庫(kù)，其中包含模型、用于部署這些模型的配置文件以及其他必要的元數(shù)據(jù)。

看看最簡(jiǎn)單的例子。圖 4 有四個(gè)關(guān)鍵點(diǎn)。config.pbtxt文件（ a ）是前面提到的配置文件，其中包含模型的配置信息。

圖 4 。設(shè)置 NVIDIA Triton 工作流

此配置文件中有幾個(gè)要點(diǎn)需要注意：

Name：此字段定義模型的名稱，并且在模型存儲(chǔ)庫(kù)中必須是唯一的。

Platform：（ c ）此字段用于定義模型的類型：是 TensorRT 引擎、 PyTorch 模型還是其他模型。

輸入和輸出：（ d ）這些字段是必需的，因?yàn)?NVIDIA Triton 需要關(guān)于模型的元數(shù)據(jù)。本質(zhì)上，它需要網(wǎng)絡(luò)輸入和輸出層的名稱以及所述輸入和輸出的形狀。對(duì)于 TorchScript ，由于沒有輸入和輸出層的名稱，請(qǐng)使用input__0。數(shù)據(jù)類型設(shè)置為 FP32 ，輸入格式指定為 3 、 224 、 224 的（通道、高度、寬度）。

該集合中的 TensorRT 、 Torch TensorRT 和 TensorFlow- TensorRT 工作流之間存在微小差異，其歸結(jié)為指定平臺(tái)并更改輸入和輸出層的名稱。我們?yōu)樗腥齻€(gè)（ TensorRT 、 Torch-TensorRT 或 TensorFlow-TensorRT ）制作了示例配置文件。最后，添加經(jīng)過訓(xùn)練的模型（ b ）。

現(xiàn)在已經(jīng)構(gòu)建了模型存儲(chǔ)庫(kù)，您可以啟動(dòng)服務(wù)器了。為此，您只需拉動(dòng)容器并指定模型存儲(chǔ)庫(kù)的位置。

docker run --gpus=1 --rm -p 8000:8000 -p 8001:8001 -p 8002:8002 -v /full/path/to/docs/examples/model_repository:/models nvcr.io/nvidia/tritonserver:-py3 tritonserver --model-repository=/models

隨著服務(wù)器的啟動(dòng)和運(yùn)行，您最終可以構(gòu)建一個(gè)客戶端來滿足推理請(qǐng)求！

設(shè)置 NVIDIA Triton 客戶端

管道中的最后一步是查詢 NVIDIA Triton 推理服務(wù)器。您可以通過 HTTP 或 gRPC 請(qǐng)求向服務(wù)器發(fā)送推斷請(qǐng)求。在深入細(xì)節(jié)之前，安裝所需的依賴項(xiàng)并下載一個(gè)示例圖像。

pip install torchvision
pip install attrdict
pip install nvidia-pyindex
pip install tritonclient[all] wget -O img1.jpg "https://bit.ly/3phN2jy"

在本文中，使用 Torchvision 將原始圖像轉(zhuǎn)換為適合 ResNet-50 模型的格式。客戶不一定需要它。我們有更全面的 image client 和為 triton-inference-server/client GitHub repo 中可用的標(biāo)準(zhǔn)用例預(yù)先制作的大量不同的客戶端。然而，對(duì)于這個(gè)解釋，我們將使用一個(gè)簡(jiǎn)單得多的瘦客戶端來演示 API 的核心。

好的，現(xiàn)在您已經(jīng)準(zhǔn)備好查看 HTTP 客戶端（圖 5 ）。下載客戶端腳本：

TensorRT

Torch-TensorRT

TensorFlow-TensorRT

圖 5 ?？蛻舳斯ぷ髁?/p>

構(gòu)建客戶端有以下步驟。首先，在 NVIDIA Triton 推理服務(wù)器和客戶端之間建立連接。

triton_client = httpclient.InferenceServerClient(url="localhost:8000")

其次，傳遞圖像并指定模型的輸入和輸出層的名稱。這些名稱應(yīng)該與您在創(chuàng)建模型存儲(chǔ)庫(kù)時(shí)構(gòu)建的配置文件中定義的規(guī)范一致。

test_input = httpclient.InferInput("input__0", transformed_img.shape, datatype="FP32")
test_input.set_data_from_numpy(transformed_img, binary_data=True) test_output = httpclient.InferRequestedOutput("output__0", binary_data=True, class_count=1000)

最后，向 NVIDIA Triton 推理服務(wù)器發(fā)送推理請(qǐng)求。

results = triton_client.infer(model_name="resnet50", inputs=[test_input], outputs=[test_output])

這些代碼示例討論了 Torch- TensorRT 模型的細(xì)節(jié)。不同模型（在構(gòu)建客戶端時(shí)）之間的唯一區(qū)別是輸入和輸出層名稱。我們用 Python 、 C ++、 Go 、 Java 和 JavaScript 構(gòu)建了 NVIDIA Triton 客戶端。有關(guān)更多示例，請(qǐng)參閱 triton-inference-server/client GitHub repo 。

結(jié)論

這篇文章介紹了一個(gè)端到端的推理管道，您首先使用 TensorRT 、 Torch TensorRT 和 TensorFlow TensorRT 優(yōu)化訓(xùn)練模型，以最大限度地提高推理性能。然后，通過設(shè)置和查詢 NVIDIA Triton 推理服務(wù)器，對(duì)服務(wù)進(jìn)行建模。

關(guān)于作者

Tanay Varshney 是 NVIDIA 的一名深入學(xué)習(xí)的技術(shù)營(yíng)銷工程師，負(fù)責(zé)廣泛的 DL 軟件產(chǎn)品。他擁有紐約大學(xué)計(jì)算機(jī)科學(xué)碩士學(xué)位，專注于計(jì)算機(jī)視覺、數(shù)據(jù)可視化和城市分析的橫斷面。

Jay Rodge 是 NVIDIA 的產(chǎn)品營(yíng)銷經(jīng)理，負(fù)責(zé)深入學(xué)習(xí)和推理產(chǎn)品，推動(dòng)產(chǎn)品發(fā)布和產(chǎn)品營(yíng)銷計(jì)劃。杰伊在芝加哥伊利諾伊理工學(xué)院獲得計(jì)算機(jī)科學(xué)碩士學(xué)位，主攻計(jì)算機(jī)視覺和自然語言處理。在 NVIDIA 之前，杰伊是寶馬集團(tuán)的人工智能研究實(shí)習(xí)生，為寶馬最大的制造廠使用計(jì)算機(jī)視覺解決問題。

Nick Comly 是 NVIDIA 深度學(xué)習(xí)推理的產(chǎn)品經(jīng)理。他致力于將 TensorRT 推理優(yōu)化的功能直接應(yīng)用于 PyTorch 、 TensorFlow 、 MXNet 、 ONNX 和飛漿等框架。 Nick 在斯坦福大學(xué)獲得碩士學(xué)位，專攻深度學(xué)習(xí)和優(yōu)化。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5309

瀏覽量
106416
gpu

gpu

+關(guān)注

關(guān)注
28

文章
4948

瀏覽量
131250
服務(wù)器

服務(wù)器

+關(guān)注

關(guān)注
13

文章
9795

瀏覽量
87998

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

使用NVIDIA TensorRT和NVIDIA Triton優(yōu)化和提供模型

評(píng)論