chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何使用Triton進行高效的推理部署

NVIDIA英偉達 ? 來源:NVIDIA英偉達 ? 作者:NVIDIA英偉達 ? 2022-04-10 15:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一個完整的醫(yī)療影像推理流程一般包含數(shù)據(jù)的前處理、AI 推理以及數(shù)據(jù)后處理這幾部分。通常情況下,我們可以通過 TensorRT, TensorFlow 或者 PyTorch 這些框架來實現(xiàn) GPU 加速的 AI 推理部分,然而數(shù)據(jù)前后處理部分往往是放在 CPU 上執(zhí)行的。對于一些比較大的數(shù)據(jù),比如 CT 或者 MR 這種 3D 圖像,CPU 上的數(shù)據(jù)前后處理會成為整個推理流程的瓶頸,導致推理的時延變長,GPU 使用效率不高。醫(yī)療影像推理的另一個需要考慮的問題是如何實現(xiàn)高效的部署。我們往往需要部署多個醫(yī)療影像 AI 應用,那么如何去調度多個模型,如何并發(fā)處理多個請求,并充分利用 GPU 資源成為挑戰(zhàn)。

什么是 MONAI

MONAI 是一個專門針對醫(yī)療圖像的深度學習開源框架。MONAI 致力于:

  • 發(fā)展一個學術界、工業(yè)界和臨床研究人員共同合作的社區(qū);

  • 為醫(yī)療圖像創(chuàng)建最先進的端到端工作流;

  • 為研究人員提供創(chuàng)建和評估深度學習模型的優(yōu)化和標準化的方法。

MONAI 中包含一系列的 transforms 對醫(yī)療圖像數(shù)據(jù)進行前后處理。在 MONAI 0.7 中,我們在 transforms 中引入基于 PyTorch Tensor 的計算,許多 transforms 既支持 NumPy array,也支持 PyTorch Tensor 作為輸入類型和計算后端。當以 PyTorch Tensor 作為輸入數(shù)據(jù)時,我們可以使用 GPU 來加速數(shù)據(jù)前后處理的計算。

什么是 NVIDIA Triton 推理服務器

Triton 推理服務器是一個開源的 AI 模型部署軟件,可以簡化深度學習推理的大規(guī)模部署。它能夠對多種框架(TensorFlow、TensorRT、PyTorch、ONNX Runtime 或自定義框架),在任何基于 GPU 或 CPU 的環(huán)境上(云、數(shù)據(jù)中心、邊緣)大規(guī)模部署經過訓練的 AI 模型。Triton 可提供高吞吐量推理,以實現(xiàn) GPU 使用率的最大化。

在較新的版本中,Triton 增加了 Python backend 這一新特性,Python backend 的目標是讓使用者可以更加容易的部署 Python 寫的模型,無需再去編寫任何 C++ 代碼。在一些場景下,我們的推理流程中可能會出現(xiàn)循環(huán)、條件判斷、依賴于運行時數(shù)據(jù)的控制流和其他自定義邏輯與模型混合執(zhí)行。使用 Triton Python backend,開發(fā)人員可以更加容易地在自己的推理流程中實現(xiàn)這些控制流,并且在 Python 模型中調用 Triton 部署的其他模型。

使用 MONAI 和 Triton 高效搭建和部署 GPU 加速的醫(yī)療影像推理流程

在本文介紹的例子中,我們將使用 MONAI 中 GPU 加速的數(shù)據(jù)處理以及 Triton 的 Python backend 來構建一個 GPU 加速的醫(yī)療影像推理流程。通過這個例子,讀者可以了解到,在 GPU 上進行數(shù)據(jù)處理所帶來的性能增益,以及如何使用 Triton 進行高效的推理部署。

整個推理流程如下圖所示,包含數(shù)據(jù)預處理,AI 模型推理,和數(shù)據(jù)后處理三部分。

4e1ff448-b7af-11ec-aa7f-dac502259ad0.png

通過 EnsureType 這個 transform,我們將輸入數(shù)據(jù)轉換成 PyTorch Tensor 并放到 GPU 上,這樣之后的數(shù)據(jù)預處理操作都會在 GPU 上進行。我們使用 Triton 的 Torch backend 來作為 3DUnet 的推理后端,輸出的結果為 GPU 上的 Torch Tensor,并作為后處理模塊的輸入,在 GPU 上進行后處理計算。

使用 Triton 的 Python backend,我們可以非常容易的將整個流程串聯(lián)起來,即:按照 Triton Python backend 要求的模型結構構建前后處理的 Python 代碼,并在其中調用 3DUnet 的推理。以下是我們例子中的代碼片段。完整的代碼及復現(xiàn)步驟請見 Github:

https://github.com/Project-MONAI/tutorials/tree/master/full_gpu_inference_pipeline

class TritonPythonModel:      """     Your Python model must use the same class name. Every Python model     that is created must have "TritonPythonModel" as the class name.     """        def initialize(self, args):          """         `initialize` is called only once when the model is being loaded.         Implementing `initialize` function is optional. This function allows         the model to intialize any state associated with this model.         """          self.inference_device_id = args.get("model_instance_device_id", "0")          infer_transforms = []          infer_transforms.append(EnsureType(device=torch.device(f"cuda:{self.inference_device_id}")))          infer_transforms.append(AddChannel())          infer_transforms.append(ScaleIntensityRange(a_min=-57, a_max=164, b_min=0.0, b_max=1.0, clip=True))          infer_transforms.append(CropForeground())          infer_transforms.append(Resize(spatial_size=(224, 224, 224)))          self.pre_transforms = Compose(infer_transforms)        def execute(self, requests):          """         `execute` must be implemented in every Python model. `execute`         function receives a list of pb_utils.InferenceRequest as the only         argument. This function is called when an inference is requested         for this model. Depending on the batching configuration (e.g. Dynamic         Batching) used, `requests` may contain multiple requests. Every         Python model, must create one pb_utils.InferenceResponse for every         pb_utils.InferenceRequest in `requests`. If there is an error, you can         set the error argument when creating a pb_utils.InferenceResponse.         """          responses = []            for request in requests:              # get the input by name (as configured in config.pbtxt)              input_triton_tensor = pb_utils.get_input_tensor_by_name(request, "INPUT0")              # convert the triton tensor to torch tensor              input_torch_tensor = from_dlpack(input_triton_tensor.to_dlpack())              transform_output = self.pre_transforms(input_torch_tensor[0])              transform_output_batched = transform_output.unsqueeze(0)              # convert the torch tensor to triton tensor              transform_tensor = pb_utils.Tensor.from_dlpack("INPUT__0", to_dlpack(transform_output_batched))              # send inference request to 3DUnet served by Triton. The name of the model is "segmentation_3d"              inference_request = pb_utils.InferenceRequest(                  model_name="3dunet", requested_output_names=["OUTPUT__0"], inputs=[transform_tensor]              )                infer_response = inference_request.exec()              output1 = pb_utils.get_output_tensor_by_name(infer_response, "OUTPUT__0")              # convert the triton tensor to torch tensor              output_tensor = from_dlpack(output1.to_dlpack())                # do the post process              argmax = AsDiscrete(argmax=True)(output_tensor[0])              largest = KeepLargestConnectedComponent(applied_labels=1)(argmax)              contour = LabelToContour()(largest)              out_tensor_0 = pb_utils.Tensor.from_dlpack("MASK", to_dlpack(largest.unsqueeze(0)))              out_tensor_1 = pb_utils.Tensor.from_dlpack("CONTOUR", to_dlpack(contour.unsqueeze(0)))              inference_response = pb_utils.InferenceResponse(output_tensors=[out_tensor_0, out_tensor_1])              responses.append(inference_response)          return responses        def finalize(self):          """         `finalize` is called only once when the model is being unloaded.         Implementing `finalize` function is optional. This function allows         the model to perform any necessary clean ups before exit.         """  pass

以 MSD Spleen 3D 數(shù)據(jù)作為輸入,經過整個推理流程,將得到分割后的脾臟區(qū)域以及其輪廓。

4e38a68c-b7af-11ec-aa7f-dac502259ad0.png

性能測試

我們在 RTX 8000 上對整個推理流程進行了性能測試,以了解 Triton 及 MONAI 不同特性對性能的影響。

HTTP vs. gRPC vs. shared memory

目前 Triton 支持 HTTP, gRPC 和共享內存等方式進行數(shù)據(jù)通信。由于三維醫(yī)學圖像通常很大,通信帶來的開銷不容忽視。對于許多常見的醫(yī)學圖像人工智能應用,客戶端與服務器位于同一臺機器上,因此使用共享內存是減少發(fā)送/接收開銷的一種可行方法。在測試中,我們比較了客戶端和服務器之間使用不同通信方式對性能的影響。所有過程(前/后處理和AI推理)都在 GPU 上。我們可以得出結論,當數(shù)據(jù)傳輸量很大時,使用共享內存將大大減少延遲。

4e4ef464-b7af-11ec-aa7f-dac502259ad0.png

Pre/Post-processing on GPU vs. CPU

接著我們測試了分別在 GPU 和 CPU 進行前后數(shù)據(jù)處理時,整個推理流程的速度??梢钥吹剑斒褂?GPU 進行數(shù)據(jù)處理時,可以實現(xiàn) 12 倍的加速。

4e5fe38c-b7af-11ec-aa7f-dac502259ad0.png


原文標題:使用 MONAI 和 Triton 高效構建和部署 GPU 加速的醫(yī)療影像推理流程

文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

審核編輯:彭菁

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5283

    瀏覽量

    136097
  • AI
    AI
    +關注

    關注

    91

    文章

    41315

    瀏覽量

    302691
  • Triton
    +關注

    關注

    0

    文章

    28

    瀏覽量

    7353

原文標題:使用 MONAI 和 Triton 高效構建和部署 GPU 加速的醫(yī)療影像推理流程

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    K8s部署vLLM推理服務詳細步驟

    vLLM在生產環(huán)境部署時,服務暴露是關鍵環(huán)節(jié)。Kubernetes的Service和Ingress組件負責將內部Pod流量對外暴露,合理的Service類型選擇和負載均衡策略直接影響推理服務的可用性、響應速度和資源利用率。
    的頭像 發(fā)表于 03-13 09:46 ?499次閱讀

    AI端側部署開發(fā)(SC171開發(fā)套件V2-FAS)

    AI端側部署開發(fā)(SC171開發(fā)套件V2-FAS) 序列 課程名稱 視頻課程時長 視頻課程鏈接 課件鏈接 工程源碼 1 Fibo AI Stack模型轉化指南 27分19秒 https
    發(fā)表于 02-11 11:44

    LLM推理模型是如何推理的?

    這篇文章《(How)DoReasoningModelsReason?》對當前大型推理模型(LRM)進行了深刻的剖析,超越了表面的性能宣傳,直指其技術本質和核心局限。以下是基于原文的詳細技術原理、關鍵
    的頭像 發(fā)表于 01-19 15:33 ?729次閱讀
    LLM<b class='flag-5'>推理</b>模型是如何<b class='flag-5'>推理</b>的?

    AI端側部署開發(fā)(SC171開發(fā)套件V3)2026版

    AI端側部署開發(fā)(SC171開發(fā)套件V3)2026版 序列 課程名稱 視頻課程時長 視頻課程鏈接 課件鏈接 工程源碼 1 Fibo AI Stack模型轉化指南 27分19秒 https
    發(fā)表于 01-15 10:31

    Termux手機攝像頭采集圖像/視頻流 部署 YOLO 模型推理

    Termux手機攝像頭采集圖像/視頻流 部署 YOLO 模型推理
    的頭像 發(fā)表于 12-14 07:26 ?3358次閱讀

    使用NVIDIA Grove簡化Kubernetes上的復雜AI推理

    過去幾年,AI 推理部署已經從單一模型、單一 Pod 演變?yōu)閺碗s的多組件系統(tǒng)。如今,一個模型部署可能包含多個不同的組件——預填充 (prefill)、解碼 (decode)、視覺編碼
    的頭像 發(fā)表于 11-14 10:25 ?5490次閱讀
    使用NVIDIA Grove簡化Kubernetes上的復雜AI<b class='flag-5'>推理</b>

    如何在NVIDIA Jetson AGX Thor上通過Docker高效部署vLLM推理服務

    繼系統(tǒng)安裝與環(huán)境配置后,本期我們將繼續(xù)帶大家深入 NVIDIA Jetson AGX Thor 的開發(fā)教程之旅,了解如何在 Jetson AGX Thor 上,通過 Docker 高效部署 vLLM 推理服務。
    的頭像 發(fā)表于 11-13 14:08 ?4460次閱讀
    如何在NVIDIA Jetson AGX Thor上通過Docker<b class='flag-5'>高效</b><b class='flag-5'>部署</b>vLLM<b class='flag-5'>推理</b>服務

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實現(xiàn)這一目標,其構建了多維度的核心實現(xiàn)路徑:一方面,針對需
    的頭像 發(fā)表于 10-21 11:04 ?1458次閱讀

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?2035次閱讀
    NVIDIA Nemotron Nano 2<b class='flag-5'>推理</b>模型發(fā)布

    基于米爾瑞芯微RK3576開發(fā)板部署運行TinyMaix:超輕量級推理框架

    本文將介紹基于米爾電子MYD-LR3576開發(fā)平臺部署超輕量級推理框架方案:TinyMaix 摘自優(yōu)秀創(chuàng)作者-短笛君 TinyMaix 是面向單片機的超輕量級的神經網(wǎng)絡推理庫,即 TinyML
    發(fā)表于 07-25 16:35

    信而泰×DeepSeek:AI推理引擎驅動網(wǎng)絡智能診斷邁向 “自愈”時代

    學習、大規(guī)模數(shù)據(jù)分析等前沿技術。DeepSeek-R1具備卓越的邏輯推理、多模態(tài)分析(文本/圖像/語音)和實時交互能力,能夠高效處理代碼生成、復雜問題求解、跨模態(tài)學習等高階任務。憑借其開源、高效、多
    發(fā)表于 07-16 15:29

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應用原型驗證與產品部署
    的頭像 發(fā)表于 07-04 14:38 ?2461次閱讀

    大模型推理顯存和計算量估計方法研究

    方法。 一、引言 大模型推理是指在已知輸入數(shù)據(jù)的情況下,通過深度學習模型進行預測或分類的過程。然而,大模型的推理過程對顯存和計算資源的需求較高,這給實際應用帶來了以下挑戰(zhàn): 顯存不足:大模型在
    發(fā)表于 07-03 19:43

    Say Hi to ERNIE!Imagination GPU率先完成文心大模型的端側部署

    ImaginationTechnologies宣布率先完成百度文心大模型(ERNIE4.5開源版)在其GPU硬件上的端側部署。適配完成后,開發(fā)者可在搭載ImaginationGPU的設備上實現(xiàn)高效
    的頭像 發(fā)表于 07-01 08:17 ?1118次閱讀
    Say Hi to ERNIE!Imagination GPU率先完成文心大模型的端側<b class='flag-5'>部署</b>

    使用NVIDIA Triton和TensorRT-LLM部署TTS應用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Lovelace
    的頭像 發(fā)表于 06-12 15:37 ?2101次閱讀
    使用NVIDIA <b class='flag-5'>Triton</b>和TensorRT-LLM<b class='flag-5'>部署</b>TTS應用的最佳實踐