chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA Triton 系列文章(11):模型類別與調度器-1

NVIDIA英偉達企業(yè)解決方案 ? 來源:未知 ? 2023-01-11 06:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在 Triton 推理服務器的使用中,模型(model)類別與調度器(scheduler)、批量處理器(batcher)類型的搭配,是整個管理機制中最重要的環(huán)節(jié),三者之間根據實際計算資源與使用場景的要求去進行調配,這是整個 Triton 服務器中比較復雜的部分。

在模型類別中有“無狀態(tài)(stateless)”“有狀態(tài)(stateful)”“集成(ensemble)”三種,調度器方面則有“標準調度器(default scheduler)”“集成調度器(ensemble scheduler)”兩種,而標準調度器下面還有“動態(tài)批量處理器(dynamic batcher)”“序列批量處理器(sequence batcher)”兩種批量處理器。

模型類別與調度器/批量處理器之間存在一些關聯(lián)性,以下整理出一個簡單的配合表格,提供大家參考:

類別

調度器

批量處理器

使用場景

無狀態(tài)

標準調度器

動態(tài)批量處理器

面向各自獨立的推理模型

有狀態(tài)

標準調度器

序列批量處理器

處理存在交互關系的推理模型組

集成

集成調度器

創(chuàng)建復雜的工作流水線

接下去就要為這幾個管理機制的組合進行說明,由于內容較多并且不均衡,特別是“有狀態(tài)模型”與“集成模型”兩部分的使用是相對復雜的,因此這些組合會分為三篇文章來進行較為深入的說明。

1. 無狀態(tài)(Stateless)模式:

這是 Triton 默認的模型模式,最主要的要求就是“模型所維護的狀態(tài)不跨越推理請求”,也就是不存在與其他推理請求有任何交互關系,大部分處于最末端的獨立推理模型,都適合使用這種模式,例如車牌檢測最末端的將圖像識別成符號的推理、為車輛識別顏色/種類/廠牌的圖像分類等,還有 RNN 以及具有內部內存的類似模型,也可以是無狀態(tài)的。

2. 有狀態(tài)(Stateful)模式:

很多提供云服務的系統(tǒng),需要具備同時接受多個推理請求去形成一系列推理的能力,這些推理必須路由到某些特定模型實例中,以便正確更新模型維護的狀態(tài)。此外,該模型可能要求推理服務器提供控制信號,例如指示序列的開始和結束。

Triton 服務器提供動態(tài)(dynamic)與序列(sequence)兩種批量處理器(batcher),其中序列批量處理器必須用于這種有狀態(tài)模式,因為序列中的所有推理請求都被路由到同一個模型實例,以便模型能夠正確地維護狀態(tài)。

序列批量處理程序還需要與模型相互傳遞信息,以指示序列的開始、結束、具有可執(zhí)行推理請求的時間,以及序列的關聯(lián)編號(ID)。當對有狀態(tài)模型進行推理請求時,客戶端應用程序必須為序列中的所有請求提供相同的關聯(lián)編號,并且還必須標記序列的開始和結束。

下面是這種模式的控制行為有“控制輸入”“隱式狀態(tài)管理”“調度策略”三個部分,本文后面先說明控制輸入的內容,另外兩個部分在下篇文章內講解。

(1) 控制輸入(control inputs)

為了使有狀態(tài)模型能夠與序列批處理程序一起正確運行,模型通常必須接受 Triton 用于與模型通信的一個或多個控制輸入張量。

模型配置的sequence_batching里的control_input部分,指示模型如何公開序列批處理程序應用于這些控件的張量。所有控件都是可選的,下面是模型配置的一部分,顯示了所有可用控制信號的示例配置:

05204e62-9136-11ed-bfe3-dac502259ad0.png

  • 開始(start):

這個輸入張量在配置中使用“CONTROL_SEQUENCE_START”指定,上面配置表明模型有一個名為“START”的輸入張量,其數(shù)據類型為 32 位浮點數(shù),序列批量處理程序將在對模型執(zhí)行推理時定義此張量。

START 輸入張量必須是一維的,大小等于批量大小,張量中的每個元素指示相應批槽中的序列是否開始。上面配置中“fp32_false_true”表示,當張量元素等于 0 時為“false(不開始)”、等于 1 時為“ture(開始)”

  • 結束(End):

結束輸入張量在配置中使用“CONTROL_SEQUENCE_END”指定,上面配置表明模型有一個名為“END”的輸入張量,具有 32 位浮點數(shù)據類型,序列批處理程序將在對模型執(zhí)行推理時定義此張量。

END 輸入張量必須是一維的,大小等于批量大小,張量中的每個元素指示相應批槽中的序列是否開始。上面配置中“fp32_false_true”表示,當張量元素等于 0 時為“false(不結束)”、等于 1 時為“ture(結束)”。

  • 準備就緒(Ready):

就緒輸入張量在配置中使用“CONTROL_SEQUENCE_READY”指定,上面配置表明模型有一個名為“READY”的輸入張量,其數(shù)據類型為 32 位浮點數(shù),序列批處理程序將在對模型執(zhí)行推理時定義此張量。

READY 輸入張量必須是一維的,大小等于批量大小,張量中的每個元素指示相應批槽中的序列是否開始。上面配置中“fp32_false_true”表示,當張量元素等于 0 時為“false(未就緒)”、等于1時為“ture(就緒)”。

  • 關聯(lián)編號(Correlation ID):

關聯(lián)編號輸入張量在配置中使用“CONTROL_SEQUENCE_CORRID”指定,上面置表明模型有一個名為“CORRID”的輸入張量,其數(shù)據類型為無符號 64 位整數(shù),序列批處理程序將在對模型執(zhí)行推理時定義此張量。

CORRID 張量必須是一維的,大小等于批量大小,張量中的每個元素表示相應批槽中序列的相關編號。

(2) 隱式狀態(tài)管理(implicit State Management)

這種方式允許有狀態(tài)模型將其狀態(tài)存儲在 Triton 服務器中。當使用隱式狀態(tài)時,有狀態(tài)模型不需要在模型內部存儲推理所需的狀態(tài)。不過隱式狀態(tài)管理需要后端(backend)支持。目前只有 onnxruntime_backend 和 tensorrt_backend 支持隱式狀態(tài)。

下面是模型配置的一部分,在sequence_batching配置中的 state 部分,就是用于指示該模型正在使用隱式狀態(tài):

sequence_batching {
  state  [
    {
       input_name: "INPUT_STATE"
       output_name: "OUTPUT_STATE"
       data_type: TYPE_INT32
      dims:  [ -1 ]
    }
  ]
}

這里做簡單的說明:

  • 字段說明:

  • input_name 字段:指定將包含輸入狀態(tài)的輸入張量的名稱;
  • output_name 字段:描述由包含輸出狀態(tài)的模型生成的輸出張量的名稱;
  • dims 字段:指定狀態(tài)張量的維度。

  • 執(zhí)行要點:

  • 序列中第 i 個請求中模型提供的輸出狀態(tài),將用作第 i+1 個請求中的輸入狀態(tài);
  • 當 dims 字段包含可變大小的維度時,輸入狀態(tài)和輸出狀態(tài)的尺度不必匹配;
  • 出于調試目的,客戶端可以請求輸出狀態(tài)。為了實現(xiàn)這個目的,模型配置的輸出部分必須將輸出狀態(tài)(OUTPUT_STATE)列為模型的一個輸出;
  • 由于需要傳輸額外的張量,從客戶端請求輸出狀態(tài)可能會增加請求延遲。

默認情況下,序列中的啟動請求包含輸入狀態(tài)的未初始化數(shù)據。模型可以使用請求中的開始標志來檢測新序列的開始,并通過在模型輸出中提供初始狀態(tài)來初始化模型狀態(tài),如果模型狀態(tài)描述中的 dims 部分包含可變尺度,則 Triton 在開始請求時將每個可變尺寸設置為“1”。對于序列中的其他非啟動請求,輸入狀態(tài)是序列中前一個請求的輸出狀態(tài)。

對于狀態(tài)初的初始化部分,有以下兩種狀況需要調整:

  • 啟動請求時:則模型將“OUTPUT_STATE”設置為等于“INPUT”張量;

  • 非啟動請求時:將“OUTPUT_STATE”設為“INPUT”和“INPUT_STATE”張量之和。

除了上面討論的默認狀態(tài)初始化之外,Triton 還提供了“從 0 開始”與“從文件導入”兩種初始化狀態(tài)的機制。下面提供兩種初始化的配置示例:

052f0830-9136-11ed-bfe3-dac502259ad0.png

兩個配置只有粗體部分不一樣,其余內容都是相同的,提供讀者做個參考。

以上是關于有狀態(tài)模型的“控制輸入”與“隱式狀態(tài)管理”的使用方式,剩下的“調度策略”部分,會在后文中提供完整的說明。


原文標題:NVIDIA Triton 系列文章(11):模型類別與調度器-1

文章出處:【微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英偉達
    +關注

    關注

    23

    文章

    4086

    瀏覽量

    99169

原文標題:NVIDIA Triton 系列文章(11):模型類別與調度器-1

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    借助NVIDIA CUDA Tile IR后端推進OpenAI Triton的GPU編程

    NVIDIA CUDA Tile 是基于 GPU 的編程模型,其設計目標是為 NVIDIA Tensor Cores 提供可移植性,從而釋放 GPU 的極限性能。CUDA Tile 的一大優(yōu)勢是允許開發(fā)者基于其構建自定義的 DS
    的頭像 發(fā)表于 02-10 10:31 ?238次閱讀

    NVIDIA 推出 Alpamayo 系列開源 AI 模型與工具,加速安全可靠的推理型輔助駕駛汽車開發(fā)

    新聞摘要 : l NVIDIA 率先發(fā)布為應對輔助駕駛長尾場景挑戰(zhàn)而設計的開源視覺-語言-動作推理模型(Reasoning VLA);NVIDIA Alpamayo 系列還包含賦能輔助
    的頭像 發(fā)表于 01-06 09:40 ?378次閱讀
    <b class='flag-5'>NVIDIA</b> 推出 Alpamayo <b class='flag-5'>系列</b>開源 AI <b class='flag-5'>模型</b>與工具,加速安全可靠的推理型輔助駕駛汽車開發(fā)

    七大基于大模型的地面測控站網調度分系統(tǒng)軟件的應用與未來發(fā)展

    出的七項具有代表性的智能調度系統(tǒng)/項目。這些系統(tǒng)均深度融合大模型、AI決策與數(shù)據驅動優(yōu)化技術,是航天測控體系向智能化、自主化升級的核心載體。 ? ?1.北京華盛恒輝大模型地面測控站網
    的頭像 發(fā)表于 12-19 15:42 ?361次閱讀

    NVIDIA 推出 Nemotron 3 系列開放模型

    新聞摘要: ● Nemotron 3 系列開放模型包含 Nano、Super 和 Ultra 三種規(guī)模,具有極高的效率和領先的精度,適用于代理式 AI 應用開發(fā)。 ● Nemotron 3 Nano
    的頭像 發(fā)表于 12-16 09:27 ?625次閱讀
    <b class='flag-5'>NVIDIA</b> 推出 Nemotron 3 <b class='flag-5'>系列</b>開放<b class='flag-5'>模型</b>

    NVIDIA攜手Mistral AI發(fā)布全新開源大語言模型系列

    全新 Mistral 3 系列涵蓋從前沿級到緊湊型模型,針對 NVIDIA 平臺進行了優(yōu)化,助力 Mistral AI 實現(xiàn)云到邊緣分布式智能愿景。
    的頭像 發(fā)表于 12-13 09:58 ?1237次閱讀

    NVIDIA推動面向數(shù)字與物理AI的開源模型發(fā)展

    NVIDIA 發(fā)布一系列涵蓋語音、安全與輔助駕駛領域的全新 AI 工具,其中包括面向移動出行領域的行業(yè)級開源視覺-語言-動作推理模型(Reasoning VLA) NVIDIA DRI
    的頭像 發(fā)表于 12-13 09:50 ?1330次閱讀

    利用NVIDIA Cosmos開放世界基礎模型加速物理AI開發(fā)

    NVIDIA 最近發(fā)布了 NVIDIA Cosmos 開放世界基礎模型(WFM)的更新,旨在加速物理 AI 模型的測試與驗證數(shù)據生成。借助 NVID
    的頭像 發(fā)表于 12-01 09:25 ?1131次閱讀

    面向科學仿真的開放模型系列NVIDIA Apollo正式發(fā)布

    用于加速工業(yè)和計算工程的開放模型系列 NVIDIA Apollo 于近日舉行的 SC25 大會上正式發(fā)布。
    的頭像 發(fā)表于 11-25 11:15 ?7.4w次閱讀

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1777次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2推理<b class='flag-5'>模型</b>發(fā)布

    如何本地部署NVIDIA Cosmos Reason-1-7B模型

    近日,NVIDIA 開源其物理 AI 平臺 NVIDIA Cosmos 中的關鍵模型——NVIDIA Cosmos Reason-1-7B。
    的頭像 發(fā)表于 07-09 10:17 ?809次閱讀

    使用NVIDIA Triton和TensorRT-LLM部署TTS應用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張
    的頭像 發(fā)表于 06-12 15:37 ?1871次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS應用的最佳實踐

    在阿里云PAI上快速部署NVIDIA Cosmos Reason-1模型

    NVIDIA 近期發(fā)布了 Cosmos Reason-1 的 7B 和 56B 兩款多模態(tài)大語言模型 (MLLM),它們經過了“物理 AI 監(jiān)督微調”和“物理 AI 強化學習”兩個階段的訓練。其中
    的頭像 發(fā)表于 06-04 13:43 ?957次閱讀

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    Triton 推理服務的后續(xù)產品,NVIDIA Dynamo 是一款全新的 AI 推理服務軟件,旨在為部署推理 AI 模型的 AI 工廠最大化其 token 收益。它協(xié)調并加速數(shù)千
    的頭像 發(fā)表于 03-20 15:03 ?1231次閱讀

    NVIDIA發(fā)布全球首個開源人形機器人基礎模型Isaac GR00T N1

    NVIDIA 宣布推出一系列全新技術,助力人形機器人開發(fā)。其中包括全球首個開源且完全可定制的基礎模型NVIDIA Isaac GR00T N1
    的頭像 發(fā)表于 03-20 14:34 ?1697次閱讀

    NVIDIA 推出開放推理 AI 模型系列,助力開發(fā)者和企業(yè)構建代理式 AI 平臺

    月 18 日 —— ?NVIDIA 今日發(fā)布具有推理功能的開源 Llama Nemotron 模型系列,旨在為開發(fā)者和企業(yè)提供業(yè)務就緒型基礎,助力構建能夠獨立工作或以團隊形式完成復雜任務的高級 AI 智能體。
    發(fā)表于 03-19 09:31 ?390次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開放推理 AI <b class='flag-5'>模型</b><b class='flag-5'>系列</b>,助力開發(fā)者和企業(yè)構建代理式 AI 平臺