chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Triton 系列文章(11):模型類別與調(diào)度器-2

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:未知 ? 2023-01-18 00:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在上篇文章中,已經(jīng)說明了有狀態(tài)(stateful)模型的“控制輸入”與“隱式狀態(tài)管理”的使用方式,本文內(nèi)容接著就繼續(xù)說明“調(diào)度策略”的使用。 (續(xù)前一篇文章的編號) (3) 調(diào)度策略(Scheduling Strategies)在決定如何對分發(fā)到同一模型實(shí)例的序列進(jìn)行批處理時(shí),序列批量處理器(sequence batcher)可以采用以下兩種調(diào)度策略的其中一種:
  • 直接(direct)策略
當(dāng)模型維護(hù)每個(gè)批量處理槽的狀態(tài),并期望給定序列的所有推理請求都分發(fā)到同一槽,以便正確更新狀態(tài)時(shí),需要使用這個(gè)策略。此時(shí),序列批量處理程序不僅能確保序列中的所有推理請求,都會(huì)分發(fā)到同一模型實(shí)例,并且確保每個(gè)序列都被分發(fā)至模型實(shí)例中的專用批量處理槽(batch slot)。 下面示例的模型配置,是一個(gè) TensorRT 有狀態(tài)模型,使用直接調(diào)度策略的序量批處理程序的內(nèi)容:
name: "direct_stateful_model"platform: "tensorrt_plan"max_batch_size: 2sequence_batching{ max_sequence_idle_microseconds: 5000000direct { } control_input [{name: "START" control [{ kind: CONTROL_SEQUENCE_START fp32_false_true: [ 0, 1 ]}]},{name: "READY" control [{ kind: CONTROL_SEQUENCE_READY fp32_false_true: [ 0, 1 ]}]}]}#續(xù)接右欄 #上接左欄input [{name: "INPUT" data_type: TYPE_FP32dims: [ 100, 100 ]}]output [{name: "OUTPUT" data_type: TYPE_FP32dims: [ 10 ]}]instance_group [{ count: 2}]
現(xiàn)在簡單說明以下配置的內(nèi)容:
  • sequence_batching 部分指示模型會(huì)使用序列調(diào)度器的 Direct 調(diào)度策略;
  • 示例中模型只需要序列批處理程序的啟動(dòng)和就緒控制輸入,因此只列出這些控制;
  • instance_group 表示應(yīng)該實(shí)例化模型的兩個(gè)實(shí)例;
  • max_batch_size 表示這些實(shí)例中的每一個(gè)都應(yīng)該執(zhí)行批量大小為 2 的推理計(jì)算。
下圖顯示了此配置指定的序列批處理程序和推理資源的表示: 98b4d324-9685-11ed-bfe3-dac502259ad0.png 每個(gè)模型實(shí)例都在維護(hù)每個(gè)批處理槽的狀態(tài),并期望將給定序列的所有推理請求分發(fā)到同一槽,以便正確更新狀態(tài)。對于本例,這意味著 Triton 可以同時(shí) 4 個(gè)序列進(jìn)行推理。 使用直接調(diào)度策略,序列批處理程序會(huì)執(zhí)行以下動(dòng)作:
所識別的推理請求種類 執(zhí)行動(dòng)作
需要啟動(dòng)新序列 1. 有可用處理槽時(shí):就為該序列分配批處理槽2. 無可用處理槽時(shí):就將推理請求放在積壓工作中
是已分配處理槽序列的一部分 將該請求分發(fā)到該配置好的批量處理槽
是積壓工作中序列的一部分 將請求放入積壓工作中
是最后一個(gè)推理請求 1. 有積壓工作時(shí):將處理槽分配給積壓工作的序列2. 有積壓工作:釋放該序列處理槽給其他序列使用
下圖顯示使用直接調(diào)度策略,將多個(gè)序列調(diào)度到模型實(shí)例上的執(zhí)行: 98d198b0-9685-11ed-bfe3-dac502259ad0.png 圖左顯示了到達(dá) Triton 的 5 個(gè)請求序列,每個(gè)序列可以由任意數(shù)量的推理請求組成。圖右側(cè)顯示了推理請求序列是如何隨時(shí)間安排到模型實(shí)例上的,
  • 在實(shí)例 0 與實(shí)例 1 中各有兩個(gè)槽 0 與槽 1;
  • 根據(jù)接收的順序,為序列 0 至序列 3 各分配一個(gè)批量處理槽,而序列 4 與序列 5 先處于排隊(duì)等候狀態(tài);
  • 當(dāng)序列 3 的請求全部完成之后,將處理槽釋放出來給序列 4 使用;
  • 當(dāng)序列 1 的請求全部完成之后,將處理槽釋放出來給序列 5 使用;
以上是直接策略對最基本工作原理,很容易理解。 接下來要進(jìn)一步使用控制輸入張量與模型通信的功能,下圖是一個(gè)分配給模型實(shí)例中兩個(gè)批處理槽的兩個(gè)序列,每個(gè)序列的推理請求隨時(shí)間而到達(dá),START 和 READY 顯示用于模型每次執(zhí)行的輸入張量值: 98f09d82-9685-11ed-bfe3-dac502259ad0.png ?隨著時(shí)間的推移(從右向左),會(huì)發(fā)生以下情況:
  • 序列中第一個(gè)請求(Req 0)到達(dá)槽 0 時(shí),因?yàn)槟P蛯?shí)例尚未執(zhí)行推理,則序列調(diào)度器會(huì)立即安排模型實(shí)例執(zhí)行,因?yàn)橥评碚埱罂捎茫?/span>
  • 由于這是序列中的第一個(gè)請求,因此 START 張量中的對應(yīng)元素設(shè)置為 1,但槽 1 中沒有可用的請求,因此 READY 張量僅顯示槽 0 為就緒。
  • 推理完成后,序列調(diào)度器會(huì)發(fā)現(xiàn)任何批處理槽中都沒有可用的請求,因此模型實(shí)例處于空閑狀態(tài)。
  • 接下來,兩個(gè)推理請求(上面的 Req 1 與下面的 Req 0)差不多的時(shí)間到達(dá),序列調(diào)度器看到兩個(gè)處理槽都是可用,就立即執(zhí)行批量大小為 2 的推理模型實(shí)例,使用 READY 顯示兩個(gè)槽都有可用的推理請求,但只有槽 1 是新序列的開始(START)。
  • 對于其他推理請求,處理以類似的方式繼續(xù)。
以上就是配合控制輸入張量的工作原理。
  • 最舊的(oldest)策略
這種調(diào)度策略能讓序列批處理器,確保序列中的所有推理請求都被分發(fā)到同一模型實(shí)例中,然后使用“動(dòng)態(tài)批處理器”將來自不同序列的多個(gè)推理批量處理到一起。 使用此策略,模型通常必須使用 CONTROL_SEQUENCE_CORRID 控件,才能讓批量處理清楚每個(gè)推理請求是屬于哪個(gè)序列。通常不需要 CONTROL_SEQUENCE_READY 控件,因?yàn)榕幚碇兴械耐评矶紝㈦S時(shí)準(zhǔn)備好進(jìn)行推理。 下面是一個(gè)“最舊調(diào)度策略”的配置示例,以前面一個(gè)“直接調(diào)度策略”進(jìn)行修改,差異之處只有下面所列出的部分,請自行調(diào)整:
直接(direct)策略 最舊的(oldest)策略

direct {}

oldest

{

max_candidate_sequences: 4

}
在本示例中,模型需要序列批量處理的開始、結(jié)束和相關(guān) ID 控制輸入。下圖顯示了此配置指定的序列批處理程序和推理資源的表示。 990bd430-9685-11ed-bfe3-dac502259ad0.png 使用最舊的調(diào)度策略,序列批處理程序會(huì)執(zhí)行以下工作:
所識別的推理請求種類 執(zhí)行動(dòng)作
需要啟動(dòng)新序列 嘗試查找具有候選序列空間的模型實(shí)例,如果沒有實(shí)例可以容納新的候選序列,就將請求放在一個(gè)積壓工作中
已經(jīng)是候選序列的一部分 將該請求分發(fā)到該模型實(shí)例
是積壓工作中序列的一部分 將請求放入積壓工作中
是最后一個(gè)推理請求 模型實(shí)例立即從積壓工作中刪除一個(gè)序列,并將其作為模型實(shí)例中的候選序列,或者記錄如果沒有積壓工作,模型實(shí)例可以處理未來的序列。
下圖顯示將多個(gè)序列調(diào)度到上述示例配置指定的模型實(shí)例上,左圖顯示 Triton 接收了四個(gè)請求序列,每個(gè)序列由多個(gè)推理請求組成: 9943afc2-9685-11ed-bfe3-dac502259ad0.png 這里假設(shè)每個(gè)請求的長度是相同的,那么左邊候選序列中送進(jìn)右邊批量處理槽的順序,就是上圖中間的排列順序。 最舊的策略從最舊的請求中形成一個(gè)動(dòng)態(tài)批處理,但在一個(gè)批處理中從不包含來自給定序列的多個(gè)請求,例如上面序列 D 中的最后兩個(gè)推理不是一起批處理的。 以上是關(guān)于有狀態(tài)模型的“調(diào)度策略”主要內(nèi)容,剩下的“集成模型”部分,會(huì)在下篇文章中提供完整的說明。


原文標(biāo)題:NVIDIA Triton 系列文章(11):模型類別與調(diào)度器-2

文章出處:【微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    23

    文章

    4022

    瀏覽量

    97040

原文標(biāo)題:NVIDIA Triton 系列文章(11):模型類別與調(diào)度器-2

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA開源Audio2Face模型及SDK

    NVIDIA 現(xiàn)已開源 Audio2Face 模型與 SDK,讓所有游戲和 3D 應(yīng)用開發(fā)者都可以構(gòu)建并部署帶有先進(jìn)動(dòng)畫的高精度角色。NVIDIA 開源 Audio
    的頭像 發(fā)表于 10-21 11:11 ?329次閱讀
    <b class='flag-5'>NVIDIA</b>開源Audio<b class='flag-5'>2</b>Face<b class='flag-5'>模型</b>及SDK

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準(zhǔn)確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1193次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano <b class='flag-5'>2</b>推理<b class='flag-5'>模型</b>發(fā)布

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張
    的頭像 發(fā)表于 06-12 15:37 ?1132次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    NVIDIA GTC巴黎亮點(diǎn):全新Cosmos Predict-2世界基礎(chǔ)模型與CARLA集成加速智能汽車訓(xùn)練

    。這種向使用大模型的過渡大大增加了對用于訓(xùn)練、測試和驗(yàn)證的高質(zhì)量、基于物理學(xué)傳感數(shù)據(jù)的需求。 為加速下一代輔助駕駛架構(gòu)的開發(fā),NVIDIA 發(fā)布了?NVIDIA Cosmos Pre
    的頭像 發(fā)表于 06-12 10:00 ?855次閱讀

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開源庫加速并擴(kuò)展AI推理模型

    Triton 推理服務(wù)的后續(xù)產(chǎn)品,NVIDIA Dynamo 是一款全新的 AI 推理服務(wù)軟件,旨在為部署推理 AI 模型的 AI 工廠最大化其 token 收益。它協(xié)調(diào)并加速數(shù)千
    的頭像 發(fā)表于 03-20 15:03 ?933次閱讀

    Evo 2 AI模型可通過NVIDIA BioNeMo平臺(tái)使用

    Evo 2 是一個(gè)強(qiáng)大的新型 AI 模型,它基于亞馬遜云科技(AWS)上的 NVIDIA DGX Cloud 構(gòu)建而成,能夠幫助用戶深入了解不同物種的 DNA、RNA 和蛋白質(zhì)。
    的頭像 發(fā)表于 02-28 09:57 ?1082次閱讀

    NVIDIA推出開放式Llama Nemotron系列模型

    作為 NVIDIA NIM 微服務(wù),開放式 Llama Nemotron 大語言模型和 Cosmos Nemotron 視覺語言模型可在任何加速系統(tǒng)上為 AI 智能體提供強(qiáng)效助力。
    的頭像 發(fā)表于 01-09 11:11 ?1056次閱讀

    Triton編譯與GPU編程的結(jié)合應(yīng)用

    Triton編譯簡介 Triton編譯是一種針對并行計(jì)算優(yōu)化的編譯,它能夠自動(dòng)將高級語言代碼轉(zhuǎn)換為針對特定硬件優(yōu)化的低級代碼。
    的頭像 發(fā)表于 12-25 09:13 ?1161次閱讀

    Triton編譯的優(yōu)化技巧

    在現(xiàn)代計(jì)算環(huán)境中,編譯的性能對于軟件的運(yùn)行效率至關(guān)重要。Triton 編譯作為一個(gè)先進(jìn)的編譯框架,提供了一系列的優(yōu)化技術(shù),以確保生成的
    的頭像 發(fā)表于 12-25 09:09 ?1547次閱讀

    Triton編譯的優(yōu)勢與劣勢分析

    Triton編譯作為一種新興的深度學(xué)習(xí)編譯,具有一系列顯著的優(yōu)勢,同時(shí)也存在一些潛在的劣勢。以下是對Triton編譯
    的頭像 發(fā)表于 12-25 09:07 ?1666次閱讀

    Triton編譯在機(jī)器學(xué)習(xí)中的應(yīng)用

    1. Triton編譯概述 Triton編譯NVIDIA Triton推理服務(wù)平臺(tái)的一部分
    的頭像 發(fā)表于 12-24 18:13 ?1442次閱讀

    Triton編譯的常見問題解決方案

    Triton編譯作為一款專注于深度學(xué)習(xí)的高性能GPU編程工具,在使用過程中可能會(huì)遇到一些常見問題。以下是一些常見問題的解決方案: 一、安裝與依賴問題 檢查Python版本 Triton編譯
    的頭像 發(fā)表于 12-24 18:04 ?5968次閱讀

    Triton編譯支持的編程語言

    Triton編譯支持的編程語言主要包括以下幾種: 一、主要編程語言 Python :Triton編譯通過Python接口提供了對Triton
    的頭像 發(fā)表于 12-24 17:33 ?1332次閱讀

    Triton編譯與其他編譯的比較

    Triton編譯與其他編譯的比較主要體現(xiàn)在以下幾個(gè)方面: 一、定位與目標(biāo) Triton編譯 : 定位:專注于深度學(xué)習(xí)中最核心、最耗時(shí)的
    的頭像 發(fā)表于 12-24 17:25 ?1407次閱讀

    Triton編譯功能介紹 Triton編譯器使用教程

    Triton 是一個(gè)開源的編譯前端,它支持多種編程語言,包括 C、C++、Fortran 和 Ada。Triton 旨在提供一個(gè)可擴(kuò)展和可定制的編譯框架,允許開發(fā)者添加新的編程語言
    的頭像 發(fā)表于 12-24 17:23 ?2334次閱讀