chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Triton助力騰訊PCG加速在線推理

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:NVIDIA ? 2022-05-20 15:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

案例簡(jiǎn)介

本案例中通過(guò)NVIDIA T4 GPU,通過(guò)Ronda平臺(tái)調(diào)用Triton以及TensorRT, 整體提升開(kāi)發(fā)和推理效能, 幫助騰訊PCG的多個(gè)服務(wù)整體效能提升2倍,吞吐量最大提升6倍,同時(shí)降低了40%的延時(shí)。本案例主要應(yīng)用到 NVIDIA T4 GPU、TensorRT和Triton。

本案例主要應(yīng)用到 NVIDIA T4 GPU、TensorRT和Triton。

客戶簡(jiǎn)介及應(yīng)用背景

騰訊平臺(tái)與內(nèi)容事業(yè)群(簡(jiǎn)稱 騰訊PCG)負(fù)責(zé)公司互聯(lián)網(wǎng)平臺(tái)和內(nèi)容文化生態(tài)融合發(fā)展,整合QQ、QQ空間等社交平臺(tái),和應(yīng)用寶、瀏覽器等流量平臺(tái),以及新聞資訊、視頻、體育、直播、動(dòng)漫、影業(yè)等內(nèi)容業(yè)務(wù),推動(dòng)IP跨平臺(tái)、多形態(tài)發(fā)展,為更多用戶創(chuàng)造海量的優(yōu)質(zhì)數(shù)字內(nèi)容體驗(yàn)。

騰訊PCG機(jī)器學(xué)習(xí)平臺(tái)部旨在構(gòu)建和持續(xù)優(yōu)化符合PCG技術(shù)中臺(tái)戰(zhàn)略的機(jī)器學(xué)習(xí)平臺(tái)和系統(tǒng),提升PCG機(jī)器學(xué)習(xí)技術(shù)應(yīng)用效率和價(jià)值。建設(shè)業(yè)務(wù)領(lǐng)先的模型訓(xùn)練系統(tǒng)和算法框架;提供涵蓋數(shù)據(jù)標(biāo)注、模型訓(xùn)練、評(píng)測(cè)、上線的全流程平臺(tái)服務(wù),實(shí)現(xiàn)高效率迭代;在內(nèi)容理解和處理領(lǐng)域,輸出業(yè)界領(lǐng)先的元能力和智能策略庫(kù)。機(jī)器學(xué)習(xí)平臺(tái)部正服務(wù)于PCG所有業(yè)務(wù)產(chǎn)品。

客戶挑戰(zhàn)

業(yè)務(wù)繁多,場(chǎng)景復(fù)雜

業(yè)務(wù)開(kāi)發(fā)語(yǔ)言包括C++/Python

模型格式繁多,包括ONNX、Pytorch、TensorFlow、TensorRT等

模型預(yù)處理涉及圖片下載等網(wǎng)絡(luò)io

多模型融合流程比教復(fù)雜,涉及循環(huán)調(diào)用

支持異構(gòu)推理

模型推理結(jié)果異常時(shí),難以方便地調(diào)試定位問(wèn)題

需要與公司內(nèi)現(xiàn)有協(xié)議/框架/平臺(tái)進(jìn)行融合

應(yīng)用方案

基于以上挑戰(zhàn),騰訊PCG選擇了采用NVIDIA 的Triton推理服務(wù)器,以解決新場(chǎng)景下模型推理引擎面臨的挑戰(zhàn),在提升用戶研效的同時(shí),大幅降低了服務(wù)成本。

NVIDIA Triton 是一款開(kāi)源軟件,對(duì)于所有推理模式都可以簡(jiǎn)化模型在任一框架中以及任何 GPU 或 CPU 上的運(yùn)行方式,從而在生產(chǎn)環(huán)境中使用 AI。Triton 支持多模型ensemble,以及 TensorFlow、PyTorch、ONNX 等多種深度學(xué)習(xí)模型框架,可以很好的支持多模型聯(lián)合推理的場(chǎng)景,構(gòu)建起視頻、圖片、語(yǔ)音、文本整個(gè)推理服務(wù)過(guò)程,大大降低多個(gè)模型服務(wù)的開(kāi)發(fā)和維護(hù)成本。

基于C++ 的基礎(chǔ)架構(gòu)、Dynamic-batch、以及對(duì) TensorRT 的支持,同時(shí)配合 T4 的 GPU,將整體推理服務(wù)的吞吐能力最大提升 6 倍,延遲最大降低 40%,既滿足了業(yè)務(wù)的低延時(shí)需求,成本也降低了20%-66%。

通過(guò)將Triton編譯為動(dòng)態(tài)鏈接庫(kù),可以方便地鏈入公司內(nèi)部框架,對(duì)接公司的平臺(tái)治理體系。符合C語(yǔ)言規(guī)范的API也極大降低了用戶的接入成本。

借助Python Backend和Custom Backend,用戶可以自由選擇使用C++/Python語(yǔ)言進(jìn)行二次開(kāi)發(fā)。

Triton的Tracing能力可以方便地捕捉執(zhí)行過(guò)程中的數(shù)據(jù)流狀態(tài)。結(jié)合Metrics 和 Perf Analysis等組件,可以快速定位開(kāi)發(fā)調(diào)試,甚至是線上問(wèn)題,對(duì)于開(kāi)發(fā)和定位問(wèn)題的效率有很大提升。

NVIDIA DALI 是 GPU 加速的數(shù)據(jù)增強(qiáng)和圖像加載庫(kù)。DALI Backend可以用于替換掉原來(lái)的圖片解碼、resize等操作。FIL Backend也可以替代Python XGBoost模型推理,進(jìn)一步提升服務(wù)端推理性能。

方案效果及影響

借助NVIDIA Triton 推理框架,配合 DALI/FIL/Python 等Backend,以及 TensorRT,整體推理服務(wù)的吞吐能力最大提升 6 倍,延遲最大降低 40%。幫助騰訊PCG各業(yè)務(wù)場(chǎng)景中,以更低的成本構(gòu)建了高性能的推理服務(wù),同時(shí)更低的延遲降低了整條系統(tǒng)鏈路的響應(yīng)時(shí)間,優(yōu)化了用戶體驗(yàn)。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5431

    瀏覽量

    108275
  • C++
    C++
    +關(guān)注

    關(guān)注

    22

    文章

    2120

    瀏覽量

    76458
  • python
    +關(guān)注

    關(guān)注

    56

    文章

    4848

    瀏覽量

    88957
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準(zhǔn)確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1173次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理</b>模型發(fā)布

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實(shí)現(xiàn)150萬(wàn)TPS推理

    的發(fā)布持續(xù)深化了雙方的 AI 創(chuàng)新合作。NVIDIANVIDIA Blackwell 架構(gòu)上優(yōu)化了這兩款全新的開(kāi)放權(quán)重模型并實(shí)現(xiàn)了推理性能加速,在
    的頭像 發(fā)表于 08-15 20:34 ?1689次閱讀
    <b class='flag-5'>NVIDIA</b>從云到邊緣<b class='flag-5'>加速</b>OpenAI gpt-oss模型部署,實(shí)現(xiàn)150萬(wàn)TPS<b class='flag-5'>推理</b>

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開(kāi)源庫(kù),可幫助開(kāi)發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?1434次閱讀

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Love
    的頭像 發(fā)表于 06-12 15:37 ?1089次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    NVIDIA助力解決量子計(jì)算領(lǐng)域重大挑戰(zhàn)

    NVIDIA 加速量子研究中心提供了強(qiáng)大的工具,助力解決量子計(jì)算領(lǐng)域的重大挑戰(zhàn)。
    的頭像 發(fā)表于 03-27 09:17 ?850次閱讀

    NVIDIA加速的Apache Spark助力企業(yè)節(jié)省大量成本

    隨著 NVIDIA 推出 Aether 項(xiàng)目,通過(guò)采用 NVIDIA 加速的 Apache Spark 企業(yè)得以自動(dòng)加速其數(shù)據(jù)中心規(guī)模的分析工作負(fù)載,從而節(jié)省數(shù)百萬(wàn)美元。
    的頭像 發(fā)表于 03-25 15:09 ?778次閱讀
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>加速</b>的Apache Spark<b class='flag-5'>助力</b>企業(yè)節(jié)省大量成本

    英偉達(dá)GTC2025亮點(diǎn):Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理

    Oracle 數(shù)據(jù)庫(kù)與 NVIDIA AI 相集成,使企業(yè)能夠更輕松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,NVIDIA 加速計(jì)算和
    的頭像 發(fā)表于 03-21 12:01 ?1009次閱讀
    英偉達(dá)GTC2025亮點(diǎn):Oracle與<b class='flag-5'>NVIDIA</b>合作<b class='flag-5'>助力</b>企業(yè)<b class='flag-5'>加速</b>代理式AI<b class='flag-5'>推理</b>

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開(kāi)源庫(kù)加速并擴(kuò)展AI推理模型

    Triton 推理服務(wù)器的后續(xù)產(chǎn)品,NVIDIA Dynamo 是一款全新的 AI 推理服務(wù)軟件,旨在為部署推理 AI 模型的 AI 工廠
    的頭像 發(fā)表于 03-20 15:03 ?918次閱讀

    Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速計(jì)算和推理軟件與 Oracle 的 AI 基礎(chǔ)設(shè)施以及生成式 AI 服務(wù)首次實(shí)現(xiàn)集成,以幫助全球企業(yè)組織
    發(fā)表于 03-19 15:24 ?434次閱讀
    Oracle 與 <b class='flag-5'>NVIDIA</b> 合作<b class='flag-5'>助力</b>企業(yè)<b class='flag-5'>加速</b>代理式 AI <b class='flag-5'>推理</b>

    NVIDIA 推出開(kāi)放推理 AI 模型系列,助力開(kāi)發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺(tái)

    月 18 日 —— ?NVIDIA 今日發(fā)布具有推理功能的開(kāi)源 Llama Nemotron 模型系列,旨在為開(kāi)發(fā)者和企業(yè)提供業(yè)務(wù)就緒型基礎(chǔ),助力構(gòu)建能夠獨(dú)立工作或以團(tuán)隊(duì)形式完成復(fù)雜任務(wù)的高級(jí) AI 智能體。
    發(fā)表于 03-19 09:31 ?300次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開(kāi)放<b class='flag-5'>推理</b> AI 模型系列,<b class='flag-5'>助力</b>開(kāi)發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺(tái)

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬(wàn)美元。
    的頭像 發(fā)表于 02-08 09:59 ?1064次閱讀
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平臺(tái)提高AI<b class='flag-5'>推理</b>性能

    NVIDIA技術(shù)助力Pantheon Lab數(shù)字人實(shí)時(shí)交互解決方案

    NVIDIA Triton,Pantheon Lab 訓(xùn)練速度提高 10 倍、推理延遲降低 50%,以及用戶參與度提升 30%。這些進(jìn)步使對(duì)話式 AI 能夠提供實(shí)時(shí)且真實(shí)的互動(dòng),使 Pantheon Lab 在數(shù)字人技術(shù)不斷革
    的頭像 發(fā)表于 01-14 11:19 ?823次閱讀

    Triton編譯器在機(jī)器學(xué)習(xí)中的應(yīng)用

    1. Triton編譯器概述 Triton編譯器是NVIDIA Triton推理服務(wù)平臺(tái)的一部分,它負(fù)責(zé)將深度學(xué)習(xí)模型轉(zhuǎn)換為優(yōu)化的格式,以便
    的頭像 發(fā)表于 12-24 18:13 ?1415次閱讀

    Triton編譯器功能介紹 Triton編譯器使用教程

    Triton 是一個(gè)開(kāi)源的編譯器前端,它支持多種編程語(yǔ)言,包括 C、C++、Fortran 和 Ada。Triton 旨在提供一個(gè)可擴(kuò)展和可定制的編譯器框架,允許開(kāi)發(fā)者添加新的編程語(yǔ)言特性和優(yōu)化技術(shù)
    的頭像 發(fā)表于 12-24 17:23 ?2306次閱讀

    NVIDIA助力麗蟾科技打造AI訓(xùn)練與推理加速解決方案

    麗蟾科技通過(guò) Leaper 資源管理平臺(tái)集成 NVIDIA AI Enterprise,為企業(yè)和科研機(jī)構(gòu)提供了一套高效、靈活的 AI 訓(xùn)練與推理加速解決方案。無(wú)論是在復(fù)雜的 AI 開(kāi)發(fā)任務(wù)中,還是在高并發(fā)
    的頭像 發(fā)表于 10-27 10:03 ?1427次閱讀
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>助力</b>麗蟾科技打造AI訓(xùn)練與<b class='flag-5'>推理</b><b class='flag-5'>加速</b>解決方案