案例簡介
本案例中通過NVIDIA T4 GPU,通過Ronda平臺調(diào)用Triton以及TensorRT, 整體提升開發(fā)和推理效能, 幫助騰訊PCG的多個服務(wù)整體效能提升2倍,吞吐量最大提升6倍,同時降低了40%的延時。本案例主要應(yīng)用到 NVIDIA T4 GPU、TensorRT和Triton。
本案例主要應(yīng)用到 NVIDIA T4 GPU、TensorRT和Triton。
客戶簡介及應(yīng)用背景
騰訊平臺與內(nèi)容事業(yè)群(簡稱 騰訊PCG)負責公司互聯(lián)網(wǎng)平臺和內(nèi)容文化生態(tài)融合發(fā)展,整合QQ、QQ空間等社交平臺,和應(yīng)用寶、瀏覽器等流量平臺,以及新聞資訊、視頻、體育、直播、動漫、影業(yè)等內(nèi)容業(yè)務(wù),推動IP跨平臺、多形態(tài)發(fā)展,為更多用戶創(chuàng)造海量的優(yōu)質(zhì)數(shù)字內(nèi)容體驗。
騰訊PCG機器學習平臺部旨在構(gòu)建和持續(xù)優(yōu)化符合PCG技術(shù)中臺戰(zhàn)略的機器學習平臺和系統(tǒng),提升PCG機器學習技術(shù)應(yīng)用效率和價值。建設(shè)業(yè)務(wù)領(lǐng)先的模型訓練系統(tǒng)和算法框架;提供涵蓋數(shù)據(jù)標注、模型訓練、評測、上線的全流程平臺服務(wù),實現(xiàn)高效率迭代;在內(nèi)容理解和處理領(lǐng)域,輸出業(yè)界領(lǐng)先的元能力和智能策略庫。機器學習平臺部正服務(wù)于PCG所有業(yè)務(wù)產(chǎn)品。
客戶挑戰(zhàn)
業(yè)務(wù)繁多,場景復雜
業(yè)務(wù)開發(fā)語言包括C++/Python
模型格式繁多,包括ONNX、Pytorch、TensorFlow、TensorRT等
模型預處理涉及圖片下載等網(wǎng)絡(luò)io
多模型融合流程比教復雜,涉及循環(huán)調(diào)用
支持異構(gòu)推理
模型推理結(jié)果異常時,難以方便地調(diào)試定位問題
需要與公司內(nèi)現(xiàn)有協(xié)議/框架/平臺進行融合
應(yīng)用方案
基于以上挑戰(zhàn),騰訊PCG選擇了采用NVIDIA 的Triton推理服務(wù)器,以解決新場景下模型推理引擎面臨的挑戰(zhàn),在提升用戶研效的同時,大幅降低了服務(wù)成本。
NVIDIA Triton 是一款開源軟件,對于所有推理模式都可以簡化模型在任一框架中以及任何 GPU 或 CPU 上的運行方式,從而在生產(chǎn)環(huán)境中使用 AI。Triton 支持多模型ensemble,以及 TensorFlow、PyTorch、ONNX 等多種深度學習模型框架,可以很好的支持多模型聯(lián)合推理的場景,構(gòu)建起視頻、圖片、語音、文本整個推理服務(wù)過程,大大降低多個模型服務(wù)的開發(fā)和維護成本。
基于C++ 的基礎(chǔ)架構(gòu)、Dynamic-batch、以及對 TensorRT 的支持,同時配合 T4 的 GPU,將整體推理服務(wù)的吞吐能力最大提升 6 倍,延遲最大降低 40%,既滿足了業(yè)務(wù)的低延時需求,成本也降低了20%-66%。
通過將Triton編譯為動態(tài)鏈接庫,可以方便地鏈入公司內(nèi)部框架,對接公司的平臺治理體系。符合C語言規(guī)范的API也極大降低了用戶的接入成本。
借助Python Backend和Custom Backend,用戶可以自由選擇使用C++/Python語言進行二次開發(fā)。
Triton的Tracing能力可以方便地捕捉執(zhí)行過程中的數(shù)據(jù)流狀態(tài)。結(jié)合Metrics 和 Perf Analysis等組件,可以快速定位開發(fā)調(diào)試,甚至是線上問題,對于開發(fā)和定位問題的效率有很大提升。

NVIDIA DALI 是 GPU 加速的數(shù)據(jù)增強和圖像加載庫。DALI Backend可以用于替換掉原來的圖片解碼、resize等操作。FIL Backend也可以替代Python XGBoost模型推理,進一步提升服務(wù)端推理性能。
方案效果及影響
借助NVIDIA Triton 推理框架,配合 DALI/FIL/Python 等Backend,以及 TensorRT,整體推理服務(wù)的吞吐能力最大提升 6 倍,延遲最大降低 40%。幫助騰訊PCG各業(yè)務(wù)場景中,以更低的成本構(gòu)建了高性能的推理服務(wù),同時更低的延遲降低了整條系統(tǒng)鏈路的響應(yīng)時間,優(yōu)化了用戶體驗。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5592瀏覽量
109706 -
C++
+關(guān)注
關(guān)注
22文章
2123瀏覽量
77106 -
python
+關(guān)注
關(guān)注
57文章
4876瀏覽量
90017
發(fā)布評論請先 登錄
NVIDIA DGX SuperPOD為Rubin平臺橫向擴展提供藍圖
NVIDIA TensorRT LLM 1.0推理框架正式上線
NVIDIA 利用全新開源模型與仿真庫加速機器人研發(fā)進程
NVIDIA Nemotron Nano 2推理模型發(fā)布
NVIDIA三臺計算機解決方案如何協(xié)同助力機器人技術(shù)
NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現(xiàn)150萬TPS推理
如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署
使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實踐
NVIDIA助力解決量子計算領(lǐng)域重大挑戰(zhàn)
NVIDIA加速的Apache Spark助力企業(yè)節(jié)省大量成本
英偉達GTC2025亮點:Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理
英偉達GTC25亮點:NVIDIA Blackwell Ultra 開啟 AI 推理新時代
英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型
Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理
NVIDIA 推出開放推理 AI 模型系列,助力開發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺
NVIDIA Triton助力騰訊PCG加速在線推理
評論