chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA T4 GPU加速VIVO推薦系統(tǒng)部署

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:NVIDIA ? 2022-05-20 15:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

案例簡(jiǎn)介及其應(yīng)用背景

VIVO AI中臺(tái)的最終目的是為2.6億+ VIVO用戶提供極致的智能服務(wù),而NVIDIA則為VIVO推薦系統(tǒng)提供強(qiáng)大的算力支持以實(shí)踐優(yōu)化。

推薦系統(tǒng)的大規(guī)模部署帶來(lái)了諸多工程化挑戰(zhàn),借助NVIDIA TensorRT, Triton and MPS (Multi-Process Service) 及單張T4 GPU推理卡,其性能優(yōu)于約6臺(tái)以上的78核CPU服務(wù)器,成本方面也降低75%。

團(tuán)隊(duì)共實(shí)踐和比較了三種不同的工程方案,其中,性價(jià)比最高的“通用GPU方案”充分發(fā)揮了MPS和TensorFlow的性能,開(kāi)創(chuàng)性地解決了推薦場(chǎng)景的難題,包含:如何滿足頻繁的算法迭代需求,如何開(kāi)發(fā)不支持的運(yùn)算操作插件,以及如何改善低效的推理服務(wù)性能等。

VIVO AI平臺(tái)致力于建設(shè)完整的人工智能中臺(tái),搭建全面的、行業(yè)領(lǐng)先的大規(guī)模分布式機(jī)器學(xué)習(xí)平臺(tái),應(yīng)用于內(nèi)容推薦、商業(yè)變現(xiàn)、搜索等多種業(yè)務(wù)場(chǎng)景,為2.6億+ VIVO用戶提供極致的智能服務(wù)。

VIVO AI中臺(tái)始終服務(wù)于企業(yè)往智能化深度發(fā)展的需求,在數(shù)據(jù)中臺(tái)基礎(chǔ)上增加了一體化智能服務(wù)的概念。并且立足于數(shù)據(jù)的獲取、存儲(chǔ)、特征處理、分析、模型構(gòu)建、訓(xùn)練、評(píng)估等智能服務(wù)相關(guān)的任務(wù)環(huán)節(jié),使其高度組件化、配置化、自動(dòng)化。

pYYBAGKHQvqAeiYGAAC4OnxwTiY315.png

Figure 1. AI中臺(tái)系統(tǒng)架構(gòu)圖 (圖片來(lái)源于VIVO研究院授權(quán))

在整個(gè)AI中臺(tái)架構(gòu)中,推薦中臺(tái)則作為最重要的核心,也是最具商業(yè)價(jià)值的部分,不僅需承載VIVO億級(jí)用戶,日活千萬(wàn)的數(shù)據(jù)量也包含在內(nèi)。本文從推薦系統(tǒng)工程化的角度,解讀了以下三方面內(nèi)容:VIVO 的智能推薦系統(tǒng)是如何運(yùn)行的?在實(shí)際應(yīng)用場(chǎng)景中遇到過(guò)什么挑戰(zhàn)?NVIDIA GPU如何加速推薦系統(tǒng)的部署?

poYBAGKHQvuAJSBqAAD5cQ8WHoI849.png

Figure 2. 推薦中臺(tái)系統(tǒng)架構(gòu)圖 (圖片來(lái)源于VIVO研究院授權(quán))

經(jīng)過(guò)驗(yàn)證,本方案可以有效解決推薦業(yè)務(wù)中GPU通用性問(wèn)題;同時(shí)能更高效的利用GPU。目前已經(jīng)在部分推薦業(yè)務(wù)中落地。經(jīng)過(guò)壓測(cè),性能方面,單張T4 GPU推理卡,性能優(yōu)于約6臺(tái)以上的78核CPU服務(wù)器。成本方面,VIVO自研通用GPU方案,在TensorRT方案基礎(chǔ)上,取得了更高的QPS和更低的延遲,可節(jié)省成本約75%!

本案例主要應(yīng)用到 NVIDIA T4 GPU 和相關(guān)工具包括NVIDA TensorRT, Triton, MPS等。

客戶簡(jiǎn)介

VIVO是一家以設(shè)計(jì)驅(qū)動(dòng)創(chuàng)造偉大產(chǎn)品,打造以智能終端和智慧服務(wù)為核心的科技公司,也是一家全球性的移動(dòng)互聯(lián)網(wǎng)智能終端公司。致力于為消費(fèi)者打造擁有極致拍照、暢快游戲、Hi-Fi音樂(lè)的智能手機(jī)產(chǎn)品。根據(jù)《2020胡潤(rùn)中國(guó)10強(qiáng)消費(fèi)電子企業(yè)》報(bào)告顯示,VIVO以1750億人民幣排名第3位。

客戶挑戰(zhàn)

在工程實(shí)踐中,VIVO推薦系統(tǒng)面臨的第一個(gè)問(wèn)題是如何平滑的把多種推薦業(yè)務(wù)邏輯從CPU平臺(tái)向GPU平臺(tái)遷移。鑒于當(dāng)前已經(jīng)存在多個(gè)推薦業(yè)務(wù)場(chǎng)景,包括應(yīng)用商店,手機(jī)瀏覽器,負(fù)一屏信息流等。每個(gè)場(chǎng)景都有自己的算法模型和業(yè)務(wù)流程,如何把多種分散的智能服務(wù)整合到一個(gè)統(tǒng)一的推薦中臺(tái),同時(shí)要兼顧當(dāng)前的業(yè)務(wù)的無(wú)損遷移是一個(gè)巨大的挑戰(zhàn)。

一直以來(lái),CPU是客戶主要的支撐推薦業(yè)務(wù)場(chǎng)景的主流硬件平臺(tái)。但VIVO工程團(tuán)隊(duì)卻發(fā)現(xiàn)在推理服務(wù)中,CPU的表現(xiàn)始終無(wú)法達(dá)到要求標(biāo)準(zhǔn),不僅算力較弱,應(yīng)對(duì)復(fù)雜模型時(shí),響應(yīng)延遲和QPS也無(wú)法滿足實(shí)時(shí)性和高并發(fā)的需求。

此時(shí),客戶嘗試改用NVIDIA GPU來(lái)實(shí)現(xiàn)推薦業(yè)務(wù)的推理服務(wù),有效解決CPU算力和性能的瓶頸的同時(shí),也期待更大的成本優(yōu)勢(shì)。經(jīng)過(guò)大量的工程實(shí)踐,結(jié)果表明,單臺(tái)基于NVIDIA T4 GPU的推理服務(wù)器,性能可以等同于24臺(tái)CPU機(jī)器。毋庸置疑, GPU的整體表現(xiàn)皆具有性能和成本的優(yōu)勢(shì)。據(jù)此,客戶也認(rèn)為使用GPU作為推薦業(yè)務(wù)場(chǎng)景的推理平臺(tái),已成為了公司乃至行業(yè)的共識(shí)。

應(yīng)用方案

由于GPU芯片架構(gòu)的獨(dú)特性,不經(jīng)優(yōu)化的原始TensorFlow模型,很難高效利用GPU的算力。為了解決這個(gè)問(wèn)題,VIVO工程團(tuán)隊(duì)投入了大量的人力和時(shí)間進(jìn)行推薦模型優(yōu)化及轉(zhuǎn)換。而首先著手設(shè)計(jì)的是TensorRT方案,即是使用NVIDIA推理加速工具TensorRT,結(jié)合 Triton的serving方式,以最大化GPU整體收益。

具體來(lái)說(shuō),把訓(xùn)練導(dǎo)出的TensorFlow模型經(jīng)過(guò)Onnx轉(zhuǎn)換成TensorRT模型,進(jìn)而使用NVIDIA提供的推理服務(wù)框架Triton加載TensorRT模型。業(yè)務(wù)代碼使用VIVO封裝Triton的JNI接口,將業(yè)務(wù)請(qǐng)求輸入TensorRT模型去做推理計(jì)算。

pYYBAGKHQvyAUmP_AADQbgmnO_A133.png

Figure 3. 推薦業(yè)務(wù)流程圖 (圖片來(lái)源于VIVO研究院授權(quán))

實(shí)測(cè)結(jié)果表明,該方案取得了預(yù)期的線上收益。性能方面,單張T4 GPU推理卡,性能優(yōu)于約6臺(tái)以上的78核CPU服務(wù)器。以如下場(chǎng)景為例,在相同的精排服務(wù)請(qǐng)求:QPS為600,BatchSize為3000時(shí),不同方案的成本,TensorRT方案可節(jié)省成本約14%:

pYYBAGKHQxWATR69AAARdIgpnIk709.png

為了進(jìn)一步提升線上收益,最大化GPU利用率,NVIDIA機(jī)器學(xué)習(xí)團(tuán)隊(duì)配合 VIVO繼續(xù)優(yōu)化現(xiàn)有效果,探索更多的技術(shù)方案可行性。

經(jīng)過(guò)深入探討,我們發(fā)現(xiàn)目前的方案(Triton+TensorRT)確實(shí)可以有效利用GPU,但是也存在一些問(wèn)題。比如很多推薦業(yè)務(wù)場(chǎng)景,算法模型迭代更新頻率高,工程化開(kāi)發(fā)周期無(wú)法滿足頻繁更新的需求。此外,部分推薦模型存在算子不支持的情況,需要手動(dòng)開(kāi)發(fā)TensorRT plugin,短時(shí)間內(nèi)也無(wú)法上線??傮w來(lái)說(shuō),這樣的開(kāi)發(fā)流程通用性不夠好,也較難有效的支持算法持續(xù)迭代。

因此,我們迫切需要實(shí)現(xiàn)一套機(jī)制,既要保證GPU的推理性能,更要具備良好的通用性。經(jīng)過(guò)多次工程化嘗試,我們針對(duì)性提出適合自身的推薦系統(tǒng)推理加速方案,即VIVO自研通用GPU方案。

本方案通過(guò)多進(jìn)程 + MPS + TensorFlow runtime的方式,有效的提高了GPU的使用率,且部分場(chǎng)景無(wú)需轉(zhuǎn)換TensorRT模型。該方案的主要設(shè)計(jì)目標(biāo)是:

多進(jìn)程模型,管理和守護(hù)模型服務(wù)進(jìn)程,有序的更新模型

添加原生TensorFlow中不支持GPU的算子

加載模型時(shí),動(dòng)態(tài)替換原來(lái)的不支持GPU的算子

poYBAGKHQv2AB3yJAABiajyhbFE804.jpg

Figure 4. 自研通用GPU方案示意圖 (圖片來(lái)源于VIVO研究院授權(quán))

此外,考慮到具體工程實(shí)踐中,VIVO算法部門(mén)和工程部門(mén)需要同步開(kāi)發(fā),如何解耦算法工程團(tuán)隊(duì)和推理加速團(tuán)隊(duì)的開(kāi)發(fā)任務(wù),因此推出了可配置的推理引擎服務(wù),加速迭代開(kāi)發(fā)效率。

pYYBAGKHQv6AJKR7AACu12MqDm0472.png

Figure 5. 自研可配置推理引擎示意圖 (圖片來(lái)源于VIVO研究院授權(quán))

方案效果及影響

經(jīng)過(guò)驗(yàn)證,本方案可以有效解決推薦業(yè)務(wù)中GPU通用性問(wèn)題;同時(shí)能更高效的利用GPU。目前已經(jīng)在部分推薦業(yè)務(wù)中落地。經(jīng)過(guò)壓測(cè),VIVO自研通用GPU方案,在TensorRT方案基礎(chǔ)上,取得了更高的QPS和更低的延遲,可節(jié)省成本約75%!

下表詳細(xì)對(duì)比了在相同精排請(qǐng)求:QPS為600,BatchSize為3000時(shí),不同方案的成本。

poYBAGKHQyCAPoPqAAAYisHVhsY125.png

同時(shí),我們測(cè)試了負(fù)一屏信息流推薦場(chǎng)景,結(jié)果同樣表明,無(wú)論是QPS或是推理延遲(測(cè)試選用業(yè)界標(biāo)準(zhǔn)P99/P95指標(biāo)),自研通用GPU方案都優(yōu)于TensorRT方案和CPU方案。

poYBAGKHQyqAaijNAAAeU3sTpq8325.png

展望未來(lái),VIVO推薦系統(tǒng)工程團(tuán)隊(duì)會(huì)繼續(xù)探索新技術(shù),持續(xù)積累 GPU工程經(jīng)驗(yàn),并且沉淀到平臺(tái)中,最終賦能到各個(gè)業(yè)務(wù)線。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11223

    瀏覽量

    223011
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5496

    瀏覽量

    109117
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5102

    瀏覽量

    134485
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA RTX PRO 2000 Blackwell GPU性能測(cè)試

    越來(lái)越多的應(yīng)用正在使用 AI 加速,而無(wú)論工作站的大小或形態(tài)如何,都有越來(lái)越多的用戶需要 AI 性能。NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的頭像 發(fā)表于 11-28 09:39 ?3867次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 Blackwell <b class='flag-5'>GPU</b>性能測(cè)試

    NVIDIA推出NVQLink高速互連架構(gòu)

    NVIDIA 推出 NVIDIA NVQLink,這是一種開(kāi)放式系統(tǒng)架構(gòu),可將 GPU 計(jì)算的極致性能與量子處理器緊密結(jié)合,以構(gòu)建加速的量子
    的頭像 發(fā)表于 11-03 14:53 ?494次閱讀

    FPGA和GPU加速的視覺(jué)SLAM系統(tǒng)中特征檢測(cè)器研究

    Nvidia Jetson Orin與AMD Versal)上最佳GPU加速方案(FAST、Harris、SuperPoint)與對(duì)應(yīng)FPGA加速方案的性能,得出全新結(jié)論。
    的頭像 發(fā)表于 10-31 09:30 ?311次閱讀
    FPGA和<b class='flag-5'>GPU</b><b class='flag-5'>加速</b>的視覺(jué)SLAM<b class='flag-5'>系統(tǒng)</b>中特征檢測(cè)器研究

    OpenAI和NVIDIA宣布達(dá)成合作,部署10吉瓦NVIDIA系統(tǒng)

    此次合作將助力 OpenAI 構(gòu)建和部署至少 10 吉瓦(gigawatt)的 AI 數(shù)據(jù)中心,這些數(shù)據(jù)中心將采用 NVIDIA 系統(tǒng),包含數(shù)百萬(wàn)塊 NVIDIA
    的頭像 發(fā)表于 09-23 14:37 ?1223次閱讀
    OpenAI和<b class='flag-5'>NVIDIA</b>宣布達(dá)成合作,<b class='flag-5'>部署</b>10吉瓦<b class='flag-5'>NVIDIA</b><b class='flag-5'>系統(tǒng)</b>

    Cadence 借助 NVIDIA DGX SuperPOD 模型擴(kuò)展數(shù)字孿生平臺(tái)庫(kù),加速 AI 數(shù)據(jù)中心部署與運(yùn)營(yíng)

    [1]? 利用搭載 DGX GB200 系統(tǒng)NVIDIA DGX SuperPOD[2]?數(shù)字孿生系統(tǒng)實(shí)現(xiàn)了庫(kù)的重大擴(kuò)展 。借助 NVIDIA 高性能
    的頭像 發(fā)表于 09-15 15:19 ?1265次閱讀

    NVIDIA RTX PRO 4500 Blackwell GPU測(cè)試分析

    今天我們帶來(lái)全新 NVIDIA Blackwell 架構(gòu) GPU —— NVIDIA RTX PRO 4500 Blackwell 的測(cè)試,對(duì)比上一代產(chǎn)品 NVIDIA RTX 450
    的頭像 發(fā)表于 08-28 11:02 ?2964次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell <b class='flag-5'>GPU</b>測(cè)試分析

    NVIDIA桌面GPU系列擴(kuò)展新產(chǎn)品

    NVIDIA 桌面 GPU 系列擴(kuò)展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell
    的頭像 發(fā)表于 08-18 11:50 ?1017次閱讀

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開(kāi)源庫(kù),可幫助開(kāi)發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?1773次閱讀

    使用NVIDIA RTX PRO Blackwell系列GPU加速AI開(kāi)發(fā)

    NVIDIA GTC 推出新一代專業(yè)級(jí) GPU 和 AI 賦能的開(kāi)發(fā)者工具—同時(shí),ChatRTX 更新現(xiàn)已支持 NVIDIA NIM,RTX Remix 正式結(jié)束測(cè)試階段,本月的 NVIDIA
    的頭像 發(fā)表于 03-28 09:59 ?1084次閱讀

    Cognizant將與NVIDIA合作部署神經(jīng)人工智能平臺(tái),加速企業(yè)人工智能應(yīng)用

    -Cognizant將與NVIDIA合作部署神經(jīng)人工智能平臺(tái),加速企業(yè)人工智能應(yīng)用 Cognizant將在關(guān)鍵增長(zhǎng)領(lǐng)域提供解決方案,包括企業(yè)級(jí)AI智能體、定制化行業(yè)大型語(yǔ)言模型及搭載NVIDI
    的頭像 發(fā)表于 03-26 14:42 ?583次閱讀
    Cognizant將與<b class='flag-5'>NVIDIA</b>合作<b class='flag-5'>部署</b>神經(jīng)人工智能平臺(tái),<b class='flag-5'>加速</b>企業(yè)人工智能應(yīng)用

    英偉達(dá)GTC2025亮點(diǎn):NVIDIA認(rèn)證計(jì)劃擴(kuò)展至企業(yè)存儲(chǔ)領(lǐng)域,加速AI工廠部署

    全新的存儲(chǔ)認(rèn)證和參考架構(gòu)讓企業(yè) IT 部門(mén)能更輕松地選擇和部署 AI 基礎(chǔ)設(shè)施,實(shí)現(xiàn)最優(yōu)的性能和能效。 AI 部署的成功依靠速度、數(shù)據(jù)和規(guī)模。因此,NVIDIA 正在擴(kuò)展 NVIDIA
    的頭像 發(fā)表于 03-21 19:38 ?1723次閱讀

    利用NVIDIA DPF引領(lǐng)DPU加速云計(jì)算的未來(lái)

    越來(lái)越多的企業(yè)開(kāi)始采用加速計(jì)算,從而滿足生成式 AI、5G 電信和主權(quán)云的需求。NVIDIA 推出了 DOCA 平臺(tái)框架(DPF),該框架提供了基礎(chǔ)構(gòu)建模塊來(lái)釋放 NVIDIA BlueField
    的頭像 發(fā)表于 01-24 09:29 ?1293次閱讀
    利用<b class='flag-5'>NVIDIA</b> DPF引領(lǐng)DPU<b class='flag-5'>加速</b>云計(jì)算的未來(lái)

    NVIDIA和GeForce RTX GPU專為AI時(shí)代打造

    NVIDIA 和 GeForce RTX GPU 專為 AI 時(shí)代打造。
    的頭像 發(fā)表于 01-06 10:45 ?1270次閱讀

    借助NVIDIA GPU提升魯班系統(tǒng)CAE軟件計(jì)算效率

    本案例中魯班系統(tǒng)高性能 CAE 軟件利用 NVIDIA 高性能 GPU,實(shí)現(xiàn)復(fù)雜產(chǎn)品的快速仿真,加速產(chǎn)品開(kāi)發(fā)和設(shè)計(jì)迭代,縮短開(kāi)發(fā)周期,提升產(chǎn)品競(jìng)爭(zhēng)力。
    的頭像 發(fā)表于 12-27 16:24 ?1168次閱讀

    《CST Studio Suite 2024 GPU加速計(jì)算指南》

    的各個(gè)方面,包括硬件支持、操作系統(tǒng)支持、許可證、GPU計(jì)算的啟用、NVIDIA和AMD GPU的詳細(xì)信息以及相關(guān)的使用指南和故障排除等內(nèi)容。 1. 硬件支持 -
    發(fā)表于 12-16 14:25