chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA GPU助力騰訊PCG加速無量推薦系統(tǒng)

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-13 14:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

案例簡介

? 本案例中通過使用 NVIDIA GPU 加速平臺,騰訊平臺與內(nèi)容事業(yè)群(PCG)深度學習平臺實現(xiàn)了”無量推薦系統(tǒng)”模型訓練到在線推理的全流程GPU加速,整體效能性價比提升1~3倍。

? 本案例主要應用到 NVIDIA A100 Tensor Core GPU以及相關(guān)軟件的加速平臺。

客戶簡介及應用背景

無量推薦系統(tǒng)承載著騰訊平臺與內(nèi)容事業(yè)群的推薦場景, 包括: 騰訊看點(瀏覽器,QQ看點,商業(yè)化),騰訊新聞,騰訊視頻, 騰訊音樂,閱文,應用寶,小鵝拼拼等。無量推薦系統(tǒng)支持日活躍用戶達數(shù)億級別, 其中的模型數(shù)量達數(shù)千個,日均調(diào)用服務達到千億級別。

無量推薦系統(tǒng)在模型訓練和推理都能夠進行海量Embedding和DNN模型的GPU計算, 是目前業(yè)界領(lǐng)先的體系結(jié)構(gòu)設計。

客戶挑戰(zhàn)

傳統(tǒng)推薦系統(tǒng)具有以下特點: 訓練是基于參數(shù)服務器的框架,解決海量數(shù)據(jù)和稀疏特征的分布式訓練問題。推理通常分離大規(guī)模Embedding和DNN,只能進行DNN的GPU加速。

所以,傳統(tǒng)的推薦系統(tǒng)架構(gòu)也具有局限性:

大規(guī)模分布式架構(gòu)有大量的額外開銷,比如參數(shù)和梯度的網(wǎng)絡收發(fā)。

隨著DNN模型復雜性的的進一步提升,CPU的計算速度開始捉襟見肘。

隨著業(yè)務的快速增長,日活用戶增多,對其調(diào)用數(shù)量快速增加,給推薦系統(tǒng)后臺帶來了新的挑戰(zhàn):

1, 模型更加復雜,計算量更大,但是參數(shù)服務器的分布式架構(gòu)有效計算比很低。

2, 海量Embedding因為規(guī)模龐大,查詢和聚合計算難以有效利用GPU高性能顯存和算力的優(yōu)勢。

應用方案

基于以上的挑戰(zhàn), 騰訊選擇使用基于NVIDIA A100 Tensor Core GPU的分布式系統(tǒng)架構(gòu)來創(chuàng)建無量推薦系統(tǒng)。

1, 通過多級存儲和Pipeline優(yōu)化,在HPC上完成大規(guī)模推薦模型的GPU的高性能訓練。

2, 基于特征訪問Power-law分布的特性,GPU緩存高頻特征參數(shù),同時從CPU中動態(tài)獲取低頻特征參數(shù),實現(xiàn)了大規(guī)模推薦模型完整的GPU端到端模型推理。

使用效果及影響

騰訊平臺與內(nèi)容事業(yè)群有多種類型的推薦業(yè)務場景。比如信息流推薦的QQ瀏覽器、QQ看點,新聞推薦的騰訊新聞,視頻推薦的騰訊視頻、微視,App推薦的應用寶,以及騰訊音樂的音樂推薦和閱文集團的文學推薦。

無量推薦系統(tǒng)承載了這些推薦業(yè)務場景的模型訓練和推理服務?;趥鹘y(tǒng)的推薦系統(tǒng)架構(gòu),無量使用大量CPU資源,通過分布式架構(gòu)可以擴展到TB級模型的訓練和部署,取得了巨大的成功。

隨著業(yè)務的快速增長,日活用戶增多,對其調(diào)用數(shù)量快速增加,傳統(tǒng)架構(gòu)局限性限制了推薦系統(tǒng)的架構(gòu)擴展和性能提升。

通過使用GPU訓練和推理,單機多卡的GPU算力可以達到數(shù)十臺CPU機器的算力,節(jié)省了大量的額外分布式開銷。通過充分利用A100 GPU高性能顯存快速訪問Embedding,以及并行算力處理DNN推理,單張A100 GPU可以在相同的延遲下推理10倍于CPU的打分樣本。

目前基于GPU的推薦架構(gòu)可以提升模型訓練和推理性價比1~3倍。

展望未來,無量推薦系統(tǒng)將不斷優(yōu)化推薦模型在GPU上的應用,利用HPC多機多卡,混合精度等能力,進一步提高推薦場景使用GPU的性價比。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5444

    瀏覽量

    108598
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5050

    瀏覽量

    134028
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    OpenAI和NVIDIA宣布達成合作,部署10吉瓦NVIDIA系統(tǒng)

    此次合作將助力 OpenAI 構(gòu)建和部署至少 10 吉瓦(gigawatt)的 AI 數(shù)據(jù)中心,這些數(shù)據(jù)中心將采用 NVIDIA 系統(tǒng),包含數(shù)百萬塊 NVIDIA
    的頭像 發(fā)表于 09-23 14:37 ?1070次閱讀
    OpenAI和<b class='flag-5'>NVIDIA</b>宣布達成合作,部署10吉瓦<b class='flag-5'>NVIDIA</b><b class='flag-5'>系統(tǒng)</b>

    NVIDIA RTX PRO 4500 Blackwell GPU測試分析

    今天我們帶來全新 NVIDIA Blackwell 架構(gòu) GPU —— NVIDIA RTX PRO 4500 Blackwell 的測試,對比上一代產(chǎn)品 NVIDIA RTX 450
    的頭像 發(fā)表于 08-28 11:02 ?2241次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell <b class='flag-5'>GPU</b>測試分析

    NVIDIA桌面GPU系列擴展新產(chǎn)品

    NVIDIA 桌面 GPU 系列擴展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell
    的頭像 發(fā)表于 08-18 11:50 ?789次閱讀

    NVIDIA技術(shù)助力歐洲廠商推出機器人系統(tǒng)與平臺

    基于 NVIDIA 安全的全棧機器人開發(fā)平臺,Agile?Robots、Humanoid、Neura?Robotics、Universal Robots、Vorwerk?和?Wandelbots 等公司推出 NVIDIA 加速
    的頭像 發(fā)表于 06-16 13:54 ?1019次閱讀

    使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)

    NVIDIA GTC 推出新一代專業(yè)級 GPU 和 AI 賦能的開發(fā)者工具—同時,ChatRTX 更新現(xiàn)已支持 NVIDIA NIM,RTX Remix 正式結(jié)束測試階段,本月的 NVIDIA
    的頭像 發(fā)表于 03-28 09:59 ?909次閱讀

    NVIDIA助力解決量子計算領(lǐng)域重大挑戰(zhàn)

    NVIDIA 加速量子研究中心提供了強大的工具,助力解決量子計算領(lǐng)域的重大挑戰(zhàn)。
    的頭像 發(fā)表于 03-27 09:17 ?874次閱讀

    NVIDIA加速的Apache Spark助力企業(yè)節(jié)省大量成本

    隨著 NVIDIA 推出 Aether 項目,通過采用 NVIDIA 加速的 Apache Spark 企業(yè)得以自動加速其數(shù)據(jù)中心規(guī)模的分析工作負載,從而節(jié)省數(shù)百萬美元。
    的頭像 發(fā)表于 03-25 15:09 ?797次閱讀
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>加速</b>的Apache Spark<b class='flag-5'>助力</b>企業(yè)節(jié)省大量成本

    Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速計算和推理軟件與 Oracle 的 AI 基礎(chǔ)設施以及生成式 AI 服務首次實現(xiàn)集成,以幫助全球企業(yè)組織加速創(chuàng)建代理式
    發(fā)表于 03-19 15:24 ?442次閱讀
    Oracle 與 <b class='flag-5'>NVIDIA</b> 合作<b class='flag-5'>助力</b>企業(yè)<b class='flag-5'>加速</b>代理式 AI 推理

    NVIDIA GPU助力科研人員探索外星世界

    NVIDIA GPU 驅(qū)動的深度學習在短短幾秒內(nèi)解讀出了卡西尼號土星探測器多年來收集的海量數(shù)據(jù),為科研人員探索外星世界提供了更加智能的方式。
    的頭像 發(fā)表于 02-27 10:37 ?752次閱讀

    利用NVIDIA DPF引領(lǐng)DPU加速云計算的未來

    越來越多的企業(yè)開始采用加速計算,從而滿足生成式 AI、5G 電信和主權(quán)云的需求。NVIDIA 推出了 DOCA 平臺框架(DPF),該框架提供了基礎(chǔ)構(gòu)建模塊來釋放 NVIDIA BlueField
    的頭像 發(fā)表于 01-24 09:29 ?1104次閱讀
    利用<b class='flag-5'>NVIDIA</b> DPF引領(lǐng)DPU<b class='flag-5'>加速</b>云計算的未來

    NVIDIA助力FinCatch開發(fā)智能投資輔助系統(tǒng)

    本案例中通過 NVIDIA GPU 和 RAPIDS 加速平臺,F(xiàn)inCatch 實現(xiàn)了投資研究流程的全面智能化,提升數(shù)據(jù)分析速度和準確性,幫助投資者快速獲取可操作的投資洞察。
    的頭像 發(fā)表于 01-07 09:23 ?700次閱讀

    NVIDIA和GeForce RTX GPU專為AI時代打造

    NVIDIA 和 GeForce RTX GPU 專為 AI 時代打造。
    的頭像 發(fā)表于 01-06 10:45 ?1111次閱讀

    借助NVIDIA GPU提升魯班系統(tǒng)CAE軟件計算效率

    本案例中魯班系統(tǒng)高性能 CAE 軟件利用 NVIDIA 高性能 GPU,實現(xiàn)復雜產(chǎn)品的快速仿真,加速產(chǎn)品開發(fā)和設計迭代,縮短開發(fā)周期,提升產(chǎn)品競爭力。
    的頭像 發(fā)表于 12-27 16:24 ?1036次閱讀

    《CST Studio Suite 2024 GPU加速計算指南》

    的各個方面,包括硬件支持、操作系統(tǒng)支持、許可證、GPU計算的啟用、NVIDIA和AMD GPU的詳細信息以及相關(guān)的使用指南和故障排除等內(nèi)容。 1. 硬件支持 -
    發(fā)表于 12-16 14:25

    AMD與NVIDIA GPU優(yōu)缺點

    在圖形處理單元(GPU)市場,AMD和NVIDIA是兩大主要的競爭者,它們各自推出的產(chǎn)品在性能、功耗、價格等方面都有著不同的特點和優(yōu)勢。 一、性能 GPU的性能是用戶最關(guān)心的指標之一。在高端市場
    的頭像 發(fā)表于 10-27 11:15 ?4784次閱讀