chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用NVIDIA GPU助力美團(tuán)CTR預(yù)測(cè)服務(wù)升級(jí)

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:NVIDIA ? 2022-04-13 15:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

案例簡(jiǎn)介

本案例中美團(tuán)機(jī)器學(xué)習(xí)平臺(tái)使用 NVIDIA GPU 支持其多方面優(yōu)化策略,從而提高吞吐能力及降低響應(yīng)延遲。通過(guò)算子融合、計(jì)算圖等價(jià)替換等一系列優(yōu)化 ,相較于 CPU 在相同成本約束下,NVIDIA T4 GPU 大幅加速美團(tuán) CTR(Click-Through-Rate)模型預(yù)測(cè)性能,神經(jīng)網(wǎng)絡(luò)模型吞吐能力提升了 10 倍;同時(shí)在搜索精排場(chǎng)景中,端到端整體吞吐能力提升了一倍以上,助力美團(tuán) CTR 向新一代服務(wù)升級(jí)。

? 本案例為 NVIDIA GPU 推理加速互聯(lián)網(wǎng)行業(yè) CTR 模型的典型應(yīng)用

? 本案例主要應(yīng)用到 T4 GPU 和 NVIDIA 各 SDK 以及 CUDA 加速手段

客戶(hù)簡(jiǎn)介及應(yīng)用背景

美團(tuán)是一家集生活服務(wù)及商品零售的電商平臺(tái),公司聚焦“零售+科技”戰(zhàn)略,以“吃”為核心,通過(guò)科技創(chuàng)新,服務(wù)于生活服務(wù)業(yè)需求側(cè)和供給側(cè)數(shù)字化升級(jí)。美團(tuán)在中國(guó)業(yè)務(wù)涵蓋餐飲、配送、網(wǎng)約車(chē)、共享單車(chē)、酒店及旅游預(yù)訂、電影票務(wù)等 200 多個(gè)服務(wù)品類(lèi),覆蓋全國(guó) 2800 個(gè)市區(qū)縣,服務(wù) 6.7 億活躍用戶(hù)和 830 萬(wàn)活躍商家。

伴隨著用戶(hù)規(guī)模的提升和業(yè)務(wù)的精細(xì)化運(yùn)營(yíng),業(yè)務(wù)側(cè)對(duì)推薦系統(tǒng)的準(zhǔn)確度、吞吐能力和時(shí)延都提出了新的挑戰(zhàn),而 CTR 模型作為推薦系統(tǒng)的核心模型,其效果直接影響業(yè)務(wù)的收入。

客戶(hù)挑戰(zhàn)

美團(tuán)的 CTR 模型過(guò)去一直在使用 CPU 推理的方式,但隨著用戶(hù)訪問(wèn)量的提升和深度神經(jīng)網(wǎng)絡(luò)的引入,CTR 模型結(jié)構(gòu)趨于復(fù)雜,吞吐和計(jì)算量也越來(lái)越大,CPU 開(kāi)始不能滿足模型對(duì)于算力的需求,而僅僅通過(guò) CPU 服務(wù)器的堆疊帶來(lái)的性能提升性?xún)r(jià)比相較偏低。

而 GPU 擁有數(shù)以千計(jì)的計(jì)算核心,可以在單機(jī)內(nèi)提供密集的并行計(jì)算能力,特別適合深度學(xué)習(xí)場(chǎng)景,在行業(yè)內(nèi)已經(jīng)在 CV、NLP 等領(lǐng)域展示了強(qiáng)大的能力。通過(guò) CUDA 及相關(guān) API,NVIDIA建立了完整的 GPU 生態(tài)系統(tǒng)。基于此,美團(tuán)基礎(chǔ)研發(fā)平臺(tái)將 CTR 模型部署到 GPU 上,并通過(guò)一系列針對(duì) CPU 與 GPU 的異構(gòu)系統(tǒng)并行計(jì)算設(shè)計(jì)、數(shù)據(jù)存儲(chǔ)方式和傳輸方式上的特定優(yōu)化,希望能通過(guò) GPU 強(qiáng)大的計(jì)算力,協(xié)助美團(tuán)在 CTR 預(yù)測(cè)的各業(yè)務(wù)場(chǎng)景中發(fā)揮出最大優(yōu)勢(shì)。

應(yīng)用方案

為了解決算力瓶頸及上述各種挑戰(zhàn),美團(tuán)機(jī)器學(xué)習(xí)平臺(tái)采用 NVIDIA AI 計(jì)算平臺(tái),在繼 CV、NLP 及 CTR 訓(xùn)練后,也使用了 NVIDIA T4來(lái)提供 CTR 預(yù)測(cè)支持,大幅提升用戶(hù)體驗(yàn)與服務(wù)穩(wěn)定性。除此之外,時(shí)延也是業(yè)務(wù)側(cè)非常重視的性能指標(biāo),許多復(fù)雜模型縱有更好的準(zhǔn)確度,但卻因響應(yīng)時(shí)間不達(dá)標(biāo)而無(wú)法落地應(yīng)用,例如,在某搜索框自動(dòng)補(bǔ)全的場(chǎng)景,由于天然的交互屬性,時(shí)延要求非??量蹋话銇?lái)說(shuō)無(wú)法使用復(fù)雜的模型。而在 GPU 能力的加持下,其復(fù)雜模型的平均響應(yīng)時(shí)間從 15 毫秒降低至 6~7 毫秒,足足縮短了一倍多,達(dá)到了上線要求。

使用效果及影響

通過(guò) NVIDIA T4 深度優(yōu)化方案,成功為美團(tuán) CTR 模型創(chuàng)造更多應(yīng)用機(jī)會(huì),不僅極大地提升了系統(tǒng)吞吐量,更進(jìn)一步地提升了整個(gè)模型訓(xùn)練的速度與降低訓(xùn)練成本,落實(shí) AI 框架在 GPU上性能推理的優(yōu)化實(shí)踐。

“在美團(tuán)和英偉達(dá)的共同努力下,我們將 CTR 預(yù)測(cè)服務(wù)成功的遷移到 GPU 平臺(tái)上,在為業(yè)務(wù)提供更好的支撐的同時(shí)也獲得了更好的性?xún)r(jià)比;下一步,機(jī)器學(xué)習(xí)平臺(tái)計(jì)劃采用 NVIDIA Triton 推理服務(wù)框架和 NVIDIA Ampere A30,進(jìn)一步提升美團(tuán)推理服務(wù)的效率?!?/p>

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5570

    瀏覽量

    109384
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5152

    瀏覽量

    134749
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39117

    瀏覽量

    299699
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA RTX PRO 5000 Blackwell GPU的深度評(píng)測(cè)

    NVIDIA RTX PRO 5000 Blackwell 是 NVIDIA RTX 5000 Ada Generation 的升級(jí)迭代產(chǎn)品,其各項(xiàng)核心指標(biāo)均針對(duì) GPU 加速工作流的
    的頭像 發(fā)表于 01-06 09:51 ?901次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 Blackwell <b class='flag-5'>GPU</b>的深度評(píng)測(cè)

    NVIDIA RTX PRO 4000 Blackwell GPU性能測(cè)試

    Generation 的全面超越。那么,這款劃時(shí)代的專(zhuān)業(yè) GPU 在真實(shí)應(yīng)用場(chǎng)景中的表現(xiàn)究竟如何?今天,我們將通過(guò)深度實(shí)測(cè),為您揭曉 NVIDIA RTX PRO 4000 Blackwell 相較于前代產(chǎn)品的性能躍遷。
    的頭像 發(fā)表于 12-29 15:30 ?735次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4000 Blackwell <b class='flag-5'>GPU</b>性能測(cè)試

    禾賽科技與團(tuán)無(wú)人機(jī)達(dá)成戰(zhàn)略合作

    2025 年 12 月 19 日,全球激光雷達(dá)領(lǐng)導(dǎo)者禾賽科技(NASDAQ: HSAI;HKEX: 2525)宣布與團(tuán)無(wú)人機(jī)達(dá)成戰(zhàn)略合作,禾賽第二代純固態(tài)感知定位激光雷達(dá) FTX 正式獲得
    的頭像 發(fā)表于 12-29 14:14 ?2097次閱讀

    NVIDIA RTX PRO 5000 72GB Blackwell GPU現(xiàn)已全面上市

    NVIDIA RTX PRO 5000 72GB Blackwell GPU 現(xiàn)已全面上市,將基于 NVIDIA Blackwell 架構(gòu)的強(qiáng)大代理式與生成式 AI 能力帶到更多桌面和專(zhuān)業(yè)用戶(hù)手中。
    的頭像 發(fā)表于 12-24 10:32 ?633次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 72GB Blackwell <b class='flag-5'>GPU</b>現(xiàn)已全面上市

    在Python中借助NVIDIA CUDA Tile簡(jiǎn)化GPU編程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 編程模式。它是自 CUDA 發(fā)明以來(lái) GPU 編程最核心的更新之一。借助 GPU tile kernels,可以用
    的頭像 發(fā)表于 12-13 10:12 ?985次閱讀
    在Python中借助<b class='flag-5'>NVIDIA</b> CUDA Tile簡(jiǎn)化<b class='flag-5'>GPU</b>編程

    NVIDIA RTX PRO 2000 Blackwell GPU性能測(cè)試

    越來(lái)越多的應(yīng)用正在使用 AI 加速,而無(wú)論工作站的大小或形態(tài)如何,都有越來(lái)越多的用戶(hù)需要 AI 性能。NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的頭像 發(fā)表于 11-28 09:39 ?5592次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 Blackwell <b class='flag-5'>GPU</b>性能測(cè)試

    NVIDIA Isaac Lab多GPU多節(jié)點(diǎn)訓(xùn)練指南

    NVIDIA Isaac Lab 是一個(gè)適用于機(jī)器人學(xué)習(xí)的開(kāi)源統(tǒng)一框架,基于 NVIDIA Isaac Sim 開(kāi)發(fā),其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,可提供各種物理 AI 功能和由 GPU 驅(qū)動(dòng)的物理仿真,縮小仿真與現(xiàn)實(shí)世
    的頭像 發(fā)表于 09-23 17:15 ?2240次閱讀
    <b class='flag-5'>NVIDIA</b> Isaac Lab多<b class='flag-5'>GPU</b>多節(jié)點(diǎn)訓(xùn)練指南

    NVIDIA RTX PRO 4500 Blackwell GPU測(cè)試分析

    今天我們帶來(lái)全新 NVIDIA Blackwell 架構(gòu) GPU —— NVIDIA RTX PRO 4500 Blackwell 的測(cè)試,對(duì)比上一代產(chǎn)品 NVIDIA RTX 450
    的頭像 發(fā)表于 08-28 11:02 ?3686次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell <b class='flag-5'>GPU</b>測(cè)試分析

    NVIDIA桌面GPU系列擴(kuò)展新產(chǎn)品

    NVIDIA 桌面 GPU 系列擴(kuò)展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell
    的頭像 發(fā)表于 08-18 11:50 ?1262次閱讀

    睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級(jí)

    器件敏捷調(diào)配。 定制化服務(wù):支持OEM/ODM/JDM模式,滿足客戶(hù)從標(biāo)準(zhǔn)品到液冷模塊的多元化需求。 這一優(yōu)勢(shì)已助力多家頭部云服務(wù)商在AI云平臺(tái)部署中搶占市場(chǎng)窗口期。 三、廣泛兼容性:平滑升級(jí)
    發(fā)表于 08-13 19:01

    光耦的CTR是什么?

    晶體管輸出型光耦的性能,取決于其輸入?yún)?shù)、輸出參數(shù)和傳輸特性,傳輸特性決定著其電性能傳送能力和特點(diǎn)。其中最重要的參數(shù)為電流傳輸比(Currenttransferratio)CTR,設(shè)計(jì)電路時(shí),除了
    的頭像 發(fā)表于 06-13 14:32 ?905次閱讀
    光耦的<b class='flag-5'>CTR</b>是什么?

    Altair One? 云端門(mén)戶(hù)與 NVIDIA Omniverse 實(shí)時(shí)數(shù)字孿生藍(lán)圖完成全面整合

    正式宣布其?Altair One?云端門(mén)戶(hù)與?NVIDIA Omniverse 實(shí)時(shí)數(shù)字孿生藍(lán)圖實(shí)現(xiàn)技術(shù)融合。通過(guò)整合?GPU 加速、NVIDIA NIM 微服務(wù)與?Omniverse
    的頭像 發(fā)表于 04-02 14:01 ?585次閱讀

    使用NVIDIA RTX PRO Blackwell系列GPU加速AI開(kāi)發(fā)

    NVIDIA GTC 推出新一代專(zhuān)業(yè)級(jí) GPU 和 AI 賦能的開(kāi)發(fā)者工具—同時(shí),ChatRTX 更新現(xiàn)已支持 NVIDIA NIM,RTX Remix 正式結(jié)束測(cè)試階段,本月的 NVIDIA
    的頭像 發(fā)表于 03-28 09:59 ?1203次閱讀

    NVIDIA助力解決量子計(jì)算領(lǐng)域重大挑戰(zhàn)

    NVIDIA 加速量子研究中心提供了強(qiáng)大的工具,助力解決量子計(jì)算領(lǐng)域的重大挑戰(zhàn)。
    的頭像 發(fā)表于 03-27 09:17 ?1154次閱讀

    NVIDIA GPU助力科研人員探索外星世界

    NVIDIA GPU 驅(qū)動(dòng)的深度學(xué)習(xí)在短短幾秒內(nèi)解讀出了卡西尼號(hào)土星探測(cè)器多年來(lái)收集的海量數(shù)據(jù),為科研人員探索外星世界提供了更加智能的方式。
    的頭像 發(fā)表于 02-27 10:37 ?932次閱讀