chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

美團(tuán)落實(shí) AI 框架在 GPU 上性能推理的優(yōu)化實(shí)踐

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2021-12-28 09:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

美團(tuán)是一家集生活服務(wù)及商品零售的電商平臺(tái),公司聚焦“零售+科技”戰(zhàn)略,以“吃”為核心,通過(guò)科技創(chuàng)新,服務(wù)于生活服務(wù)業(yè)需求側(cè)和供給側(cè)數(shù)字化升級(jí)。美團(tuán)在中國(guó)業(yè)務(wù)涵蓋餐飲、配送、網(wǎng)約車(chē)、共享單車(chē)、酒店及旅游預(yù)訂、電影票務(wù)等 200 多個(gè)服務(wù)品類(lèi),覆蓋全國(guó) 2800 個(gè)市區(qū)縣,服務(wù) 6.7 億活躍用戶(hù)和 830萬(wàn)活躍商家。

伴隨著用戶(hù)規(guī)模的提升和業(yè)務(wù)的精細(xì)化運(yùn)營(yíng),業(yè)務(wù)側(cè)對(duì)推薦系統(tǒng)的準(zhǔn)確度、吞吐能力和時(shí)延都提出了新的挑戰(zhàn),而 CTR 模型作為推薦系統(tǒng)的核心模型,其效果直接影響業(yè)務(wù)的收入。

美團(tuán)的 CTR 模型過(guò)去一直在使用 CPU 推理的方式,但隨著用戶(hù)訪問(wèn)量的提升和深度神經(jīng)網(wǎng)絡(luò)的引入,CTR 模型結(jié)構(gòu)趨于復(fù)雜,吞吐和計(jì)算量也越來(lái)越大,CPU 開(kāi)始不能滿(mǎn)足模型對(duì)于算力的需求,而僅僅通過(guò) CPU 服務(wù)器的堆疊帶來(lái)的性能提升性?xún)r(jià)比相較偏低。

GPU 擁有數(shù)以千計(jì)的計(jì)算核心,可以在單機(jī)內(nèi)提供密集的并行計(jì)算能力,特別適合深度學(xué)習(xí)場(chǎng)景,在行業(yè)內(nèi)已經(jīng)在 CV 、NLP 等領(lǐng)域展示了強(qiáng)大的能力。通過(guò) CUDA 及相關(guān) API ,NVIDIA 建立了完整的 GPU 生態(tài)系統(tǒng)?;诖?,美團(tuán)基礎(chǔ)研發(fā)平臺(tái)將 CTR 模型部署到 GPU 上,并通過(guò)一系列針對(duì) CPU 與 GPU 的異構(gòu)系統(tǒng)并行計(jì)算設(shè)計(jì)、數(shù)據(jù)存儲(chǔ)方式和傳輸方式上的特定優(yōu)化,希望能通過(guò) GPU 強(qiáng)大的計(jì)算力,協(xié)助美團(tuán)在 CTR 預(yù)測(cè)的各業(yè)務(wù)場(chǎng)景中發(fā)揮出最大優(yōu)勢(shì)。

為了解決算力瓶頸及上述各種挑戰(zhàn),美團(tuán)機(jī)器學(xué)習(xí)平臺(tái)采用 NVIDIA AI 計(jì)算平臺(tái),在繼 CV 、NLP 及 CTR 訓(xùn)練后,也使用了 NVIDIA T4 來(lái)提供 CTR 預(yù)測(cè)支持,大幅提升用戶(hù)體驗(yàn)與服務(wù)穩(wěn)定性。除此之外,時(shí)延也是業(yè)務(wù)側(cè)非常重視的性能指標(biāo),許多復(fù)雜模型縱有更好的準(zhǔn)確度,但卻因響應(yīng)時(shí)間不達(dá)標(biāo)而無(wú)法落地應(yīng)用,例如,在某搜索框自動(dòng)補(bǔ)全的場(chǎng)景,由于天然的交互屬性,時(shí)延要求非??量蹋话銇?lái)說(shuō)無(wú)法使用復(fù)雜的模型。而在 GPU 能力的加持下,其復(fù)雜模型的平均響應(yīng)時(shí)間從 15 毫秒降低至 6~7 毫秒,足足縮短了一倍多,達(dá)到了上線要求。

通過(guò) NVIDIA T4 深度優(yōu)化方案,成功為美團(tuán) CTR 模型創(chuàng)造更多應(yīng)用機(jī)會(huì),不僅極大地提升了系統(tǒng)吞吐量,更進(jìn)一步地提升了整個(gè)模型訓(xùn)練的速度與降低訓(xùn)練成本,落實(shí) AI 框架在 GPU 上性能推理的優(yōu)化實(shí)踐。

美團(tuán)研發(fā)工程師,機(jī)器學(xué)習(xí)平臺(tái)預(yù)測(cè)引擎負(fù)責(zé)人王新表示,“在美團(tuán)和英偉達(dá)的共同努力下, CTR 預(yù)測(cè)服務(wù)成功的遷移到 GPU 平臺(tái)上,在為業(yè)務(wù)提供更好的支撐的同時(shí)也獲得了更好的性?xún)r(jià)比;下一步,機(jī)器學(xué)習(xí)平臺(tái)計(jì)劃采用 NVIDIA Triton 推理服務(wù)框架和 NVIDIA Ampere A30 ,進(jìn)一步提升美團(tuán)推理服務(wù)的效率?!?/p>

原文標(biāo)題:美團(tuán)機(jī)器學(xué)習(xí)平臺(tái)使用 NVIDIA GPU 助力公司 CTR 預(yù)測(cè)服務(wù)升級(jí)

文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

審核編輯:彭菁
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11255

    瀏覽量

    223923
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5570

    瀏覽量

    109393
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39144

    瀏覽量

    299810
  • 美團(tuán)
    +關(guān)注

    關(guān)注

    0

    文章

    125

    瀏覽量

    11018

原文標(biāo)題:美團(tuán)機(jī)器學(xué)習(xí)平臺(tái)使用 NVIDIA GPU 助力公司 CTR 預(yù)測(cè)服務(wù)升級(jí)

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    YOLO5目標(biāo)檢測(cè)方案-基于米爾RK3576開(kāi)發(fā)板

    與調(diào)優(yōu)提供了一套完整的思路與實(shí)踐方案。 PART 01 系統(tǒng)架構(gòu)與性能目標(biāo) 1.1 硬件平臺(tái) 主控芯片:Rockchip RK3576(四核A72+四核A53,6TOPS NPU,RGA,GPU
    發(fā)表于 01-22 19:21

    瑞芯微SOC智能視覺(jué)AI處理器

    RK3568B2: 一款性能均衡、接口豐富的中高端AIoT應(yīng)用處理器,是RK3568的優(yōu)化版本,主打穩(wěn)定與可靠性。CPU/GPU: 延續(xù)RK3568的4核A55 + G52 GPU架構(gòu)
    發(fā)表于 12-19 13:44

    AI推理需求爆發(fā)!高通首秀重磅產(chǎn)品,國(guó)產(chǎn)GPU的自主牌怎么打?

    10月29日,在安博會(huì)的2025智能算力應(yīng)用及產(chǎn)業(yè)發(fā)展論壇,超聚變數(shù)字技術(shù)有限公司深圳解決方案總監(jiān)丁元釗表示,原來(lái)我們預(yù)計(jì)2026年是AI推理爆發(fā)元年,2025年DeepSeek-R1,V3模型
    的頭像 發(fā)表于 10-30 00:46 ?1.4w次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>需求爆發(fā)!高通首秀重磅產(chǎn)品,國(guó)產(chǎn)<b class='flag-5'>GPU</b>的自主牌怎么打?

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的推理性能瓶頸。為實(shí)現(xiàn)這一目標(biāo),其構(gòu)建了多維度的核心實(shí)現(xiàn)路徑:一
    的頭像 發(fā)表于 10-21 11:04 ?1018次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的科學(xué)應(yīng)用

    主要步驟: ①溯因②假說(shuō)③實(shí)驗(yàn) 1、科學(xué)推理的類(lèi)型 ①演繹②歸納 2、自動(dòng)化科學(xué)發(fā)現(xiàn)框架 AI-笛卡兒-----自動(dòng)化科學(xué)發(fā)現(xiàn)框架,利用數(shù)據(jù)和知識(shí)來(lái)生成和評(píng)估候選的科學(xué)假說(shuō)。 4項(xiàng)規(guī)
    發(fā)表于 09-17 11:45

    基于米爾瑞芯微RK3576開(kāi)發(fā)板部署運(yùn)行TinyMaix:超輕量級(jí)推理框架

    本文將介紹基于米爾電子MYD-LR3576開(kāi)發(fā)平臺(tái)部署超輕量級(jí)推理框架方案:TinyMaix 摘自?xún)?yōu)秀創(chuàng)作者-短笛君 TinyMaix 是面向單片機(jī)的超輕量級(jí)的神經(jīng)網(wǎng)絡(luò)推理庫(kù),即 TinyML
    發(fā)表于 07-25 16:35

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    、DDoS攻擊跡象、性能劣化趨勢(shì)。l 智能推送優(yōu)化建議(如流量調(diào)度策略調(diào)整、安全規(guī)則預(yù)加載),將風(fēng)險(xiǎn)扼殺在萌芽狀態(tài)。 方案價(jià)值:AI推理引擎帶來(lái)的運(yùn)維變革 信而泰融合DeepSeek
    發(fā)表于 07-16 15:29

    提升AI訓(xùn)練性能GPU資源優(yōu)化的12個(gè)實(shí)戰(zhàn)技巧

    在人工智能與機(jī)器學(xué)習(xí)技術(shù)迅速發(fā)展的背景下,GPU計(jì)算資源的高效利用已成為關(guān)鍵技術(shù)指標(biāo)。優(yōu)化GPU資源分配不僅能顯著提升模型訓(xùn)練速度,還能實(shí)現(xiàn)計(jì)算成本的有效控制。根據(jù)AI基礎(chǔ)設(shè)施聯(lián)盟2
    的頭像 發(fā)表于 05-06 11:17 ?1447次閱讀
    提升<b class='flag-5'>AI</b>訓(xùn)練<b class='flag-5'>性能</b>:<b class='flag-5'>GPU</b>資源<b class='flag-5'>優(yōu)化</b>的12個(gè)實(shí)戰(zhàn)技巧

    RK3588核心板在邊緣AI計(jì)算中的顛覆性?xún)?yōu)勢(shì)與場(chǎng)景落地

    推理任務(wù),需額外部署GPU加速卡,導(dǎo)致成本與功耗飆升。 擴(kuò)展性受限:老舊接口(如USB 2.0、百兆網(wǎng)口)無(wú)法支持5G模組、高速存儲(chǔ)等現(xiàn)代外設(shè),升級(jí)困難。 開(kāi)發(fā)周期長(zhǎng):BSP適配不完善,跨平臺(tái)AI
    發(fā)表于 04-15 10:48

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開(kāi)源庫(kù)加速并擴(kuò)展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時(shí)降低了擴(kuò)展測(cè)試時(shí)計(jì)算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 推理優(yōu)化
    的頭像 發(fā)表于 03-20 15:03 ?1150次閱讀

    摩爾線程GPU原生FP8計(jì)算助力AI訓(xùn)練

    近日,摩爾線程正式開(kāi)源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過(guò)深度融合FP8混合訓(xùn)練策略和高性能算子庫(kù),這兩大框架在國(guó)產(chǎn)全功能
    的頭像 發(fā)表于 03-17 17:05 ?1414次閱讀
    摩爾線程<b class='flag-5'>GPU</b>原生FP8計(jì)算助力<b class='flag-5'>AI</b>訓(xùn)練

    無(wú)法在GPU運(yùn)行ONNX模型的Benchmark_app怎么解決?

    在 CPU 和 GPU 運(yùn)行OpenVINO? 2023.0 Benchmark_app推斷的 ONNX 模型。 在 CPU 推理成功,但在
    發(fā)表于 03-06 08:02

    無(wú)法調(diào)用GPU插件推理的遠(yuǎn)程張量API怎么解決?

    運(yùn)行了使用 GPU 插件的遠(yuǎn)程張量 API 的推理。但是,它未能共享 OpenCL* 內(nèi)存,但結(jié)果不正確。
    發(fā)表于 03-06 06:13

    AI推理帶火的ASIC,開(kāi)發(fā)成敗在此一舉!

    的應(yīng)用性?xún)r(jià)比遠(yuǎn)超GPU,加上博通財(cái)報(bào)AI業(yè)務(wù)同比大增220%,掀起了AI推理端的ASIC熱潮。 ? 那么ASIC跟傳統(tǒng)的GPU有哪些區(qū)別,開(kāi)
    的頭像 發(fā)表于 03-03 00:13 ?4559次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>帶火的ASIC,開(kāi)發(fā)成敗在此一舉!

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬(wàn)美元。
    的頭像 發(fā)表于 02-08 09:59 ?1588次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺(tái)提高<b class='flag-5'>AI</b><b class='flag-5'>推理性能</b>