chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于TensorFlow的阿里巴巴本地生活推薦系統(tǒng)

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-11 17:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

案例簡介

本案例中,阿里巴巴本地生活場景中,部署了大量使用 TensorFlow深度學習推薦模型,這些模型需要對每個用戶附近的數(shù)千家商戶和產品進行排名,對用戶響應時間和業(yè)務吞吐量(QPS)要求極高。為了滿足這樣的要求 GPU 落地使用是必然,但由于 TensorFlow 目前對 GPU 使用采用單一 steam 方式,并且逐個調用 GPU 算子的過程中存在大量的 GPU kernel 啟動開銷, 因此如何在這些系統(tǒng)中充分發(fā)揮 GPU 計算能力則需要探索。

阿里巴巴本地生活推薦系統(tǒng)結合 NVIDIA CUDA Graphs 對 GPU 進行算力釋放優(yōu)化,讓推理過程單機吞吐增長 110%,耗時 P99 下降 66.7%。

本案例主要應用到 NVIDIA V100 Tensor Core GPU 和 NVIDA CUDA Graphs。

客戶簡介及應用背景

阿里巴巴集團旗下的阿里巴巴本地生活服務公司,是由餓了么和口碑會師合并組成國內領先的本地生活服務平臺,使命是“重新定義城市生活,讓生活更美好?!笨诒畬W⒌降晗M服務,餓了么專注到家生活服務,蜂鳥即配專注即時配送服務,客如云專注為商家提供數(shù)字化升級的產品和服務,共同推動本地生活市場的數(shù)字化,讓天下沒有難做的生意。

阿里巴巴本地生活服務公司智能推薦系統(tǒng)基于智能AI系統(tǒng)對用戶所在區(qū)域萬級商戶商品進行實時智能推薦和服務。實時智能推薦伴隨著深度學習技術的發(fā)展,為了追求智能推薦的準確度,推薦模型朝著兩個維度快速發(fā)展:1. 更寬更深的網(wǎng)絡,更復雜的特征增強方式。2. 更多的不同維度的特征。這對在線推理階段的實時性能和算力提出了更高的挑戰(zhàn)。伴隨著搜索推薦模型的在 GPU 的廣泛落地使用,GPU 在各個場景下的算力優(yōu)化也被廣泛關注。

在線 Inference 過程中,由于考慮到存儲 cache 的友好性,會把計算密集型算子和其周邊的數(shù)據(jù)變換算子都在 GPU 中執(zhí)行,算子數(shù)量的增長會導致嚴重的 kernel 啟動開銷,主要原因是:1. 大量小 kernel 的執(zhí)行

2. TensorFlow 的調度機制使得通過大量的線程啟動 kernel 到同一個 stream 中;多個線程競爭同個資源加劇 launch 開銷。

客戶挑戰(zhàn)

在阿里巴巴本地生活推薦搜索場景中,有大量的深度學習模型在用戶和商戶,用戶和商品匹配場景中使用,但是總體來看 GPU-Utilization 并不高,GPU 使用成本顯得比較高。隨著模型復雜度不斷攀升(Inference 計算達到 10~20 GFLOPS),算法同學的收益產出一定程度上和模型復雜度成正比關系。目前搜推廣的模型設計中部分子結構設計和變換很多,但是基本范式如下:

Feature Generation -》 Embedding -》 Attention/Transformer -》 MLP

綠色部分基本屬于計算密集型部分,但是在搜推廣場景中,這部分算子不但包含對于算力需求旺盛的深度網(wǎng)絡相關算子,也包含數(shù)據(jù)合并,數(shù)據(jù)變換等輕量級計算算子,這類算子的特點是:運算時長通常很短(1-10 微秒),而且這一類輕量級計算算子的數(shù)量伴隨著 Transformer 的落地,數(shù)量占比逐步增高。

我們從另一個角度來量化這一過程輕量級計算算子的數(shù)量占比,GPU 的繁忙情況通常來說有兩個指標:

1. GPU-Utilization,表示 GPU 在單位時間內在執(zhí)行 kernel 的時間片比例。

2. SM Activity,表示 GPU 中 SM 在單位時間內用于執(zhí)行 kernel 的 SM 使用比例*時間片比例。

我們可以看到在推薦搜索模型線上 Inference 過程中 SM Activity 通常遠遠低于 GPU-Utilization,這表示 GPU 雖然在忙碌,但是由于輕量級計算算子的數(shù)量占比較高,SM 使用比例使用比例不高,GPU 的實際 “工作量” 并不大。

輕量級計算算子的比例高會導致該部分算子在 CPU 上調度過程中 kernel launch 的執(zhí)行時長遠遠大于算子在 GPU 上的執(zhí)行時長,這個現(xiàn)象會導致嚴重的 kernel launch bound 現(xiàn)象。

pYYBAGJT9cOAWBKFAAAsG_KhnbY467.png

應用方案

基于以上挑戰(zhàn),阿里巴巴本地生活搜索推薦模型選擇了 NVIDIA 提供的 AI 加速方案:CUDA Graphs。

1、首先,我們根據(jù)業(yè)務場景的具體問題,使用 NVIDIA Nsight Systems 進行問題定位和分析。我們利用 NVIDIA Nsight Systems 集成到線上 Inference 環(huán)境中,獲取了真實環(huán)境下 Inference 過程的 GPU Profing 文件。通過 Profing 文件,我們可以清晰的看到 Inference 過程中,kernel launch bound 現(xiàn)象異常嚴重,符合我們的分析預想(如下圖)。

poYBAGJT9cuAPLIxAAClZF52Kso979.png

2、后續(xù),我們采用集成 CUDA Graphs 進行模型 Inference 過程優(yōu)化,理論上 CUDA Graphs 會大幅緩解 kernel launch bound 現(xiàn)象,因為 CUDA Graphs 會合并 N 個 kernel 獨立的 launch 操作,變?yōu)?1 個 graph launch 操作,這樣 kernel launch 不再是整個推理的瓶頸(如下圖)。

poYBAGJT9dGACNttAACPZanBkeY752.png

使用效果及影響

經(jīng)過集成 NVIDIA Nsight System 進行 GPU 使用情況查看和細節(jié)問題的診斷,我們充分了解和分析了業(yè)務中對 GPU 的使用情況的 kernel 執(zhí)行流程。對性能進一步優(yōu)化起到了指導作用。后續(xù)集成 CUDA Graphs 后,符合預期效果。推薦深度學習模型在 Inference 過程中的耗時 P99 下降 66%,單機吞吐提升 110%。讓用戶在毫無感知的時間范圍內完成了模型算力達到 10 GFLOPS 的 Inference 過程,用戶體驗得到了極大的提升。

在使用 NVIDIA Nsight Systems 進行 GPU 瓶頸分析過程中,文檔查閱和使用教程很方便上手,集成過程也較為方便,指標介紹很豐富,快速完成 GPU 使用情況分析。后續(xù) CUDA Graphs 使用過程中,相關文檔也比較完善,包括圖的切割和分裝,算子 Capture 標準等。

本次優(yōu)化過程,團隊內部積累了一套較為完善的 GPU 優(yōu)化手段和優(yōu)化方法理論,后續(xù)遇到其他模型性能問題時也有的放矢。多場景進行優(yōu)化后,對整個 GPU。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5444

    瀏覽量

    108570
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5050

    瀏覽量

    134012
  • AI
    AI
    +關注

    關注

    88

    文章

    37210

    瀏覽量

    291754
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    博世與阿里巴巴集團深化戰(zhàn)略合作

    9月2日,全球領先的汽車技術與服務商博世與阿里巴巴集團宣布深化戰(zhàn)略合作伙伴關系,以先進的云計算與人工智能技術加速推動企業(yè)數(shù)字化轉型。雙方將重點聚焦云端驅動的企業(yè)運營、AI賦能的業(yè)務創(chuàng)新,以及電商領域的拓展。
    的頭像 發(fā)表于 09-02 16:09 ?368次閱讀

    阿里2025財年業(yè)績:凈利潤大漲77%,AI+云業(yè)務攬下千億收入

    。 ? 圖:阿里巴巴2025財年年報 ? 阿里巴巴的業(yè)務包括淘天集團、阿里國際數(shù)字商業(yè)集團、云智能集團、菜鳥集團、本地生活集團、虎鯨文娛集團
    的頭像 發(fā)表于 06-28 00:10 ?7213次閱讀
    <b class='flag-5'>阿里</b>2025財年業(yè)績:凈利潤大漲77%,AI+云業(yè)務攬下千億收入

    普華基礎軟件蒞臨阿里巴巴達摩院調研交流

    近日, 普華基礎軟件股份有限公司(以下簡稱普華基礎軟件)董事、總經(jīng)理劉宏倩一行前往阿里巴巴達摩院(杭州)科技有限公司(以下簡稱達摩院)調研交流,阿里巴巴集團高層及達摩院核心團隊參與了本次調研交流活動
    的頭像 發(fā)表于 04-08 10:10 ?857次閱讀

    阿里云爆發(fā)式的跨越

    蘋果最終選擇了阿里巴巴作為它們在中國的本地化合作伙伴! 2月13日,在迪拜舉辦的World Governments Summit 2025峰會上,阿里巴巴董事局主席蔡崇信自豪地宣布了這則消息。 他還
    的頭像 發(fā)表于 03-12 16:54 ?557次閱讀
    <b class='flag-5'>阿里</b>云爆發(fā)式的跨越

    Arm與阿里巴巴合作加速端側多模態(tài)AI體驗

    Arm 控股有限公司(納斯達克股票代碼:ARM,以下簡稱“Arm”)近日發(fā)布與阿里巴巴淘天集團輕量級深度學習框架 MNN 的又一新合作。
    的頭像 發(fā)表于 03-10 09:07 ?927次閱讀

    谷景阿里巴巴國際站正式上線

    在行業(yè)發(fā)展的關鍵節(jié)點,谷景電子取得了重大突破,谷景阿里巴巴國際站正式上線!此次上線聚焦電感領域,旨在為全球客戶提供更較大好的電感產品與服務,也標志著谷景電感業(yè)務在國際化道路上邁出了關鍵一步。
    的頭像 發(fā)表于 02-26 09:44 ?654次閱讀

    蘋果與阿里巴巴或合作開發(fā)中國iPhone AI功能

    據(jù)最新報道,蘋果公司正與阿里巴巴集團商討合作,計劃為中國iPhone用戶量身打造一系列AI功能。這一舉措被視為蘋果應對中國市場銷售下滑挑戰(zhàn)的重要策略,旨在通過提供更加貼合本土需求的軟件功能,吸引并留住中國用戶。
    的頭像 發(fā)表于 02-13 15:18 ?782次閱讀

    阿里巴巴否認投資DeepSeek傳聞

    近日,市場流傳出一則消息,稱阿里巴巴計劃向人工智能企業(yè)DeepSeek投資10億美元,意在獲取該公司10%的股份,并考慮將阿里云作為其首要推理算力平臺。此消息一出,立即引起了市場的廣泛關注和熱議
    的頭像 發(fā)表于 02-10 09:10 ?787次閱讀

    阿里巴巴否認投資DeepSeek

    近日,有傳聞稱阿里巴巴計劃以100億美元的估值,投資10億美元認購中國AI初創(chuàng)企業(yè)DeepSeek的10%股權。然而,阿里高管顏喬迅速對此進行了否認,他表示:“同為中國杭州企業(yè),我們?yōu)镈eepSeek的成就鼓掌,但外界流傳的阿里
    的頭像 發(fā)表于 02-08 16:47 ?861次閱讀

    阿里否認投資DeepSeek傳聞

    近日,有關阿里巴巴投資AI大模型DeepSeek的傳聞在市場上流傳甚廣。然而,阿里巴巴方面迅速對此進行了澄清,明確表示并未投資DeepSeek。 據(jù)阿里相關人士透露,雖然阿里巴巴與De
    的頭像 發(fā)表于 02-08 09:30 ?723次閱讀

    阿里巴巴出售高鑫零售股權,聚焦核心業(yè)務

    近日,阿里巴巴集團正式對外發(fā)布公告,宣布其子公司及New Retail與德弘資本達成了一項重要協(xié)議。根據(jù)該協(xié)議,阿里巴巴將出售其所持有的高鑫零售全部股權,這些股權合計占高鑫零售已發(fā)行股份總數(shù)的約
    的頭像 發(fā)表于 01-02 10:54 ?631次閱讀

    阿里巴巴74億出售銀泰百貨予雅戈爾

    近日,電子商務巨頭阿里巴巴集團宣布了一項重大決策,決定將旗下銀泰百貨的全部股權轉讓給由雅戈爾集團與銀泰管理團隊聯(lián)合組成的財團。這一消息引起了業(yè)界的廣泛關注。 據(jù)悉,此次交易涉及的金額高達74億元
    的頭像 發(fā)表于 12-18 10:04 ?619次閱讀

    阿里巴巴將在美國推出AI電商工具PIC COPILOT

    近日,中國電商巨頭阿里巴巴集團即將在美國市場推出一款全新的人工智能電子商務工具,命名為“PIC COPILOT”。這一消息引起了業(yè)界的廣泛關注與期待。 據(jù)悉,PIC COPILOT是阿里巴巴
    的頭像 發(fā)表于 12-06 10:52 ?1292次閱讀

    阿里巴巴整合電商資源,成立全新電商事業(yè)群

    近日,阿里巴巴集團迎來了一項重大組織調整。集團CEO吳泳銘通過內部郵件正式宣布,將整合國內和海外電商業(yè)務,成立全新的電商事業(yè)群。這一決策標志著阿里巴巴在電商領域的一次重要戰(zhàn)略部署。 據(jù)悉,新的電商事
    的頭像 發(fā)表于 11-22 10:51 ?667次閱讀

    阿里巴巴國際站首推全流程AI產品

    近日,阿里巴巴國際站正式推出了其首個全流程AI產品——AI生意助手2.0。這一創(chuàng)新產品的問世,標志著阿里巴巴在助力中小企業(yè)外貿經(jīng)營方面邁出了重要一步。
    的頭像 發(fā)表于 10-30 16:12 ?1072次閱讀