chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Merlin 助力陌陌推薦業(yè)務(wù)實(shí)現(xiàn)高性能訓(xùn)練優(yōu)化

NVIDIA英偉達(dá) ? 來(lái)源:未知 ? 2023-11-09 10:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

通過(guò) Merlin 大幅提升大規(guī)模深度多目標(biāo)精排模型訓(xùn)練性能

本案例中,NVIDIA 團(tuán)隊(duì)與陌陌推薦系統(tǒng)團(tuán)隊(duì)深度合作,共同使用 NVIDIA GPU Merlin 軟件解決方案替代其原有解決方案。

通過(guò)使用 Merlin TensorFlow Plugin (即 Sparse Operation Kit,SOK) 和 HierarchicalKV(HKV),相較于原方案在相同規(guī)模模型和 GPU 下,顯著提高了陌陌大規(guī)模深度多目標(biāo)精排模型的訓(xùn)練性能。在不影響模型效果的前提下,模型整體吞吐提升了 5 倍以上,再結(jié)合通信和 IO 等進(jìn)一步優(yōu)化后,極限情況下可以提升 12 倍吞吐。

客戶簡(jiǎn)介

摯文集團(tuán)于 2011 年成立,2014 年 12 月 11 日在美國(guó)納斯達(dá)克交易所掛牌上市(NASDAQ: MOMO),擁有陌陌、探探等多款手機(jī)應(yīng)用,以及電影制作發(fā)行、節(jié)目制作等多元業(yè)務(wù)。陌陌是摯文集團(tuán)于 2011 年 8 月推出的一款基于地理位置的移動(dòng)視頻社交應(yīng)用,是中國(guó)領(lǐng)先的開(kāi)放式社交平臺(tái)之一。

訓(xùn)練速度面臨挑戰(zhàn),

需有效提升算法迭代

陌陌的原始解決方案本質(zhì)是基于 PS-Worker 的 CPU + GPU 混合訓(xùn)練方案,可支持大規(guī)模稀疏參數(shù)的訓(xùn)練。然而,隨著用戶規(guī)模的增加和業(yè)務(wù)的發(fā)展,對(duì)于推薦算法的準(zhǔn)確度也有了更高的要求。這導(dǎo)致模型的復(fù)雜性和訓(xùn)練樣本量顯著增加,對(duì)單次模型訓(xùn)練速度和新模型算法探索效率都有更大的挑戰(zhàn)。盡管原方案在功能上支持了大規(guī)模稀疏參數(shù)的訓(xùn)練,但在性能上難以滿足業(yè)務(wù)日益增長(zhǎng)的需求。因此,陌陌亟需對(duì)訓(xùn)練速度進(jìn)行優(yōu)化,加快算法迭代,以提高業(yè)務(wù)效果。

SOK 和 HKV

為推薦系統(tǒng)提升性能與靈活性

NVIDIA Merlin HugeCTR 是 NVIDIA 推出的可以高效利用 GPU 來(lái)進(jìn)行推薦系統(tǒng)訓(xùn)練的解決方案,為了使它能直接被其他 DL 用戶,比如 TensorFlow 所直接使用,NVIDIA 開(kāi)發(fā)了 Merlin TensorFlow Plugin (以下簡(jiǎn)稱 SOK),將 HugeCTR 中的高級(jí)特性封裝為 TensorFlow 可直接調(diào)用的形式,從而幫助用戶在 TensorFlow 中直接使用 HugeCTR 中的高級(jí)特性來(lái)加速他們的推薦系統(tǒng)。

wKgZomVMSOCAaFAxAAB8kg4r-to254.jpg

圖 1. Merlin TensorFlow Plugin(SOK)模型并行示意圖

Merlin TensorFlow Plugin 以數(shù)據(jù)并行的方式接收輸入數(shù)據(jù),將稀疏參數(shù)以模型并行的方式分布在多個(gè) GPU 上,將稠密參數(shù)以數(shù)據(jù)并行的方式分布在多個(gè) GPU 上,內(nèi)部實(shí)現(xiàn)“數(shù)據(jù)并行-模型并行-數(shù)據(jù)并行”的轉(zhuǎn)換流程。整個(gè)使用方式上盡可能的與原有 TensorFlow 算子對(duì)齊,減少對(duì)用戶已有的代碼的修改,以更方便、快捷地在多個(gè) GPU 上進(jìn)行擴(kuò)展。此外,SOK 針對(duì) embedding vector 的拷貝和 combiner 進(jìn)行了高度優(yōu)化和內(nèi)核融合,使整個(gè) lookup 的前后向過(guò)程擁有更好的性能。

Merlin HierarchicalKV (以下簡(jiǎn)稱HKV)是 Merlin 下的針對(duì)于推薦系統(tǒng)訓(xùn)練設(shè)計(jì)的 KV 加速庫(kù)。為兼容大模型訓(xùn)練支持了層次化動(dòng)態(tài) Embedding 存儲(chǔ)(CPU+GPU),靈活的 eviction(淘汰) 機(jī)制和豐富的 API。目前已經(jīng)集成入 SOK, 協(xié)同加速推薦系統(tǒng) Embedding 的相關(guān)計(jì)算。

在應(yīng)用了 SOK 和 HKV 后,相同規(guī)模模型和 GPU 下,陌陌精排模型的訓(xùn)練性能相比于原方案,整體吞吐提升了 5 倍以上。除此之外,陌陌推薦團(tuán)隊(duì)在當(dāng)前 SOK + HKV 的架構(gòu)基礎(chǔ)上,基于業(yè)務(wù)場(chǎng)景特點(diǎn),進(jìn)一步優(yōu)化整體性能,包括梯度合并,減少梯度計(jì)算的通信開(kāi)銷;并行特征數(shù)據(jù)讀取與轉(zhuǎn)換,以及特征數(shù)據(jù)預(yù)取到 GPU 等操作提速特征 IO;使用 XLA 進(jìn)行編譯優(yōu)化,融合 kernel 以減少 kernel launch 時(shí)間;設(shè)置 GPU 親和等操作,使得整體性能提升達(dá)到 12 倍。

wKgZomVMSOCASRl0AABRC-I4vSg388.jpg

圖 2. 性能加速效果

在陌陌的實(shí)際應(yīng)用中,動(dòng)態(tài) Embedding 的特性大大簡(jiǎn)化了推薦系統(tǒng)中連續(xù)訓(xùn)練需人工控制顯存中 embedding tab 大小的問(wèn)題。而 SOK 與 HKV 為陌陌提供了完整的功能和性能支持。

除此之外,我們跟陌陌的合作過(guò)程中,也結(jié)合產(chǎn)品部署中的需求進(jìn)一步對(duì)產(chǎn)品進(jìn)行了性能優(yōu)化和功能迭代,比如:

SOK 針對(duì) embedding vector 的拷貝和 combiner 進(jìn)行了高度優(yōu)化和 kernel 融合,使整個(gè) lookup 的前后向過(guò)程擁有更好的性能。

在陌陌 GPU 高水位線的實(shí)際業(yè)務(wù)中,基于陌陌的測(cè)試和反饋,SOK 通過(guò)優(yōu)化了性能和功能的平衡點(diǎn),使得其在保證性能的基礎(chǔ)上,穩(wěn)定性也大大提升。

另外,在陌陌的實(shí)際應(yīng)用中,面臨著模型實(shí)時(shí)訓(xùn)練的挑戰(zhàn),即需要減少對(duì)計(jì)算資源的占用,因此我們引入了 HKV,它支持了層次化動(dòng)態(tài)嵌入存儲(chǔ)(包括 CPU 和 GPU),并提供了靈活的 eviction 機(jī)制以及豐富的 API。這種引入在降低資源占用的同時(shí),也提高了系統(tǒng)的靈活性。

陌陌的實(shí)際業(yè)務(wù)場(chǎng)景和 GPU 使用方式對(duì)于 SOK 的開(kāi)發(fā)和迭代提供了非常寶貴的經(jīng)驗(yàn),同時(shí)陌陌的大量測(cè)試反饋也幫助 SOK 提升了應(yīng)對(duì)復(fù)雜場(chǎng)景的能力,使得 SOK 的 feature 更加穩(wěn)定和貼近客戶。

持續(xù)合作:

優(yōu)化推薦模型性能,降低訓(xùn)練成本

雙方團(tuán)隊(duì)通過(guò) SOK 和 HKV 對(duì)原方案進(jìn)行深度優(yōu)化后,成功幫助陌陌提升了 12 倍的訓(xùn)練效率,極大的降低了模型訓(xùn)練的成本和新模型算法嘗試的成本。目前,整體方案已上線,全面支持陌陌推薦系統(tǒng)模型訓(xùn)練。

近期,NVIDIA 團(tuán)隊(duì)還與陌陌進(jìn)行了基于 Transformer 的推薦模型性能優(yōu)化。NVIDIA JOC 團(tuán)隊(duì)和 Merlin 團(tuán)隊(duì)基于客戶的模型做了一系列性能分析,將 XLA+AMP+半精度 allreduce 應(yīng)用到該模型上后,端到端性能實(shí)現(xiàn)了 50% 的加速。在此基礎(chǔ)上,團(tuán)隊(duì)們進(jìn)一步對(duì)性能熱點(diǎn) multi-head-attention 部分進(jìn)行優(yōu)化,正在將 Flash-Attention 以 tf-plugin 形式進(jìn)行集成,預(yù)計(jì)此項(xiàng)優(yōu)化集成后,整體加速比可達(dá)到 3 倍,同時(shí)整體的優(yōu)化方案使得顯存使用量下降約 70%,可以顯著地緩解顯存緊張的問(wèn)題。

未來(lái),陌陌與 NVIDIA 將繼續(xù)在推薦系統(tǒng)訓(xùn)練和推理等方面持續(xù)合作,持續(xù)推進(jìn) GPU 和 AI 軟件加速計(jì)算在陌陌的全面落地,期待能夠?yàn)槟澳暗臉I(yè)務(wù)及場(chǎng)景應(yīng)用帶來(lái)更大的價(jià)值。

了解更多本案例中相關(guān)的 NVIDIA 產(chǎn)品信息,敬請(qǐng)查閱:

  • NVIDIA Merlin:

    https://developer.nvidia.cn/merlin

  • Merlin TensorFlow Plugin (SOK) :

    https://github.com/NVIDIA-Merlin/HugeCTR/tree/main/sparse_operation_kit

  • Merlin HierarchicalKV (HKV):

    https://github.com/NVIDIA-Merlin/HierarchicalKV

GTC 2024 將于 2024 年 3 月 18 至 21 日在美國(guó)加州圣何塞會(huì)議中心舉行,線上大會(huì)也將同期開(kāi)放。點(diǎn)擊“閱讀原文”掃描下方海報(bào)二維碼,立即注冊(cè) GTC 大會(huì)


原文標(biāo)題:NVIDIA Merlin 助力陌陌推薦業(yè)務(wù)實(shí)現(xiàn)高性能訓(xùn)練優(yōu)化

文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    23

    文章

    4045

    瀏覽量

    97718

原文標(biāo)題:NVIDIA Merlin 助力陌陌推薦業(yè)務(wù)實(shí)現(xiàn)高性能訓(xùn)練優(yōu)化

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用NVIDIA Nemotron RAG和Microsoft SQL Server 2025構(gòu)建高性能AI應(yīng)用

    搜索和調(diào)用外部 AI 模型的 SQL 原生 API。NVIDIA 與微軟共同將 SQL Server 2025 與 NVIDIA Nemotron RAG 開(kāi)放模型集合無(wú)縫連接,這使您能夠在云端或本地環(huán)境中基于自己的數(shù)據(jù)構(gòu)建高性能
    的頭像 發(fā)表于 12-01 09:31 ?388次閱讀
    使用<b class='flag-5'>NVIDIA</b> Nemotron RAG和Microsoft SQL Server 2025構(gòu)建<b class='flag-5'>高性能</b>AI應(yīng)用

    NVIDIA Spectrum-X 以太網(wǎng)交換機(jī)助力 Meta 和 Oracle 加速網(wǎng)絡(luò)性能

    超大規(guī)模企業(yè)廣泛采用 NVIDIA 網(wǎng)絡(luò)解決方案,驅(qū)動(dòng)十億瓦級(jí)(Giga-Scale)高性能 AI 數(shù)據(jù)中心 Meta 推出基于 NVIDIA Spectrum 以太網(wǎng)的交換機(jī),用于
    的頭像 發(fā)表于 10-14 10:26 ?1460次閱讀
    <b class='flag-5'>NVIDIA</b> Spectrum-X 以太網(wǎng)交換機(jī)<b class='flag-5'>助力</b> Meta 和 Oracle 加速網(wǎng)絡(luò)<b class='flag-5'>性能</b>

    NVIDIA Isaac Lab多GPU多節(jié)點(diǎn)訓(xùn)練指南

    NVIDIA Isaac Lab 是一個(gè)適用于機(jī)器人學(xué)習(xí)的開(kāi)源統(tǒng)一框架,基于 NVIDIA Isaac Sim 開(kāi)發(fā),其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,可提供各種物理 AI 功能和由 GPU 驅(qū)動(dòng)的物理仿真,縮小仿真與現(xiàn)實(shí)世
    的頭像 發(fā)表于 09-23 17:15 ?2014次閱讀
    <b class='flag-5'>NVIDIA</b> Isaac Lab多GPU多節(jié)點(diǎn)<b class='flag-5'>訓(xùn)練</b>指南

    睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級(jí)

    租戶環(huán)境提供推理服務(wù),需實(shí)現(xiàn)性能隔離與穩(wěn)定擴(kuò)展。面對(duì)這一技術(shù)浪潮,深圳市睿海光電科技有限公司(簡(jiǎn)稱“睿海光電”)憑借其創(chuàng)新的800G光模塊解決方案,以交付速度比同行快2-3天的硬核實(shí)力、廣泛兼容性及全球
    發(fā)表于 08-13 19:01

    奇異摩爾田晨榮獲中國(guó)半導(dǎo)體行業(yè)領(lǐng)軍人物獎(jiǎng)

    實(shí)力與發(fā)展成果。奇異摩爾創(chuàng)始人兼 CEO 田晨憑借在AI網(wǎng)絡(luò)互聯(lián)領(lǐng)域的創(chuàng)新成就,榮膺 “領(lǐng)軍人物獎(jiǎng)”。
    的頭像 發(fā)表于 07-08 17:04 ?1476次閱讀

    高性能計(jì)算面臨的芯片挑戰(zhàn)

    高性能計(jì)算(簡(jiǎn)稱HPC)聽(tīng)起來(lái)像是科學(xué)家在秘密實(shí)驗(yàn)室里才會(huì)用到的東西,但它實(shí)際上是當(dāng)今世界上最重要的技術(shù)之一。從預(yù)測(cè)天氣到研發(fā)新藥,甚至訓(xùn)練人工智能,高性能計(jì)算系統(tǒng)都能幫助解決普通計(jì)算機(jī)無(wú)法
    的頭像 發(fā)表于 05-27 11:08 ?830次閱讀
    <b class='flag-5'>高性能</b>計(jì)算面臨的芯片挑戰(zhàn)

    快手上線鴻蒙應(yīng)用高性能解決方案:數(shù)據(jù)反序列化性能提升90%

    普通對(duì)象(如 JSON 數(shù)據(jù))與類實(shí)例進(jìn)行互轉(zhuǎn),是實(shí)現(xiàn)面向?qū)ο缶幊膛c數(shù)據(jù)序列化解耦的核心工具。隨著業(yè)務(wù)復(fù)雜度的提升,該庫(kù)在反序列化過(guò)程中逐漸暴露出性能瓶頸,影響用戶核心體驗(yàn)。因此
    發(fā)表于 05-15 10:01

    NVIDIA助力解決量子計(jì)算領(lǐng)域重大挑戰(zhàn)

    NVIDIA 加速量子研究中心提供了強(qiáng)大的工具,助力解決量子計(jì)算領(lǐng)域的重大挑戰(zhàn)。
    的頭像 發(fā)表于 03-27 09:17 ?1009次閱讀

    NVIDIA 推出開(kāi)放推理 AI 模型系列,助力開(kāi)發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺(tái)

    NVIDIA訓(xùn)練的全新 Llama Nemotron 推理模型,為代理式 AI 提供業(yè)務(wù)就緒型基礎(chǔ) 埃森哲、Amdocs、Atlassian、Box、Cadence、CrowdStrike
    發(fā)表于 03-19 09:31 ?336次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開(kāi)放推理 AI 模型系列,<b class='flag-5'>助力</b>開(kāi)發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺(tái)

    EVASH推出高性能Ultra EEPROM芯片,助力智能設(shè)備創(chuàng)新

    EVASH推出高性能Ultra EEPROM芯片,助力智能設(shè)備創(chuàng)新
    的頭像 發(fā)表于 03-09 15:30 ?931次閱讀

    國(guó)產(chǎn)高性能晶振兼容SiTime助力智能網(wǎng)聯(lián)汽車關(guān)鍵技術(shù)

    國(guó)產(chǎn)高性能晶振兼容SiTime助力智能網(wǎng)聯(lián)汽車關(guān)鍵技術(shù)
    的頭像 發(fā)表于 02-20 10:26 ?903次閱讀
    國(guó)產(chǎn)<b class='flag-5'>高性能</b>晶振兼容SiTime<b class='flag-5'>助力</b>智能網(wǎng)聯(lián)汽車關(guān)鍵技術(shù)

    Supermicro高性能服務(wù)器量產(chǎn)供貨,優(yōu)化多重工作負(fù)載

    Supermicro, Inc.近日宣布其搭載Intel Xeon 6900系列性能核架構(gòu)處理器的高性能服務(wù)器已開(kāi)始量產(chǎn)供貨。 這一系列服務(wù)器采用了多種升級(jí)后的創(chuàng)新技術(shù),并結(jié)合了新型優(yōu)化架構(gòu),專為
    的頭像 發(fā)表于 01-21 11:00 ?769次閱讀

    鴻蒙原生頁(yè)面高性能解決方案上線OpenHarmony社區(qū) 助力打造高性能原生應(yīng)用

    高性能鴻蒙原生應(yīng)用。 Nodepool:優(yōu)化頁(yè)面滑動(dòng)流暢性Nodepool旨在解決應(yīng)用頁(yè)面滑動(dòng)卡頓問(wèn)題。開(kāi)發(fā)中,相似頁(yè)面因業(yè)務(wù)和代碼差異,組件復(fù)用性差,引發(fā)卡頓、丟幀,影響用戶體驗(yàn)。Nodepool通過(guò)
    發(fā)表于 01-02 18:00

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一個(gè)專為優(yōu)化大語(yǔ)言模型 (LLM) 推理而設(shè)計(jì)的庫(kù)。它提供了多種先進(jìn)的優(yōu)化技術(shù),包括自定義 Attention Kernel、Inflight
    的頭像 發(fā)表于 12-17 17:47 ?1619次閱讀

    怎么做電子元器件的銷售啊,不知道如何去地推拜,有沒(méi)有師哥能幫我解答一下,跪謝~

    在成都賣一些TVS管、MOS管、PHY芯片等,也是剛做這行的銷售,大學(xué)學(xué)的物聯(lián)網(wǎng)嵌入式,今年的畢業(yè)生,不清楚如何去做地推拜,求大佬指點(diǎn)一下小弟
    發(fā)表于 12-17 09:40