chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

京東零售廣告創(chuàng)意:引入場域目標(biāo)的創(chuàng)意圖片生成

京東云 ? 來源:京東零售 馮偉 ? 作者:京東零售 馮偉 ? 2025-03-18 14:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:京東零售 馮偉

wKgZO2fZC_yAc6vuAAKQTjIphLI530.png

WWW2025: CTR-Driven Advertising Image Generation with Multimodal Large Language Models

論文鏈接:https://arxiv.org/pdf/2502.06823?

代碼鏈接:https://github.com/Chenguoz/CAIG?

摘要:在電商平臺中,廣告圖片對于吸引用戶注意力和提高廣告效果至關(guān)重要。大多數(shù)現(xiàn)有的方法在為商品生成背景時主要關(guān)注美學(xué)質(zhì)量,這可能無法實現(xiàn)令人滿意的在線表現(xiàn)。為了解決這一局限性,我們探索使用多模態(tài)大型語言模型(MLLMs)來生成廣告圖片,并將優(yōu)化點擊率(CTR)作為主要目標(biāo)。首先,我們構(gòu)建了針對性的預(yù)訓(xùn)練任務(wù),并利用大規(guī)模的電商多模態(tài)數(shù)據(jù)集,為MLLMs提供廣告圖片生成任務(wù)的初始能力。為了進(jìn)一步提高生成圖片的CTR,我們提出了一種新穎的獎勵模型,通過強(qiáng)化學(xué)習(xí)(RL)對預(yù)訓(xùn)練的MLLMs進(jìn)行微調(diào),該模型能夠聯(lián)合利用多模態(tài)特征并準(zhǔn)確反映用戶的點擊偏好。同時,我們開發(fā)了一種以商品為中心的偏好優(yōu)化策略,以確保微調(diào)后生成的背景內(nèi)容與商品特征一致,從而增強(qiáng)廣告圖片的整體相關(guān)性和效果。大量實驗表明,我們的方法在在線和離線指標(biāo)上均達(dá)到了最先進(jìn)的性能。

?

一、背景及現(xiàn)狀

隨著圖像生成技術(shù)的發(fā)展,為商品生成和諧且逼真的背景成為可能。然而,大多數(shù)現(xiàn)有的廣告圖像生成方法主要關(guān)注離線指標(biāo),如圖像質(zhì)量或語義一致性,而沒有充分考慮視覺內(nèi)容與場域目標(biāo)(如點擊率)之間的重要聯(lián)系。這導(dǎo)致生成的廣告圖像與符合實際用戶偏好的理想圖像之間存在顯著差異。

受最近RLHF方法的啟發(fā),我們可以訓(xùn)練一個獎勵模型(RM),再使用強(qiáng)化學(xué)習(xí)(RL)算法來微調(diào)生成模型,由RM提供獎勵以指導(dǎo)優(yōu)化過程。這個流程的一個關(guān)鍵方面是RM能夠準(zhǔn)確反映用戶對圖像的點擊偏好。然而,先前結(jié)合視覺內(nèi)容進(jìn)行點擊率(CTR)預(yù)測的方法圖像理解能力有限,且難以融合多模態(tài)特征(如下圖所示)。

wKgZPGfZC_6Ab-7IAAxMtZ2hrWE346.png

此外,廣告圖像生成中考慮背景與商品之間的相關(guān)性至關(guān)重要?,F(xiàn)有的強(qiáng)化學(xué)習(xí)算法僅專注于優(yōu)化獎勵值,忽視了視覺吸引力和背景相關(guān)性之間的平衡。這種疏忽可能導(dǎo)致背景與商品不協(xié)調(diào),誤導(dǎo)用戶并導(dǎo)致糟糕的購物體驗。如下圖所示,雖然動態(tài)、運(yùn)動風(fēng)格的背景可能會提高運(yùn)動鞋的點擊率,但模型可能錯誤地將類似的背景應(yīng)用于化妝品等無關(guān)商品,從而破壞視覺和諧性和商品相關(guān)性。

wKgZO2fZDACAQR5FAAZUPovqCrw046.png

?

二、整體方案

在本文中,我們提出了一種點擊率驅(qū)動廣告圖像生成(CAIG)的新方法,旨在生成能夠吸引用戶興趣的引人注目的廣告圖像,如下圖所示。首先,我們在大規(guī)模多模態(tài)電商數(shù)據(jù)集上預(yù)訓(xùn)練多模態(tài)大語言模型(MLLM),將領(lǐng)域特定知識注入模型中。這為我們的提示模型(PM)和獎勵模型(RM)奠定了基礎(chǔ)。然后,我們從預(yù)訓(xùn)練的MLLM初始化RM,并在大量多模態(tài)在線用戶點擊數(shù)據(jù)上進(jìn)一步訓(xùn)練RM,使RM能夠模擬人類反饋。最后,我們引入了一個點擊率驅(qū)動的偏好優(yōu)化階段,該階段采用以商品為中心的偏好優(yōu)化(PCPO)作為核心策略。該階段利用RM的反饋對PM進(jìn)行微調(diào),最終生成既具吸引力又與商品相關(guān)的廣告圖像。

wKgZPGfZDAGAX6UQAAUM0QzeqXc987.png

三、電商知識預(yù)訓(xùn)練

為了應(yīng)對高效且可擴(kuò)展的廣告創(chuàng)意生成的挑戰(zhàn),我們通過在大規(guī)模多模態(tài)電商數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,在多模態(tài)大語言模型(MLLMs)強(qiáng)大功能的基礎(chǔ)上,注入了特定于電商領(lǐng)域的知識。該數(shù)據(jù)集包含來自京東電商平臺的120萬個樣本,如下表所示。具體來說,預(yù)訓(xùn)練任務(wù)包括三個主要任務(wù):

(1) 圖像理解:根據(jù)商品圖像描述商品或背景。

(2) 多模態(tài)內(nèi)容理解:根據(jù)多模態(tài)商品信息(例如標(biāo)題、類別、標(biāo)簽)描述商品背景或生成商品標(biāo)題。

(3) 提示詞生成:根據(jù)多模態(tài)商品信息生成或重寫提示詞。

wKgZO2fZDAKAUuTTAAMHJWmakyw969.png

四、基于MLLM的reward model

為了減輕不同商品類別之間CTR絕對值變化的影響,我們將CTR預(yù)測任務(wù)重新定義為圖像對之間的相對比較任務(wù)。具體來說,我們從用戶點擊數(shù)據(jù)中構(gòu)建成對的訓(xùn)練樣本,每對樣本包含同一商品的兩張廣告圖像及其對應(yīng)的CTR。對于共享商品屬性的圖片對(I1,I2),我們首先將商品屬性與RM特定的問題模板Q_RM結(jié)合,使用提示工程函數(shù)f_instruct生成一個指令提示C_RM。然后將兩張圖像的視覺表征與文本表征連接起來,形成多模態(tài)輸入。

wKgZPGfZDAOATO6lAAAsWM05fZ0846.png

接下來,我們使用大語言模型(LLM)處理多模態(tài)輸入,生成隱藏狀態(tài)H。按照使用LLM進(jìn)行序列分類的常規(guī)做法,我們利用H的最后一個token作為判別性表示,捕捉整個輸入序列的上下文信息。最后我們使用一個分類頭FC_cls,將最后一個token 映射到一個二維概率分布p上。此外,為了使模型能夠在復(fù)合圖像中對左圖和右圖的CTR進(jìn)行精細(xì)的預(yù)測,我們引入了一個點級別的損失函數(shù),通過一個獨立的CTR回歸分支來實現(xiàn)。最終,RM的損失函數(shù)是二元交叉熵?fù)p失和點級別損失的組合:

wKgZO2fZDAOAJ33LAAASQBGF5QQ540.png

?

五、CTR驅(qū)動優(yōu)化

為了生成高CTR廣告圖像的,我們將該任務(wù)形式化為一個偏好選擇問題,鼓勵生成模型選擇更具吸引力的廣告圖像, 并拒絕吸引力較低的廣告圖像。這一過程包含兩個關(guān)鍵步驟:(1) 生成圖像對并使用RM比較它們的CTR,(2) 根據(jù)RM的反饋對生成模型進(jìn)行微調(diào),如下算法所示。

wKgZPGfZDASABWleAALbBUxLDMA922.png

為了生成廣告圖像,我們將PM生成的背景描述詞輸入Stable Diffusion,并使用ControlNet的inpaint操作來為商品生成背景??紤]到收集真實CTR反饋耗時且資源需求大,我們利用RM實時區(qū)分更具吸引力的和吸引力較低的圖像,以微調(diào)生成流程。這里我們采用直接偏好優(yōu)化(DPO) 作為基本策略,該過程可表示為:

wKgZO2fZDAWAcxU9AABfAcelww0112.png

其中I_o和C表示商品的原始圖形和對應(yīng)的指令。

值得注意的是,在DPO訓(xùn)練過程中過度關(guān)注CTR優(yōu)化可能會忽略偏好數(shù)據(jù)中的商品信息,導(dǎo)致生成圖像中前景和背景不匹配。因此,我們引入了以商品為中心的偏好優(yōu)化(PCPO)。PCPO的核心機(jī)制是在訓(xùn)練過程中將商品信息作為唯一變量,并構(gòu)建額外的偏好數(shù)據(jù)對,從而鼓勵模型生成與商品特征相匹配的背景描述。具體來說,給定一個商品圖像I_o和指令C,我們構(gòu)建偏好數(shù)據(jù)對 (I_o, y^+, y^-) ,其中y^+是與商品特征更匹配的背景描述,而y^-則是匹配度較低的背景描述。通過這種方式,我們確保生成的背景描述不僅吸引人,而且與商品信息一致。PCPO的目標(biāo)可寫作:

wKgZPGfZDAaAfHI9AABnbAlCm_I255.png

最終,DPO和PCPO損失被用于聯(lián)合優(yōu)化模型。

?

六、實驗結(jié)果

(1)Reward Model性能

我們在商業(yè)和公開數(shù)據(jù)集上進(jìn)行了廣泛的實驗,將我們的方法與各種基于多模態(tài)大語言模型(MLLM)的開源和閉源模型進(jìn)行了比較。如下圖所示,現(xiàn)有的閉源模型(如GLM4V、Claude3.5 Sonnet、GPT4o和GPT4V)在比較廣告圖像CTR方面表現(xiàn)不佳,準(zhǔn)確率接近隨機(jī)水平(約50%的配對準(zhǔn)確率),這表明這些模型盡管在通用任務(wù)上表現(xiàn)出色,但在廣告CTR任務(wù)中并未得到專門優(yōu)化。開源模型如VAM和CG4CTR雖然有所改進(jìn),但由于其視覺表示能力較弱且無法有效整合多模態(tài)信息,表現(xiàn)仍然有限。相比之下,我們提出的方法在商業(yè)和公開數(shù)據(jù)集上均取得了最先進(jìn)的性能。

wKgZPGfZDAeAXUi_AAFjIhFJogg694.png

(2)商品-背景相關(guān)性

為了確保公平比較,我們在CTR驅(qū)動優(yōu)化過程中使用相同的RM進(jìn)行CTR反饋,并且訓(xùn)練輪數(shù)相同,來評估PCPO與標(biāo)準(zhǔn)DPO的性能。下圖展示了兩種方法在訓(xùn)練過程中的表現(xiàn)。值得注意的是,標(biāo)準(zhǔn)DPO在訓(xùn)練5個epoch后,匹配率顯著下降,從0.842降至0.597。而我們的PCPO則表現(xiàn)出更為平緩的下降趨勢,在第5個epoch時保持了0.798的匹配率,這比標(biāo)準(zhǔn)DPO在同一階段的表現(xiàn)高出33.7%。

wKgZO2fZDAiAEjT1AAGW5miBwLM975.png

下圖為我們的方案與DPO方案對比的定性分析:

wKgZO2fZEbKAYP5wAAt19jY2MjE946.png

(3)線上實驗

為了驗證我們提出的CAIG方法在提高生成廣告圖像CTR方面的有效性,我們在推薦廣告上進(jìn)行了一周的在線實驗。我們?yōu)?4個類目的商品生成了兩張圖像,這些類目幾乎涵蓋了所有常見的商品,遠(yuǎn)超之前方法僅覆蓋的五個類目。我們在下表中報告了不同方法在所有類目和五個常見類目中的結(jié)果,其中CTR的提升是相對于直接使用預(yù)訓(xùn)練的MLLM而言的。我們的RM在所有類目和五個常見類目中均優(yōu)于之前的方法,證明了更準(zhǔn)確的CTR預(yù)測能夠驅(qū)動生成模型產(chǎn)生CTR更高的圖像。我們還比較了僅使用DPO作為優(yōu)化算法的效果,結(jié)果表明使用我們的PCPO可以使生成模型更加關(guān)注商品特征,從而提高CTR。

wKgZO2fZDAyASRBMAAEoSH7f6fU324.png

?審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    280013
  • DPO
    DPO
    +關(guān)注

    關(guān)注

    0

    文章

    14

    瀏覽量

    13744
  • 京東
    +關(guān)注

    關(guān)注

    2

    文章

    1024

    瀏覽量

    49278
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    重構(gòu)零售數(shù)智化:Splashtop 8大核心場景應(yīng)用實踐

    當(dāng)下,零售業(yè)正加速擁抱智慧化轉(zhuǎn)型。面對門店設(shè)備管理分散、IT運(yùn)維成本高企、跨區(qū)域協(xié)同效率低下、數(shù)據(jù)安全風(fēng)險攀升等諸多挑戰(zhàn),零售企業(yè)急需通過技術(shù)創(chuàng)新實現(xiàn)設(shè)備高效管理、降低運(yùn)維成本、保障業(yè)務(wù)連續(xù)性。從
    的頭像 發(fā)表于 06-23 17:36 ?460次閱讀
    重構(gòu)<b class='flag-5'>零售</b>數(shù)智化:Splashtop 8大核心場景應(yīng)用實踐

    RFID零售標(biāo)簽:革新服裝和鞋類庫存管理

    率先部署 RFID 的企業(yè),已經(jīng)開始收獲成效;而行動遲緩的企業(yè),可能將無可挽回地被智能零售時代甩在身后。
    的頭像 發(fā)表于 06-05 17:11 ?179次閱讀
    RFID<b class='flag-5'>零售</b>標(biāo)簽:革新服裝和鞋類庫存管理

    從校園實驗室到京東零售:一位算法工程師的風(fēng)控實戰(zhàn)錄

    大家好,我是王曉婷,在京東零售研究廣告反作弊算法設(shè)計、實現(xiàn)與優(yōu)化,結(jié)合LLM、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)賦能反作弊系統(tǒng),用算法識別和打擊數(shù)字廣告領(lǐng)域的欺詐行為。本文與大家分享我從高校實驗室到
    的頭像 發(fā)表于 05-22 16:39 ?391次閱讀
    從校園實驗室到<b class='flag-5'>京東</b><b class='flag-5'>零售</b>:一位算法工程師的風(fēng)控實戰(zhàn)錄

    京東零售數(shù)據(jù)資產(chǎn)能力升級與實踐

    作者:京東零售 韓雷鈞 開篇 京東自營和商家自運(yùn)營模式,以及伴隨的多種運(yùn)營視角、多種組合計算、多種銷售屬性等數(shù)據(jù)維度,相較于行業(yè)同等量級,數(shù)據(jù)處理的難度與復(fù)雜度都顯著增加。如何從海量的數(shù)據(jù)模型與數(shù)據(jù)
    的頭像 發(fā)表于 02-21 09:50 ?480次閱讀
    <b class='flag-5'>京東</b><b class='flag-5'>零售</b>數(shù)據(jù)資產(chǎn)能力升級與實踐

    熵基云聯(lián)入選《零售媒體化專項研究報告》

    近日,備受行業(yè)關(guān)注的《零售媒體化專項研究報告(2024年)》由中國連鎖經(jīng)營協(xié)會(CCFA)權(quán)威發(fā)布。在該報告中,熵基科技旗下的智慧零售全新商業(yè)品牌——熵基云聯(lián),憑借其卓越的創(chuàng)新性智慧零售解決方案
    的頭像 發(fā)表于 02-17 11:17 ?541次閱讀

    NVIDIA推出AI零售購物助手藍(lán)圖

    NVIDIA 于近日發(fā)布了用于零售購物助手的 NVIDIA AI Blueprint,這個生成式 AI 參考工作流旨在變革網(wǎng)購和實體店購物的體驗。
    的頭像 發(fā)表于 01-14 11:17 ?610次閱讀

    元太科技E Ink Spectra 6彩色電子紙 全系列于2025 NRF 零售大展盛大展出

    揚(yáng)州2025年1月13日?/美通社/ -- 全球電子紙領(lǐng)導(dǎo)廠商E Ink元太科技今(13)日宣布,全系列適用于零售的E Ink Spectra? 6全彩電子紙產(chǎn)品,包含最新的廣告牌與電子價簽
    的頭像 發(fā)表于 01-14 09:32 ?520次閱讀

    物聯(lián)網(wǎng)如何改變零售行業(yè)

    零售商深知,節(jié)日的熱鬧氣氛讓顧客們忙著尋找完美的禮物和抓住年終優(yōu)惠。這一直是公司最繁忙的時期之一,客流量和銷售額大幅增加。為應(yīng)對激增的需求,零售商正轉(zhuǎn)向引入物聯(lián)網(wǎng)(IoT)技術(shù),以通過智能零售
    的頭像 發(fā)表于 01-14 09:27 ?664次閱讀

    如何使用藍(lán)牙技術(shù)優(yōu)化零售空間的運(yùn)營方式

    近日,藍(lán)牙技術(shù)聯(lián)盟高級營銷項目經(jīng)理Mindy Dolan有機(jī)會采訪到了高通技術(shù)公司副總裁兼零售物聯(lián)網(wǎng)全球負(fù)責(zé)人Art Miller,探討了如何使用藍(lán)牙技術(shù)優(yōu)化零售空間的運(yùn)營方式。
    的頭像 發(fā)表于 12-30 10:32 ?824次閱讀

    【「大模型啟示錄」閱讀體驗】營銷領(lǐng)域大模型的應(yīng)用

    調(diào)整廣告創(chuàng)意和文案等。通過持續(xù)優(yōu)化廣告策略,大模型可以提高廣告的效率和投資回報率,為企業(yè)創(chuàng)造更大的經(jīng)濟(jì)效益。 大模型可以根據(jù)消費(fèi)者的多種特征和行為數(shù)據(jù),進(jìn)行精細(xì)的客戶細(xì)分。這種細(xì)分能力使企業(yè)能夠更有
    發(fā)表于 12-24 12:48

    Moloco: 將ML驅(qū)動的零售媒體廣告技術(shù)快速擴(kuò)展至全球

    請求以滿足互聯(lián)世界的廣闊需求,并支持實時、數(shù)據(jù)驅(qū)動的決策。 零售業(yè)的競爭從未如此激烈,無論是對商店還是其供應(yīng)商而言。要獲得盈利
    的頭像 發(fā)表于 12-04 10:38 ?815次閱讀

    NVIDIA Omniverse加速零售數(shù)字化轉(zhuǎn)型

    大模型、生成式 AI、數(shù)字孿生技術(shù)等前沿科技啟發(fā)了各行各業(yè)的新業(yè)務(wù)模態(tài),在這一時代背景下 NVIDIA 作為 AI 技術(shù)的耕耘者、加速計算方面的領(lǐng)導(dǎo)者,看到了數(shù)字化浪潮中前所未有的變革,那么 NVIDIA 的產(chǎn)品和技術(shù)能為零售業(yè)做些什么?
    的頭像 發(fā)表于 11-09 13:52 ?934次閱讀

    定制球形LED異形創(chuàng)意顯示屏開啟360度沉浸式體驗創(chuàng)意玩法。

    球形LED異形創(chuàng)意顯示屏作為顯示技術(shù)的新寵,以其獨特的形態(tài)、卓越的顯示效果與無限的創(chuàng)意應(yīng)用,正逐步改變著我們的視覺體驗方式。
    的頭像 發(fā)表于 11-03 12:35 ?767次閱讀
    定制球形LED異形<b class='flag-5'>創(chuàng)意</b>顯示屏開啟360度沉浸式體驗<b class='flag-5'>創(chuàng)意</b>玩法。

    京東廣告投放平臺整潔架構(gòu)演進(jìn)之路

    作者:京東零售 趙嘉鐸 前言 從去年開始京東廣告投放系統(tǒng)做了一次以領(lǐng)域驅(qū)動設(shè)計為思想內(nèi)核的架構(gòu)升級,在深入理解DDD思想的同時,我們基于廣告
    的頭像 發(fā)表于 09-18 10:26 ?1227次閱讀
    <b class='flag-5'>京東</b><b class='flag-5'>廣告</b>投放平臺整潔架構(gòu)演進(jìn)之路

    智慧零售:國產(chǎn)工控主板在智慧零售終端中的關(guān)鍵作用

    在數(shù)字化和智能化技術(shù)不斷推進(jìn)的背景下,智慧零售不僅僅是技術(shù)的應(yīng)用,更是零售業(yè)態(tài)和商業(yè)模式的全面升級。從傳統(tǒng)的店面銷售到以數(shù)據(jù)驅(qū)動的精準(zhǔn)營銷和個性化服務(wù),智慧零售正在改變消費(fèi)者的購物體驗,也在重新定義
    的頭像 發(fā)表于 09-13 10:22 ?766次閱讀