chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

京東零售廣告創(chuàng)意:引入場域目標的創(chuàng)意圖片生成

京東云 ? 來源:京東零售 馮偉 ? 作者:京東零售 馮偉 ? 2025-03-18 14:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:京東零售 馮偉

wKgZO2fZC_yAc6vuAAKQTjIphLI530.png

WWW2025: CTR-Driven Advertising Image Generation with Multimodal Large Language Models

論文鏈接:https://arxiv.org/pdf/2502.06823?

代碼鏈接:https://github.com/Chenguoz/CAIG?

摘要:在電商平臺中,廣告圖片對于吸引用戶注意力和提高廣告效果至關(guān)重要。大多數(shù)現(xiàn)有的方法在為商品生成背景時主要關(guān)注美學質(zhì)量,這可能無法實現(xiàn)令人滿意的在線表現(xiàn)。為了解決這一局限性,我們探索使用多模態(tài)大型語言模型(MLLMs)來生成廣告圖片,并將優(yōu)化點擊率(CTR)作為主要目標。首先,我們構(gòu)建了針對性的預訓練任務,并利用大規(guī)模的電商多模態(tài)數(shù)據(jù)集,為MLLMs提供廣告圖片生成任務的初始能力。為了進一步提高生成圖片的CTR,我們提出了一種新穎的獎勵模型,通過強化學習(RL)對預訓練的MLLMs進行微調(diào),該模型能夠聯(lián)合利用多模態(tài)特征并準確反映用戶的點擊偏好。同時,我們開發(fā)了一種以商品為中心的偏好優(yōu)化策略,以確保微調(diào)后生成的背景內(nèi)容與商品特征一致,從而增強廣告圖片的整體相關(guān)性和效果。大量實驗表明,我們的方法在在線和離線指標上均達到了最先進的性能。

?

一、背景及現(xiàn)狀

隨著圖像生成技術(shù)的發(fā)展,為商品生成和諧且逼真的背景成為可能。然而,大多數(shù)現(xiàn)有的廣告圖像生成方法主要關(guān)注離線指標,如圖像質(zhì)量或語義一致性,而沒有充分考慮視覺內(nèi)容與場域目標(如點擊率)之間的重要聯(lián)系。這導致生成的廣告圖像與符合實際用戶偏好的理想圖像之間存在顯著差異。

受最近RLHF方法的啟發(fā),我們可以訓練一個獎勵模型(RM),再使用強化學習(RL)算法來微調(diào)生成模型,由RM提供獎勵以指導優(yōu)化過程。這個流程的一個關(guān)鍵方面是RM能夠準確反映用戶對圖像的點擊偏好。然而,先前結(jié)合視覺內(nèi)容進行點擊率(CTR)預測的方法圖像理解能力有限,且難以融合多模態(tài)特征(如下圖所示)。

wKgZPGfZC_6Ab-7IAAxMtZ2hrWE346.png

此外,廣告圖像生成中考慮背景與商品之間的相關(guān)性至關(guān)重要?,F(xiàn)有的強化學習算法僅專注于優(yōu)化獎勵值,忽視了視覺吸引力和背景相關(guān)性之間的平衡。這種疏忽可能導致背景與商品不協(xié)調(diào),誤導用戶并導致糟糕的購物體驗。如下圖所示,雖然動態(tài)、運動風格的背景可能會提高運動鞋的點擊率,但模型可能錯誤地將類似的背景應用于化妝品等無關(guān)商品,從而破壞視覺和諧性和商品相關(guān)性。

wKgZO2fZDACAQR5FAAZUPovqCrw046.png

?

二、整體方案

在本文中,我們提出了一種點擊率驅(qū)動廣告圖像生成(CAIG)的新方法,旨在生成能夠吸引用戶興趣的引人注目的廣告圖像,如下圖所示。首先,我們在大規(guī)模多模態(tài)電商數(shù)據(jù)集上預訓練多模態(tài)大語言模型(MLLM),將領(lǐng)域特定知識注入模型中。這為我們的提示模型(PM)和獎勵模型(RM)奠定了基礎(chǔ)。然后,我們從預訓練的MLLM初始化RM,并在大量多模態(tài)在線用戶點擊數(shù)據(jù)上進一步訓練RM,使RM能夠模擬人類反饋。最后,我們引入了一個點擊率驅(qū)動的偏好優(yōu)化階段,該階段采用以商品為中心的偏好優(yōu)化(PCPO)作為核心策略。該階段利用RM的反饋對PM進行微調(diào),最終生成既具吸引力又與商品相關(guān)的廣告圖像。

wKgZPGfZDAGAX6UQAAUM0QzeqXc987.png

三、電商知識預訓練

為了應對高效且可擴展的廣告創(chuàng)意生成的挑戰(zhàn),我們通過在大規(guī)模多模態(tài)電商數(shù)據(jù)集上進行預訓練,在多模態(tài)大語言模型(MLLMs)強大功能的基礎(chǔ)上,注入了特定于電商領(lǐng)域的知識。該數(shù)據(jù)集包含來自京東電商平臺的120萬個樣本,如下表所示。具體來說,預訓練任務包括三個主要任務:

(1) 圖像理解:根據(jù)商品圖像描述商品或背景。

(2) 多模態(tài)內(nèi)容理解:根據(jù)多模態(tài)商品信息(例如標題、類別、標簽)描述商品背景或生成商品標題。

(3) 提示詞生成:根據(jù)多模態(tài)商品信息生成或重寫提示詞。

wKgZO2fZDAKAUuTTAAMHJWmakyw969.png

四、基于MLLM的reward model

為了減輕不同商品類別之間CTR絕對值變化的影響,我們將CTR預測任務重新定義為圖像對之間的相對比較任務。具體來說,我們從用戶點擊數(shù)據(jù)中構(gòu)建成對的訓練樣本,每對樣本包含同一商品的兩張廣告圖像及其對應的CTR。對于共享商品屬性的圖片對(I1,I2),我們首先將商品屬性與RM特定的問題模板Q_RM結(jié)合,使用提示工程函數(shù)f_instruct生成一個指令提示C_RM。然后將兩張圖像的視覺表征與文本表征連接起來,形成多模態(tài)輸入。

wKgZPGfZDAOATO6lAAAsWM05fZ0846.png

接下來,我們使用大語言模型(LLM)處理多模態(tài)輸入,生成隱藏狀態(tài)H。按照使用LLM進行序列分類的常規(guī)做法,我們利用H的最后一個token作為判別性表示,捕捉整個輸入序列的上下文信息。最后我們使用一個分類頭FC_cls,將最后一個token 映射到一個二維概率分布p上。此外,為了使模型能夠在復合圖像中對左圖和右圖的CTR進行精細的預測,我們引入了一個點級別的損失函數(shù),通過一個獨立的CTR回歸分支來實現(xiàn)。最終,RM的損失函數(shù)是二元交叉熵損失和點級別損失的組合:

wKgZO2fZDAOAJ33LAAASQBGF5QQ540.png

?

五、CTR驅(qū)動優(yōu)化

為了生成高CTR廣告圖像的,我們將該任務形式化為一個偏好選擇問題,鼓勵生成模型選擇更具吸引力的廣告圖像, 并拒絕吸引力較低的廣告圖像。這一過程包含兩個關(guān)鍵步驟:(1) 生成圖像對并使用RM比較它們的CTR,(2) 根據(jù)RM的反饋對生成模型進行微調(diào),如下算法所示。

wKgZPGfZDASABWleAALbBUxLDMA922.png

為了生成廣告圖像,我們將PM生成的背景描述詞輸入Stable Diffusion,并使用ControlNet的inpaint操作來為商品生成背景??紤]到收集真實CTR反饋耗時且資源需求大,我們利用RM實時區(qū)分更具吸引力的和吸引力較低的圖像,以微調(diào)生成流程。這里我們采用直接偏好優(yōu)化(DPO) 作為基本策略,該過程可表示為:

wKgZO2fZDAWAcxU9AABfAcelww0112.png

其中I_o和C表示商品的原始圖形和對應的指令。

值得注意的是,在DPO訓練過程中過度關(guān)注CTR優(yōu)化可能會忽略偏好數(shù)據(jù)中的商品信息,導致生成圖像中前景和背景不匹配。因此,我們引入了以商品為中心的偏好優(yōu)化(PCPO)。PCPO的核心機制是在訓練過程中將商品信息作為唯一變量,并構(gòu)建額外的偏好數(shù)據(jù)對,從而鼓勵模型生成與商品特征相匹配的背景描述。具體來說,給定一個商品圖像I_o和指令C,我們構(gòu)建偏好數(shù)據(jù)對 (I_o, y^+, y^-) ,其中y^+是與商品特征更匹配的背景描述,而y^-則是匹配度較低的背景描述。通過這種方式,我們確保生成的背景描述不僅吸引人,而且與商品信息一致。PCPO的目標可寫作:

wKgZPGfZDAaAfHI9AABnbAlCm_I255.png

最終,DPO和PCPO損失被用于聯(lián)合優(yōu)化模型。

?

六、實驗結(jié)果

(1)Reward Model性能

我們在商業(yè)和公開數(shù)據(jù)集上進行了廣泛的實驗,將我們的方法與各種基于多模態(tài)大語言模型(MLLM)的開源和閉源模型進行了比較。如下圖所示,現(xiàn)有的閉源模型(如GLM4V、Claude3.5 Sonnet、GPT4o和GPT4V)在比較廣告圖像CTR方面表現(xiàn)不佳,準確率接近隨機水平(約50%的配對準確率),這表明這些模型盡管在通用任務上表現(xiàn)出色,但在廣告CTR任務中并未得到專門優(yōu)化。開源模型如VAM和CG4CTR雖然有所改進,但由于其視覺表示能力較弱且無法有效整合多模態(tài)信息,表現(xiàn)仍然有限。相比之下,我們提出的方法在商業(yè)和公開數(shù)據(jù)集上均取得了最先進的性能。

wKgZPGfZDAeAXUi_AAFjIhFJogg694.png

(2)商品-背景相關(guān)性

為了確保公平比較,我們在CTR驅(qū)動優(yōu)化過程中使用相同的RM進行CTR反饋,并且訓練輪數(shù)相同,來評估PCPO與標準DPO的性能。下圖展示了兩種方法在訓練過程中的表現(xiàn)。值得注意的是,標準DPO在訓練5個epoch后,匹配率顯著下降,從0.842降至0.597。而我們的PCPO則表現(xiàn)出更為平緩的下降趨勢,在第5個epoch時保持了0.798的匹配率,這比標準DPO在同一階段的表現(xiàn)高出33.7%。

wKgZO2fZDAiAEjT1AAGW5miBwLM975.png

下圖為我們的方案與DPO方案對比的定性分析:

wKgZO2fZEbKAYP5wAAt19jY2MjE946.png

(3)線上實驗

為了驗證我們提出的CAIG方法在提高生成廣告圖像CTR方面的有效性,我們在推薦廣告上進行了一周的在線實驗。我們?yōu)?4個類目的商品生成了兩張圖像,這些類目幾乎涵蓋了所有常見的商品,遠超之前方法僅覆蓋的五個類目。我們在下表中報告了不同方法在所有類目和五個常見類目中的結(jié)果,其中CTR的提升是相對于直接使用預訓練的MLLM而言的。我們的RM在所有類目和五個常見類目中均優(yōu)于之前的方法,證明了更準確的CTR預測能夠驅(qū)動生成模型產(chǎn)生CTR更高的圖像。我們還比較了僅使用DPO作為優(yōu)化算法的效果,結(jié)果表明使用我們的PCPO可以使生成模型更加關(guān)注商品特征,從而提高CTR。

wKgZO2fZDAyASRBMAAEoSH7f6fU324.png

?審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    36963

    瀏覽量

    289742
  • DPO
    DPO
    +關(guān)注

    關(guān)注

    0

    文章

    15

    瀏覽量

    13812
  • 京東
    +關(guān)注

    關(guān)注

    2

    文章

    1052

    瀏覽量

    49763
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    理想汽車首個海外零售中心正式開業(yè)

    近日,理想汽車海外首家授權(quán)零售中心——烏茲別克斯坦首都塔什干零售中心正式開業(yè),面向當?shù)厥袌鲋饕N售三款增程電動產(chǎn)品理想L9、理想L7和理想L6。區(qū)別于國內(nèi)的直營銷售,理想汽車海外銷售目前采取授權(quán)
    的頭像 發(fā)表于 10-14 16:25 ?188次閱讀

    智慧零售全面爆發(fā),BLE芯片趁勢而起

    ?2025年,全球智慧零售市場預計突破1.2萬億美元,年均增速約15%,其中亞太地區(qū)(以中國為主)占全球市場的40%以上。中國市場規(guī)模預計達到8500億元人民幣,占全球的35%,年均增速20%,領(lǐng)先
    的頭像 發(fā)表于 09-19 16:20 ?288次閱讀
    智慧<b class='flag-5'>零售</b>全面爆發(fā),BLE芯片趁勢而起

    高格欣廣告機:重構(gòu)商業(yè)領(lǐng)域新零售消費鏈路的 “智能營銷樞紐”

    不知你是否留意到,商業(yè)零售領(lǐng)域正經(jīng)歷著大變革,越來越多的數(shù)字化新零售體系在逐步取代傳統(tǒng)的商業(yè)模式,顯示與智能交互功能為一體的顯示設(shè)備終端,已成為推動新零售發(fā)展的關(guān)鍵力量,從根本上重塑了購物體驗與商業(yè)
    的頭像 發(fā)表于 08-29 17:26 ?419次閱讀
    高格欣<b class='flag-5'>廣告</b>機:重構(gòu)商業(yè)領(lǐng)域新<b class='flag-5'>零售</b>消費鏈路的 “智能營銷樞紐”

    零售行業(yè)出海數(shù)據(jù)回流,如何選擇SDWAN

    >全球零售網(wǎng)絡(luò)的擴張正面臨關(guān)鍵轉(zhuǎn)折點:**數(shù)據(jù)回流的效率與安全**,已成為出海企業(yè)增長的核心瓶頸,而SD-WAN技術(shù)正通過智能化的網(wǎng)絡(luò)重構(gòu),成為破局的關(guān)鍵利器。隨著零售企業(yè)加速全球化布局
    的頭像 發(fā)表于 08-21 14:09 ?1078次閱讀
    <b class='flag-5'>零售</b>行業(yè)出海數(shù)據(jù)回流,如何選擇SDWAN

    京東零售在智能供應鏈領(lǐng)域的前沿探索與技術(shù)實踐

    近日,“智匯運河 智算未來”2025人工智能創(chuàng)新創(chuàng)業(yè)大會在杭州召開。香港工程科學院院士、香港大學副校長、研究生院院長、講座教授、京東零售供應鏈首席科學家申作軍教授與供應鏈算法團隊技術(shù)總監(jiān)戚永志博士
    的頭像 發(fā)表于 08-04 16:10 ?596次閱讀
    <b class='flag-5'>京東</b><b class='flag-5'>零售</b>在智能供應鏈領(lǐng)域的前沿探索與技術(shù)實踐

    融智興科技:RFID超高頻零售標簽解析

    融智興科技推出的RFID超高頻零售標簽,專為零售場景高頻次、多品類、快速周轉(zhuǎn)而設(shè)計,具備遠距離群讀、批量寫入、耐環(huán)境干擾等特點,并通過了ARC(Auburn RFID Lab)認證,滿足沃爾瑪、山姆會員店等全球零售巨頭的標準。
    的頭像 發(fā)表于 07-30 16:32 ?334次閱讀
    融智興科技:RFID超高頻<b class='flag-5'>零售</b>標簽解析

    京東零售數(shù)據(jù)資產(chǎn)能力升級與實踐

    作者:京東零售 韓雷鈞 開篇 京東自營和商家自運營模式,以及伴隨的多種運營視角、多種組合計算、多種銷售屬性等數(shù)據(jù)維度,相較于行業(yè)同等量級,數(shù)據(jù)處理的難度與復雜度都顯著增加。如何從海量的數(shù)據(jù)模型與數(shù)據(jù)
    的頭像 發(fā)表于 02-21 09:50 ?673次閱讀
    <b class='flag-5'>京東</b><b class='flag-5'>零售</b>數(shù)據(jù)資產(chǎn)能力升級與實踐

    熵基云聯(lián)入選《零售媒體化專項研究報告》

    近日,備受行業(yè)關(guān)注的《零售媒體化專項研究報告(2024年)》由中國連鎖經(jīng)營協(xié)會(CCFA)權(quán)威發(fā)布。在該報告中,熵基科技旗下的智慧零售全新商業(yè)品牌——熵基云聯(lián),憑借其卓越的創(chuàng)新性智慧零售解決方案
    的頭像 發(fā)表于 02-17 11:17 ?729次閱讀

    NVIDIA推出AI零售購物助手藍圖

    NVIDIA 于近日發(fā)布了用于零售購物助手的 NVIDIA AI Blueprint,這個生成式 AI 參考工作流旨在變革網(wǎng)購和實體店購物的體驗。
    的頭像 發(fā)表于 01-14 11:17 ?865次閱讀

    元太科技E Ink Spectra 6彩色電子紙 全系列于2025 NRF 零售大展盛大展出

    揚州2025年1月13日?/美通社/ -- 全球電子紙領(lǐng)導廠商E Ink元太科技今(13)日宣布,全系列適用于零售的E Ink Spectra? 6全彩電子紙產(chǎn)品,包含最新的廣告牌與電子價簽
    的頭像 發(fā)表于 01-14 09:32 ?691次閱讀

    物聯(lián)網(wǎng)如何改變零售行業(yè)

    零售商深知,節(jié)日的熱鬧氣氛讓顧客們忙著尋找完美的禮物和抓住年終優(yōu)惠。這一直是公司最繁忙的時期之一,客流量和銷售額大幅增加。為應對激增的需求,零售商正轉(zhuǎn)向引入物聯(lián)網(wǎng)(IoT)技術(shù),以通過智能零售
    的頭像 發(fā)表于 01-14 09:27 ?946次閱讀

    如何使用藍牙技術(shù)優(yōu)化零售空間的運營方式

    近日,藍牙技術(shù)聯(lián)盟高級營銷項目經(jīng)理Mindy Dolan有機會采訪到了高通技術(shù)公司副總裁兼零售物聯(lián)網(wǎng)全球負責人Art Miller,探討了如何使用藍牙技術(shù)優(yōu)化零售空間的運營方式。
    的頭像 發(fā)表于 12-30 10:32 ?1169次閱讀

    【「大模型啟示錄」閱讀體驗】營銷領(lǐng)域大模型的應用

    調(diào)整廣告創(chuàng)意和文案等。通過持續(xù)優(yōu)化廣告策略,大模型可以提高廣告的效率和投資回報率,為企業(yè)創(chuàng)造更大的經(jīng)濟效益。 大模型可以根據(jù)消費者的多種特征和行為數(shù)據(jù),進行精細的客戶細分。這種細分能力使企業(yè)能夠更有
    發(fā)表于 12-24 12:48

    Moloco: 將ML驅(qū)動的零售媒體廣告技術(shù)快速擴展至全球

    請求以滿足互聯(lián)世界的廣闊需求,并支持實時、數(shù)據(jù)驅(qū)動的決策。 零售業(yè)的競爭從未如此激烈,無論是對商店還是其供應商而言。要獲得盈利
    的頭像 發(fā)表于 12-04 10:38 ?1082次閱讀

    NVIDIA Omniverse加速零售數(shù)字化轉(zhuǎn)型

    大模型、生成式 AI、數(shù)字孿生技術(shù)等前沿科技啟發(fā)了各行各業(yè)的新業(yè)務模態(tài),在這一時代背景下 NVIDIA 作為 AI 技術(shù)的耕耘者、加速計算方面的領(lǐng)導者,看到了數(shù)字化浪潮中前所未有的變革,那么 NVIDIA 的產(chǎn)品和技術(shù)能為零售業(yè)做些什么?
    的頭像 發(fā)表于 11-09 13:52 ?1169次閱讀