chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何使用多模態(tài)信息做prompt

深度學(xué)習(xí)自然語言處理 ? 來源:夕小瑤的賣萌屋 ? 作者:子龍 ? 2021-11-03 09:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

自多模態(tài)大火以來,井噴式地出現(xiàn)了許多工作,通過改造預(yù)訓(xùn)練語言模型,用圖像信息來增強語義信息,但主要集中在幾個 NLU 任務(wù)上,在 NLG 上的研究比較少。

今天要介紹的這篇 paper Multimodal Conditionality for Natural Language Generation 研究的任務(wù)場景則是以多模態(tài)信息作為條件做 conditional 的 NLG任務(wù)。這種任務(wù)設(shè)置有許多實際的應(yīng)用場景。比如,生成商品介紹文案時,僅僅基于該商品的文字標(biāo)題是不夠的。如果能結(jié)合商品的圖片,必然能夠得到更貼切的文案。

這篇工作的模型基于 GPT2,而多模態(tài)信息則是以一種類似 prompt 的方式來使用。雖然方法比較簡單直觀,但具備一定通用性,未來或許有進一步挖掘的可能。

論文題目:

Multimodal Conditionality for Natural Language Generation

論文鏈接:

https://arxiv.org/pdf/2109.01229.pdf

原理作者的想法其實十分簡單,一切語言模型都是為了衡量一段文字序列的概率,即:

而如果引入了多模態(tài)的輸入,就相當(dāng)于在生成時多了一個條件,即條件概率為:

其中為多模態(tài)輸入序列。

以文中生成商品文案的運用場景為例。

這里的Product Title和Product Images就是作為生成Product Description時的“條件”。

那么如何將多模態(tài)序列引入到自然語言生成模型呢?

本文使用了一個十分直觀的方法,稱作MANTIS,將作為條件的多模態(tài)序列作為前綴放置到decoder輸入序列的前面,進而中解碼過程中分享多模態(tài)信息。其中圖片輸入借助ResNet-152,將最后一層輸出用線性層映射到語言模型同一個空間中。而作為條件的文本輸入,即這里的product title,和生成序列一同進行編碼。

效果數(shù)據(jù)集采用FACAD,提供了商品的標(biāo)題和圖片,目標(biāo)是生成產(chǎn)品描述,效果如下:

dd0036ac-3837-11ec-82a8-dac502259ad0.png

dd22ef4e-3837-11ec-82a8-dac502259ad0.png

文中提出的模型在所有指標(biāo)中都取得了最優(yōu)結(jié)果,相比于baseline,將BLEU4提升了0.8,CIDEr提升了7.2,METEOR提升了0.8,ROUGE-L提升了1.0。同時,由于衡量生成文本質(zhì)量具有主觀性,作者也進行了人工評分,結(jié)果表明MANTIS依然取得了最優(yōu)結(jié)果。

從生成效果來看,生成的描述成功地結(jié)合了圖片信息,使得描述更加準確,而非籠統(tǒng)的介紹。

總結(jié)這篇文章方法十分直觀,但是結(jié)合最近火熱的 Prompt,似乎又有了更多的啟發(fā)。同樣是生成,同樣是加前綴,似乎給定條件的生成就是加上編碼好的前綴?那么多模態(tài)未來能不能成為一種新的prompt呢?作者認為他們的模型可以借助各種不同的多模態(tài)條件生成,然而不得不說本文的方法對模態(tài)融合的部分做的馬虎了些。本文只是單純借助解碼器進行融合,并沒有在編碼階段就分享跨模態(tài)的信息。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 信息
    +關(guān)注

    關(guān)注

    0

    文章

    409

    瀏覽量

    36431
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3818

    瀏覽量

    52268

原文標(biāo)題:用多模態(tài)信息做 prompt,解鎖 GPT 新玩法

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    ADPD4000/ADPD4001:模態(tài)傳感器前端的卓越之選

    ADPD4000/ADPD4001:模態(tài)傳感器前端的卓越之選 在當(dāng)今電子設(shè)備日益智能化、多功能化的時代,模態(tài)傳感器前端的需求愈發(fā)迫切。ADPD4000/ADPD4001作為一款性能
    的頭像 發(fā)表于 03-27 14:45 ?180次閱讀

    海光DCU完成Qwen3.5模態(tài)MoE模型全量適配

    近日,海光DCU完成Qwen3.5-397B MoE旗艦模態(tài)模型、Qwen3.5-35B-A3B MoE模態(tài)模型全量適配、精度對齊與推理部署驗證。本次適配依托FlagOS專屬vLL
    的頭像 發(fā)表于 03-26 09:35 ?704次閱讀

    商湯科技正式開源模態(tài)自主推理模型SenseNova-MARS

    今日,商湯正式開源模態(tài)自主推理模型 SenseNova-MARS(8B/32B 雙版本),其在模態(tài)搜索與推理的核心基準測試中以 69.74 分超越Gemini-3-Pro(69.0
    的頭像 發(fā)表于 01-30 10:13 ?785次閱讀
    商湯科技正式開源<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>自主推理模型SenseNova-MARS

    模態(tài)感知大模型驅(qū)動的密閉空間自主勘探系統(tǒng)的應(yīng)用與未來發(fā)展

    ? ? 模態(tài)感知大模型驅(qū)動的密閉空間自主勘探系統(tǒng) ? ?北京華盛恒輝模態(tài)感知大模型驅(qū)動的密閉空間自主勘探系統(tǒng),是融合
    的頭像 發(fā)表于 12-29 11:27 ?458次閱讀

    模態(tài)大模型驅(qū)動的復(fù)雜環(huán)境精準導(dǎo)航避障系統(tǒng)平臺的應(yīng)用

    模態(tài)大模型驅(qū)動的復(fù)雜環(huán)境精準導(dǎo)航避障系統(tǒng)平臺的應(yīng)用
    的頭像 發(fā)表于 12-22 13:15 ?400次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型驅(qū)動的復(fù)雜環(huán)境精準導(dǎo)航避障系統(tǒng)平臺的應(yīng)用

    商湯科技正式發(fā)布并開源全新模態(tài)模型架構(gòu)NEO

    商湯科技正式發(fā)布并開源了與南洋理工大學(xué)S-Lab合作研發(fā)的全新模態(tài)模型架構(gòu) —— NEO,為日日新SenseNova 模態(tài)模型奠定了新一代架構(gòu)的基石。
    的頭像 發(fā)表于 12-08 11:19 ?1157次閱讀
    商湯科技正式發(fā)布并開源全新<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>模型架構(gòu)NEO

    格靈深瞳模態(tài)大模型Glint-ME讓圖文互搜更精準

    在電商、安防等場景下,圖文互搜應(yīng)用廣泛。隨著以CLIP為代表的模態(tài)表征方法相繼提出,過去單一模態(tài)搜索(文搜文、圖搜圖)被突破,模型可以同時理解文本、圖像、音頻乃至視頻,實現(xiàn)跨模態(tài)檢索
    的頭像 發(fā)表于 11-02 15:56 ?1856次閱讀
    格靈深瞳<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型Glint-ME讓圖文互搜更精準

    亞馬遜云科技上線Amazon Nova模態(tài)嵌入模型

    Embeddings模態(tài)嵌入模型現(xiàn)已在Amazon Bedrock上線,這是一款專為Agentic RAG與語義搜索應(yīng)用打造的頂尖模態(tài)嵌入模型。該模型是首個通過單一模型支持文本、
    的頭像 發(fā)表于 10-29 17:15 ?371次閱讀
    亞馬遜云科技上線Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嵌入模型

    商湯日日新V6.5模態(tài)大模型登頂全球權(quán)威榜單

    根據(jù)權(quán)威評測平臺OpenCompass模態(tài)大模型學(xué)術(shù)榜單(Multi-modal Academic Leaderboard)最新數(shù)據(jù)顯示,商湯「日日新 V6.5」(SenseNova-V6.5
    的頭像 發(fā)表于 09-10 09:55 ?948次閱讀

    米爾RK3576部署端側(cè)模態(tài)輪對話,6TOPS算力驅(qū)動30億參數(shù)LLM

    話的 KV-Cache 維護與手動清除; Prompt 模板的動態(tài)渲染; 用戶輸入的解析處理與推理結(jié)果的回顯展示。 1.3 核心邏輯:輪對話的處理流程該方案的模態(tài)
    發(fā)表于 09-05 17:25

    淺析模態(tài)標(biāo)注對大模型應(yīng)用落地的重要性與標(biāo)注實例

    ?在人工智能邁向AGI通用智能的關(guān)鍵道路上,大模型正從單一的文本理解者,演進為能同時看、聽、讀、想的“多面手”。驅(qū)動這一進化的核心燃料,正是高質(zhì)量的模態(tài)數(shù)據(jù),而將原始數(shù)據(jù)轉(zhuǎn)化為“機器可讀教材
    的頭像 發(fā)表于 09-05 13:49 ?2757次閱讀

    商湯科技模態(tài)通用智能戰(zhàn)略思考

    時間是最好的試金石,AI領(lǐng)域尤其如此。當(dāng)行業(yè)熱議大模型走向時,商湯早已錨定“模態(tài)通用智能”——這是我們以深厚研究積累和實踐反復(fù)驗證的可行路徑。
    的頭像 發(fā)表于 08-14 09:33 ?1308次閱讀

    模態(tài)+空間智能:盾華以AI+智慧路燈桿,點亮城市治理新方式

    模態(tài)+空間智能:盾華以AI+智慧路燈桿,點亮城市治理新方式
    的頭像 發(fā)表于 06-12 10:17 ?784次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>+空間智能:盾華以AI+智慧路燈桿,點亮城市治理新方式

    商湯日日新SenseNova融合模態(tài)大模型 國內(nèi)首家獲得最高評級的大模型

    近日,中國信息通信研究院(以下簡稱“中國信通院”)完成可信AI模態(tài)大模型首輪評估。 商湯日日新SenseNova融合模態(tài)大模型在所有模型中,獲得當(dāng)前最高評級——4+級,并成為國內(nèi)首家
    的頭像 發(fā)表于 06-11 11:57 ?1564次閱讀

    XMOS為普及AI應(yīng)用推出基于軟件定義SoC的模態(tài)AI傳感器融合接口

    模態(tài)傳感信號AI處理為智算中心和邊緣智能開啟感知智能的新篇章
    的頭像 發(fā)表于 05-12 17:51 ?632次閱讀
    XMOS為普及AI應(yīng)用推出基于軟件定義SoC的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI傳感器融合接口