chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ACL2021的跨視覺(jué)語(yǔ)言模態(tài)論文之跨視覺(jué)語(yǔ)言模態(tài)任務(wù)與方法

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:復(fù)旦DISC ? 作者:王雨晴 ? 2021-10-13 10:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來(lái)自:復(fù)旦DISC

引言

本次分享我們將介紹三篇來(lái)自ACL2021的跨視覺(jué)語(yǔ)言模態(tài)的論文。這三篇文章分別介紹了如何在圖像描述任務(wù)中生成契合用戶(hù)意圖的圖像描述、端對(duì)端的視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型和如何生成包含更多細(xì)節(jié)的圖像描述。

文章概覽

Control Image Captioning Spatially and Temporally

論文地址:https://aclanthology.org/2021.acl-long.157.pdf

該篇文章基于對(duì)比學(xué)習(xí)和注意力機(jī)制引導(dǎo)提出了LoopCAG模型。LoopCAG可以根據(jù)輸入的鼠標(biāo)軌跡,生成與鼠標(biāo)軌跡相匹配的圖像描述,從而增強(qiáng)了圖片描述生成的可控性和可解釋性。

E2E-VLP: End-to-End Vision-Language Pretraining Enhanced by Visual Learning

論文地址:https://arxiv.org/pdf/2106.01804.pdf

這篇文章提出了一個(gè)端到端的視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型。模型不需要利用預(yù)訓(xùn)練的目標(biāo)檢測(cè)器抽取基于區(qū)域的視覺(jué)特征,直接以圖片作為輸入。并且設(shè)計(jì)了兩個(gè)額外的視覺(jué)預(yù)訓(xùn)練任務(wù)幫助模型學(xué)習(xí)細(xì)粒度的信息,達(dá)到了和兩階段模型相似的效果,并且提高了運(yùn)算效率。

Enhancing Descriptive Image Captioning with Natural Language Inference

論文地址:https://aclanthology.org/2021.acl-short.36.pdf

這篇文章通過(guò)推理圖和PageRank對(duì)圖像描述進(jìn)行描述性打分。再通過(guò)參考抽樣和加權(quán)指定獎(jiǎng)勵(lì)來(lái)生成具有更多細(xì)節(jié)的圖像描述。模型生成了比一般方法具有更多細(xì)節(jié)的圖像描述,這些圖像描述可以包含基線(xiàn)方法生成的圖像描述。

論文細(xì)節(jié)

1

動(dòng)機(jī)

圖像描述任務(wù)主要針對(duì)圖片上比較突出的物體和物體關(guān)系展開(kāi)描述,這樣的圖片描述沒(méi)有考慮到用戶(hù)意圖。為了生成具備可控性和可解釋性的圖像描述,最近的工作提出了生成可控性的圖像描述任務(wù)。為了生成符合用戶(hù)意圖的圖像描述,通常會(huì)對(duì)描述加以情感、邊界框和鼠標(biāo)軌跡限制。與此同時(shí),近期提出的 Localized-Narratives 數(shù)據(jù)集將鼠標(biāo)軌跡作為圖像描述任務(wù)的另一個(gè)輸入,為圖像描述生成任務(wù)中所涉及的語(yǔ)義概念進(jìn)行空間和時(shí)序關(guān)系上的控制提供了可能。

模型

LoopCAG 可以總結(jié)為三部分:用于生成圖片描述且以 Transformer 為主干網(wǎng)絡(luò)的編碼器-解碼器;用于視覺(jué)對(duì)象空間定位的注意力引導(dǎo)(Attention Guidance)組件;用于句子級(jí)時(shí)序?qū)R的對(duì)比性約束(Contrastive Constraints)組件。

a20e2908-15e3-11ec-8fb8-12bb97331649.png

(1)Caption Generation

作者將視覺(jué)特征V和軌跡特征T分別編碼,并疊加位置信息后得 和 ,然后串聯(lián)在一起作為一個(gè)統(tǒng)一的序列輸入編碼器。解碼器通過(guò)交叉注意力模塊與編碼器最后一層的隱藏狀態(tài)相連,將視覺(jué)和軌跡信息結(jié)合起來(lái)作為生成的前置條件。解碼器的優(yōu)化目標(biāo)是將以下目標(biāo)函數(shù)最小化:

a22c1850-15e3-11ec-8fb8-12bb97331649.png

(2)Attention Guidance

為了定位物體,作者用軌跡作為中間橋梁聯(lián)系物體和語(yǔ)義token。作者構(gòu)建了一個(gè)監(jiān)督矩陣來(lái)引導(dǎo)詞語(yǔ)和視覺(jué)對(duì)象之間的注意力,即需要物體軌跡點(diǎn)盡可能多的落入對(duì)象邊界框中。當(dāng)注意力監(jiān)督矩陣和模型的交叉注意力矩陣盡可能接近時(shí),詞語(yǔ)則可以準(zhǔn)確的對(duì)應(yīng)到圖片的空間視覺(jué)物體上。

(3)Contrastive Constraints

作者使用對(duì)比損失函數(shù)來(lái)約束生成過(guò)程的時(shí)間順序,對(duì)比損失的形式是 NCE 函數(shù),用來(lái)學(xué)習(xí)區(qū)分軌跡-描述對(duì)之中的正例和負(fù)例。正例是指在順序上自然對(duì)應(yīng)的描述句和軌跡段,而其余的軌跡-描述對(duì)組合均為負(fù)例。

最后作者通過(guò)將所有損失的總和最小化來(lái)聯(lián)合優(yōu)化模型。

實(shí)驗(yàn)

作者在Localized-Narratives COCO 這個(gè)數(shù)據(jù)集上進(jìn)行了訓(xùn)練和測(cè)試。在測(cè)試集上的結(jié)果如圖所示,LoopCAG 方法在所有的自動(dòng)評(píng)測(cè)指標(biāo)上都達(dá)到了先進(jìn)水平。從表中可以看出,ROUGE-L 的得分提升了2.0。由于 ROUGE-L 主要采用了對(duì)順序敏感的最長(zhǎng)共同子序列計(jì)分方式,這表明對(duì)比約束可以促進(jìn)生成句子的順序和用戶(hù)意圖的對(duì)應(yīng)。

2

動(dòng)機(jī)

基于海量圖文對(duì)的多模態(tài)預(yù)訓(xùn)練在下游的跨模態(tài)任務(wù)中已經(jīng)取得巨大的成功?,F(xiàn)有的多模態(tài)預(yù)訓(xùn)練的方法主要基于兩階段訓(xùn)練,首先利用預(yù)訓(xùn)練的目標(biāo)檢測(cè)器抽取基于區(qū)域的視覺(jué)特征,然后拼接視覺(jué)表示和文本向量作為T(mén)ransformer的輸入進(jìn)行訓(xùn)練。這樣的模型存在兩點(diǎn)問(wèn)題,一個(gè)是第一階段通常在特定數(shù)據(jù)集進(jìn)行訓(xùn)練模型泛化能力不好,此外提取區(qū)域的視覺(jué)特征比較耗費(fèi)時(shí)間?;诖俗髡咛岢隽硕说蕉说南袼丶?jí)別的視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型。模型通過(guò)一個(gè)統(tǒng)一的Transformer框架同時(shí)學(xué)習(xí)圖像特征和多模態(tài)表示

模型

本文的模型如圖所示。E2E-VLP用一個(gè)CNN 模型提取圖片視覺(jué)特征的同時(shí)用一個(gè)Transformer進(jìn)行多模態(tài)特征學(xué)習(xí)。

a270188e-15e3-11ec-8fb8-12bb97331649.png

(1) Input Representations

模型首先用WordPiece tokenizer 分詞進(jìn)行序列化。圖片則直接以三通道的像素矩陣輸入。

(2) Cross-modal Encoder Pre-training:Transformer

模型用Resnet提取圖片的特征向量。用Transformer模塊接受圖像-句子的序列輸入,進(jìn)行跨模態(tài)語(yǔ)義學(xué)習(xí)。

為了提取跨模態(tài)語(yǔ)義信息,模型設(shè)計(jì)了兩個(gè)預(yù)訓(xùn)練任務(wù)。一個(gè)是與Bert類(lèi)似的Masked Language Modeling,只是在該任務(wù)中除去上下文信息還可以利用圖片信息避免語(yǔ)義混淆,第二個(gè)任務(wù)是進(jìn)行圖片文本匹配。

(3) Visual-enhanced Decoder

為了提取更細(xì)粒度的視覺(jué)特征,接入了物體檢測(cè)和描述生成兩個(gè)任務(wù)。在物體檢測(cè)中,為了增強(qiáng)視覺(jué)語(yǔ)義特征的學(xué)習(xí),除去常規(guī)的位置和物體種類(lèi)預(yù)測(cè),我們引入了屬性預(yù)測(cè)這一任務(wù)。描述生成圖片對(duì)應(yīng)的描述。

實(shí)驗(yàn)

根據(jù)實(shí)驗(yàn)結(jié)果,E2E-VLP 和兩階段模型相比,也取得了比較好效果,可以理解和完成兩種任務(wù)。同時(shí)在參數(shù)量上,E2E-VLP 則具有更加輕量的優(yōu)勢(shì)。

3

動(dòng)機(jī)

現(xiàn)階段的圖像描述模型通常傾向于生成比較安全的較為籠統(tǒng)的描述,而忽略圖像細(xì)節(jié)。為了生成包含更多細(xì)節(jié)的圖像描述,作者基于更具有細(xì)節(jié)的圖像描述通常包含籠統(tǒng)描述的全部信息這一觀點(diǎn)提出了基于自然語(yǔ)言推斷的描述關(guān)系模型。

方法

這篇文章的具體方法如下:

(1)Constructing Inference Graphs

首先用基于Bert的自然語(yǔ)言推斷模型判斷圖像描述之間的關(guān)系,由于圖像描述之間不存在沖突因此挪去了沖突關(guān)系。并對(duì)一張圖的描述構(gòu)建如圖所示的推斷關(guān)系圖,并利用Pagerank的方法對(duì)推斷圖計(jì)算描述性評(píng)分。

(2)Descriptiveness Regularized Learning

由于傳統(tǒng)圖像描述的第一階段生成描述和圖像描述最小化交叉熵?fù)p失函數(shù)等同于生成描述和均勻分布的圖像描述之間的KL Divergence,為了生成更具有描述性的圖像描述。則采用歸一化的描述性評(píng)分分布取代均勻分布,認(rèn)為更具有描述性的圖像描述具有更高的生成概率。

a2d4abbe-15e3-11ec-8fb8-12bb97331649.png

在第二階段,最大化生成圖像描述的期望收益時(shí),也同時(shí)用描述性評(píng)分取代均勻分布來(lái)計(jì)算期望收益。

a2e2129a-15e3-11ec-8fb8-12bb97331649.png

實(shí)驗(yàn)

根據(jù)實(shí)驗(yàn)結(jié)果,模型在多數(shù)指標(biāo)特別是CIDER評(píng)分上超過(guò)了Baseline,這是因?yàn)镃IDER傾向于具有更加特殊的細(xì)節(jié)描述。

此外根據(jù)自然語(yǔ)言推斷模型判斷文章模型生成的圖像描述對(duì)baseline的圖像描述形成更多的包含關(guān)系。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1202

    瀏覽量

    42840
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3899

    瀏覽量

    141341
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1095

    瀏覽量

    42145
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4405

    瀏覽量

    66795
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    355

    瀏覽量

    23242

原文標(biāo)題:ACL2021 | 跨視覺(jué)語(yǔ)言模態(tài)任務(wù)與方法

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    格靈深瞳多模態(tài)大模型Glint-ME讓圖文互搜更精準(zhǔn)

    在電商、安防等場(chǎng)景下,圖文互搜應(yīng)用廣泛。隨著以CLIP為代表的多模態(tài)表征方法相繼提出,過(guò)去單一模態(tài)搜索(文搜文、圖搜圖)被突破,模型可以同時(shí)理解文本、圖像、音頻乃至視頻,實(shí)現(xiàn)
    的頭像 發(fā)表于 11-02 15:56 ?1206次閱讀
    格靈深瞳多<b class='flag-5'>模態(tài)</b>大模型Glint-ME讓圖文互搜更精準(zhǔn)

    亞馬遜云科技上線(xiàn)Amazon Nova多模態(tài)嵌入模型

    專(zhuān)為Agentic RAG與語(yǔ)義搜索量身打造,以行業(yè)頂尖的準(zhǔn)確率實(shí)現(xiàn)模態(tài)檢索 北京2025年10月29日 /美通社/ -- 亞馬遜云科技宣布,Amazon Nova Multimodal
    的頭像 發(fā)表于 10-29 17:15 ?102次閱讀
    亞馬遜云科技上線(xiàn)Amazon Nova多<b class='flag-5'>模態(tài)</b>嵌入模型

    語(yǔ)言交流的全場(chǎng)景解決方案,時(shí)空壺X1的進(jìn)化之路

    在全球化浪潮洶涌的時(shí)代,語(yǔ)言溝通宛如連接世界的橋梁,其重要性不言而喻。時(shí)空壺自2016年成立以來(lái),始終秉持創(chuàng)新精神,深耕語(yǔ)言溝通領(lǐng)域,憑借一系列卓越產(chǎn)品,不僅在全球范圍內(nèi)樹(shù)立起強(qiáng)大
    的頭像 發(fā)表于 09-08 16:55 ?1527次閱讀
    <b class='flag-5'>跨</b><b class='flag-5'>語(yǔ)言</b>交流的全場(chǎng)景解決方案,時(shí)空壺X1的進(jìn)化之路

    米爾RK3576部署端側(cè)多模態(tài)多輪對(duì)話(huà),6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

    細(xì)化需求,系統(tǒng)需實(shí)時(shí)調(diào)整響應(yīng)策略 1.2 多輪對(duì)話(huà)系統(tǒng)鳥(niǎo)瞰:三顆“核心”協(xié)同驅(qū)動(dòng)RK3576 多模態(tài)交互對(duì)話(huà)方案基于 RKLLM 的核心運(yùn)作,依賴(lài)于圖像視覺(jué)編碼器、大語(yǔ)言模型與對(duì)話(huà)管家這三大模塊的協(xié)同
    發(fā)表于 09-05 17:25

    云知聲四篇論文入選自然語(yǔ)言處理頂會(huì)ACL 2025

    結(jié)果正式公布。云知聲在此次國(guó)際學(xué)術(shù)盛會(huì)中表現(xiàn)卓越,共有4篇論文被接收,其中包括2篇主會(huì)論文(Main Paper)和2篇Findings。入選的4篇論文聚焦大語(yǔ)言模型知識(shí)溯源、圖文音多
    的頭像 發(fā)表于 05-26 14:15 ?1019次閱讀
    云知聲四篇<b class='flag-5'>論文</b>入選自然<b class='flag-5'>語(yǔ)言</b>處理頂會(huì)<b class='flag-5'>ACL</b> 2025

    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL多模態(tài)理解模型

    模態(tài)理解模型是讓AI像人類(lèi)一樣,通過(guò)整合多維度信息(如視覺(jué)語(yǔ)言、聽(tīng)覺(jué)等),理解數(shù)據(jù)背后的語(yǔ)義、情感、邏輯或場(chǎng)景,從而完成推理、決策等任務(wù)。
    的頭像 發(fā)表于 04-18 09:30 ?2617次閱讀
    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL多<b class='flag-5'>模態(tài)</b>理解模型

    移遠(yuǎn)通信智能模組全面接入多模態(tài)AI大模型,重塑智能交互新體驗(yàn)

    全系智能模組產(chǎn)品已全面接入火山引擎豆包VLM(視覺(jué)語(yǔ)言)多模態(tài)AI大模型。這一突破性進(jìn)展表明,搭載移遠(yuǎn)任意智能模組的終端設(shè)備,均可無(wú)縫融合多模態(tài)AI大模型的強(qiáng)大功能,為用戶(hù)帶來(lái)更智能、
    發(fā)表于 03-21 14:12 ?401次閱讀
    移遠(yuǎn)通信智能模組全面接入多<b class='flag-5'>模態(tài)</b>AI大模型,重塑智能交互新體驗(yàn)

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    視覺(jué)語(yǔ)言模型(Visual Language Model, VLM)是一種結(jié)合視覺(jué)(圖像/視頻)和語(yǔ)言(文本)處理能力的多模態(tài)人工智能模型,
    的頭像 發(fā)表于 03-17 15:32 ?7498次閱讀
    ?VLM(<b class='flag-5'>視覺(jué)</b><b class='flag-5'>語(yǔ)言</b>模型)?詳細(xì)解析

    ?多模態(tài)交互技術(shù)解析

    模態(tài)交互 多模態(tài)交互( Multimodal Interaction )是指通過(guò)多種感官通道(如視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等)或多種交互方式(如語(yǔ)音、手勢(shì)、觸控、眼動(dòng)等)與計(jì)算機(jī)系統(tǒng)進(jìn)行自然、協(xié)同的信息交互
    的頭像 發(fā)表于 03-17 15:12 ?3457次閱讀

    ??低曃乃汛鎯?chǔ)系列:模態(tài)檢索,安防新境界

    ??低曂瞥龅奈乃汛鎯?chǔ)系列產(chǎn)品,引領(lǐng)了安防領(lǐng)域的信息檢索新革命。該產(chǎn)品憑借多模態(tài)大模型技術(shù),實(shí)現(xiàn)了自然語(yǔ)言與視頻圖像的模態(tài)信息檢索,將安防錄像回溯帶入了全新的智能時(shí)代。 用戶(hù)只需輸入
    的頭像 發(fā)表于 02-18 14:08 ?1039次閱讀

    一文詳解視覺(jué)語(yǔ)言模型

    視覺(jué)語(yǔ)言模型(VLM)是一種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?3174次閱讀
    一文詳解<b class='flag-5'>視覺(jué)</b><b class='flag-5'>語(yǔ)言</b>模型

    AKI語(yǔ)言調(diào)用庫(kù)神助攻C/C++代碼遷移至HarmonyOS NEXT

    語(yǔ)言調(diào)用,成為開(kāi)發(fā)者和廠(chǎng)商面臨的重要挑戰(zhàn)。為解決這一痛點(diǎn),一款名為AKI (Alpha Kernel Interacting)的開(kāi)源三方庫(kù)應(yīng)運(yùn)而生,它通過(guò)高效封裝語(yǔ)言調(diào)用接口,幫助
    發(fā)表于 01-02 17:08

    NaVILA:加州大學(xué)與英偉達(dá)聯(lián)合發(fā)布新型視覺(jué)語(yǔ)言模型

    (VLM)是一種具備多模態(tài)生成能力的先進(jìn)AI模型。它能夠智能地處理文本、圖像以及視頻等多種提示,并通過(guò)復(fù)雜的推理過(guò)程,實(shí)現(xiàn)對(duì)這些信息的準(zhǔn)確理解和應(yīng)用。NaVILA正是基于這一原理,通過(guò)將大型語(yǔ)言模型(LLM)與視覺(jué)編碼器進(jìn)行巧妙
    的頭像 發(fā)表于 12-13 10:51 ?949次閱讀

    一文理解多模態(tài)語(yǔ)言模型——下

    /understanding-multimodal-llms ? 《一文理解多模態(tài)語(yǔ)言模型 - 上》介紹了什么是多模態(tài)語(yǔ)言模型,以及構(gòu)建多模態(tài)
    的頭像 發(fā)表于 12-03 15:18 ?972次閱讀
    一文理解多<b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語(yǔ)言</b>模型——下

    一文理解多模態(tài)語(yǔ)言模型——上

    /understanding-multimodal-llms 在過(guò)去幾個(gè)月中, OpenVINO? 架構(gòu)師 Yury閱讀了眾多有關(guān)多模態(tài)語(yǔ)言模型的論文和博客,在此基礎(chǔ)上,推薦了一篇解讀多模態(tài)
    的頭像 發(fā)表于 12-02 18:29 ?1916次閱讀
    一文理解多<b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語(yǔ)言</b>模型——上