chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

橋接視覺與語言的研究綜述

MqC7_CAAI_1981 ? 來源:YXQ ? 2019-08-09 18:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近年來,由于深度學(xué)習(xí)計算機(jī)視覺和自然語言處理等多學(xué)科領(lǐng)域的興趣激增,視覺和語言任務(wù)的橋接得到了顯著的發(fā)展。在本綜述中,我們重點(diǎn)研究了10種不同的視覺和語言橋接任務(wù),包括它們的問題定義、方法、現(xiàn)有數(shù)據(jù)集、評估指標(biāo),以及與相應(yīng)的最先進(jìn)方法的結(jié)果的比較。這超越了早期的一些綜述,這些綜述要么是特定于任務(wù)的,要么只專注于一種類型的視覺內(nèi)容,即圖像或視頻。最后,我們討論了視覺與語言研究未來可能的整合方向。

引言

近年來,深度學(xué)習(xí)的發(fā)展使得計算機(jī)視覺(CV)和自然語言處理(NLP)領(lǐng)域在多項任務(wù)中取得重大進(jìn)展。

最近很多研究都熱衷于解決這些傳統(tǒng)獨(dú)立領(lǐng)域的語言和視覺信息相結(jié)合的挑戰(zhàn)。應(yīng)對語言和視覺結(jié)合挑戰(zhàn)的方法應(yīng)提供對視覺或文本內(nèi)容的完全理解,并期望(1)生成關(guān)于視覺內(nèi)容的可理解但簡潔且語法良好的描述,反之亦然,其中給定文本描述生成視覺內(nèi)容返回(2)識別視覺內(nèi)容中的對象并推斷它們與原因的關(guān)系或回答關(guān)于它們的任意問題(3)通過利用視覺和自然語言指令的輸入來進(jìn)行瀏覽(4)翻譯文本從一種語言到另一種語言的內(nèi)容,其視覺內(nèi)容用于消除歧義(5)生成有關(guān)視覺內(nèi)容的故事等。這些方法的設(shè)計可以處理和關(guān)聯(lián)來自多種形式的信息(即語言和視覺信息),通常被稱為多模態(tài)學(xué)習(xí)模型的一部分(Mogadala,2015)。

然而,在這篇文章中,作者不僅提供了十個不同任務(wù)的全面概述,還提供了驅(qū)動當(dāng)前視覺和語言研究集成的方法、數(shù)據(jù)集和評估指標(biāo)。在第2節(jié)中,首先介紹了視覺和語言集成的10個重要任務(wù)及其方法,并在第3節(jié)中概述了用于每個任務(wù)的數(shù)據(jù)集。然后,在第4節(jié)中,我們分別描述了視覺和語言的表示,并進(jìn)一步討論了將視覺和語言結(jié)合起來實(shí)現(xiàn)任務(wù)的主要方法。在第5節(jié)中,我們給出了用于所有10個任務(wù)的評估指標(biāo)。此外,在第6節(jié)中,還比較和討論了通過相應(yīng)方法實(shí)現(xiàn)的每個任務(wù)的基準(zhǔn)結(jié)果。在第7節(jié)中,我們討論了可能的未來方向,最后第8節(jié)結(jié)束了我們的綜述,并討論了對結(jié)果的一些見解。

然而,在綜述中,我們超越了單詞并提出了那些將可變長度大于單詞的文本作為語言輸入的任務(wù)。這些任務(wù)中的大多數(shù)被視為對CV、NLP或這兩個問題的擴(kuò)展。圖1總結(jié)了不同的任務(wù)。然而,為了了解這些任務(wù)如何被視為CV,NLP或兩者中問題的自然延伸,我們簡要地發(fā)現(xiàn)它們與其各自研究中解決的類似任務(wù)之間的相關(guān)性。

圖1:十種不同的語言和視覺集成任務(wù)。

圖2:給定一張圖像,標(biāo)準(zhǔn)圖像描述生成模型生成一個全局文本描述。

表1:生成圖像全局描述的方法摘要。

圖3:給定一個視頻(表示為幀序列),視頻描述生成模型生成單個全局標(biāo)題。

圖4:給定圖像序列,圖像敘事模型按順序生成文本故事。

圖5:給定視頻幀(摘自(Li et al., 2018)),視頻敘事模型按順序生成文本故事。

圖6:給定一張圖像和問題,圖像問答模型產(chǎn)生答案。

圖7:給定一個視頻(由TV Q&A數(shù)據(jù)集中的幀序列表示)和問題,視頻問答模型從多個選項中找到正確的答案。

圖8:給定一張圖像,問題和對話歷史記錄,圖像對話模型基于它生成答案。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:NLP+CV《橋接視覺與語言的研究綜述》,帶你全面了解視覺+語言最新應(yīng)用和方法

文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學(xué)會】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    PFC變換器綜述

    領(lǐng)域還未有系統(tǒng)性的綜述文獻(xiàn)。本文是作者對國內(nèi)外的相關(guān)文獻(xiàn)進(jìn)行了仔細(xì)研讀,并對PFC技術(shù)進(jìn)行了深入研究,對無PFC變換器拓?fù)涞暮铣煞桨高M(jìn)行的綜述,總結(jié)了三大類無
    發(fā)表于 03-13 13:50

    COM和CORBA的與應(yīng)用

    根據(jù)CORBA規(guī)范,闡述了組件的體系結(jié)構(gòu)和六種模型,并引申出八種方式,比較了各種
    發(fā)表于 02-27 16:07 ?29次下載
    COM和CORBA的<b class='flag-5'>橋</b><b class='flag-5'>接</b>與應(yīng)用

    網(wǎng)橋和,網(wǎng)橋和是什么意思

    網(wǎng)橋和,網(wǎng)橋和是什么意思 網(wǎng)橋(Bridge)也稱橋接器,是連接兩個局域網(wǎng)的存儲轉(zhuǎn)發(fā)設(shè)備,用它可以完成具有相同或相似體系
    發(fā)表于 03-20 16:03 ?1.3w次閱讀

    基于CDMA模塊的嵌人式無線傳輸裝置

    研究旨在解決各種需要低成本無線數(shù)據(jù)傳輸?shù)?b class='flag-5'>橋設(shè)備.即某客戶端設(shè)備通過RS232與本設(shè)備相連。該
    的頭像 發(fā)表于 02-09 04:15 ?8242次閱讀
    基于CDMA模塊的嵌人式無線傳輸<b class='flag-5'>橋</b><b class='flag-5'>接</b>裝置

    視覺問答與對話任務(wù)研究綜述

    對機(jī)器的感知能力、認(rèn)知能力和推理能力均提出了較髙的要求,在跨模態(tài)人機(jī)交互應(yīng)用中具有實(shí)用前景。文中對近年來視覺問答與對話的研究進(jìn)展進(jìn)行了綜述,對數(shù)據(jù)集和算法進(jìn)行了歸納,對研究挑戰(zhàn)和問題進(jìn)
    發(fā)表于 04-08 10:33 ?10次下載
    <b class='flag-5'>視覺</b>問答與對話任務(wù)<b class='flag-5'>研究</b><b class='flag-5'>綜述</b>

    高速視覺測量系統(tǒng)關(guān)鍵技術(shù)及研究綜述

    高速視覺測量系統(tǒng)關(guān)鍵技術(shù)及研究綜述
    發(fā)表于 06-16 10:16 ?15次下載

    labview視覺中不同模塊的使用綜述

    labview視覺中不同模塊的使用綜述
    發(fā)表于 09-10 16:16 ?38次下載

    視覺語言導(dǎo)航領(lǐng)域任務(wù)、方法和未來方向的綜述

    視覺語言導(dǎo)航(VLN)是一個新興的研究領(lǐng)域,旨在構(gòu)建一種可以用自然語言與人類交流并在真實(shí)的3D環(huán)境中導(dǎo)航的具身代理,與計算機(jī)視覺、自然
    的頭像 發(fā)表于 09-20 14:30 ?5574次閱讀

    多個路由器如何無線成一個網(wǎng)絡(luò) 路由器教程

    多個路由器如何無線成一個網(wǎng)絡(luò) 路由器教程
    發(fā)表于 09-28 09:25 ?1次下載

    多維度剖析視覺-語言訓(xùn)練的技術(shù)路線

    (如BERT\GPT等)的啟發(fā),視覺-語言預(yù)訓(xùn)練 (Vision-Language Pre-training, VLP) 逐漸受到關(guān)注,成為如今 VL 任務(wù)的核心訓(xùn)練范式。本文對 VLP 領(lǐng)域近期的綜述文章進(jìn)行整理,回顧其最新的
    的頭像 發(fā)表于 02-23 11:15 ?1321次閱讀

    無線和mesh組網(wǎng)哪個好?

    無線和Mesh組網(wǎng)都是用于擴(kuò)展無線網(wǎng)絡(luò)覆蓋范圍的技術(shù),但它們的工作原理和應(yīng)用場景有所不同。 無線接通常是一對一的連接,相對較容易設(shè)置和維護(hù)。它的優(yōu)點(diǎn)在于簡單性,適用于需要建立點(diǎn)對點(diǎn)連接的場景
    的頭像 發(fā)表于 01-19 16:12 ?9924次閱讀

    路由器路由器怎樣 路由器接好還是中繼好

    路由器和中繼是常用的網(wǎng)絡(luò)擴(kuò)展方式,用于擴(kuò)大網(wǎng)絡(luò)覆蓋范圍,提供更好的網(wǎng)絡(luò)連接。這兩種方式在不同的場景下有著各自的優(yōu)勢,下面將詳細(xì)介紹如何路由器,以及
    的頭像 發(fā)表于 02-20 14:26 ?8041次閱讀

    與路由的區(qū)別 網(wǎng)絡(luò)技術(shù)的應(yīng)用

    一、與路由的區(qū)別 與路由是計算機(jī)網(wǎng)絡(luò)中兩種重要的技術(shù),它們在網(wǎng)絡(luò)連接和數(shù)據(jù)傳輸方面發(fā)揮著不同的作用。以下是
    的頭像 發(fā)表于 01-31 10:40 ?1389次閱讀

    故障排除技巧

    在現(xiàn)代網(wǎng)絡(luò)環(huán)境中,技術(shù)是連接不同網(wǎng)絡(luò)段的關(guān)鍵組件。它不僅提高了網(wǎng)絡(luò)的靈活性,還增強(qiáng)了數(shù)據(jù)傳輸?shù)男?。然而?b class='flag-5'>橋設(shè)備和配置可能會出現(xiàn)各種問題,導(dǎo)致網(wǎng)絡(luò)連接中斷或性能下降。 一、了解
    的頭像 發(fā)表于 01-10 11:05 ?1172次閱讀

    安裝注意事項

    安裝注意事項 1. 了解的基本概念 在進(jìn)行安裝之前,了解
    的頭像 發(fā)表于 01-10 11:15 ?662次閱讀