chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

簡述文本與圖像領域的多模態(tài)學習有關問題

自然語言處理愛好者 ? 來源:哈工大SCIR ? 作者:李曉辰 ? 2021-08-26 16:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來自:哈工大SCIR

本期導讀:近年來研究人員在計算機視覺和自然語言處理方向均取得了很大進展,因此融合了二者的多模態(tài)深度學習也越來越受到關注。本期主要討論結合文本和圖像的多模態(tài)任務,將從多模態(tài)預訓練模型中的幾個分支角度,簡述文本與圖像領域的多模態(tài)學習有關問題。

1. 引言

近年來,計算機視覺和自然語言處理方向均取得了很大進展。而融合二者的多模態(tài)深度學習也越來越受到關注,在基于圖像和視頻的字幕生成、視覺問答(VQA)、視覺對話、基于文本的圖像生成等方面研究成果顯著,下圖1展示了有關多模態(tài)深度學習的應用范疇。

在這些任務中,無論是文本還是語音,自然語言都起到了幫助計算機“理解”圖像內(nèi)容的關鍵作用,這里的“理解”指的是對齊語言中蘊含的語義特征與圖像中蘊含的圖像特征。本文主要關注于結合文本和圖像的多模態(tài)任務,將從多模態(tài)預訓練模型中的幾個分支來分析目前圖像與文本的多模態(tài)信息處理領域的有關問題。

2. 多模態(tài)預訓練模型

學習輸入特征的更好表示是深度學習的核心內(nèi)容。在傳統(tǒng)的NLP單模態(tài)領域,表示學習的發(fā)展已經(jīng)較為完善,而在多模態(tài)領域,由于高質(zhì)量有標注多模態(tài)數(shù)據(jù)較少,因此人們希望能使用少樣本學習甚至零樣本學習。最近兩年出現(xiàn)了基于Transformer結構的多模態(tài)預訓練模型,通過海量無標注數(shù)據(jù)進行預訓練,然后使用少量有標注數(shù)據(jù)進行微調(diào)即可。

多模態(tài)預訓練模型根據(jù)信息融合的方式可分為兩大類,分別是Cross-Stream類和Single-Stream類。

(1)Cross-Stream類模型是指將不同模態(tài)的輸入分別處理之后進行交叉融合,例如ViLBERT[1]。2019年Lu Jiasen等人將輸入的文本經(jīng)過文本Embedding層后被輸入到Transformer編碼器中提取上下文信息。

使用預訓練Faster R-CNN生成圖片候選區(qū)域提取特征并送入圖像Embedding層,然后將獲取好的文本和圖像表示通過Co-attention-transformer模塊進行交互融合,得到最后的表征。

(2)Single-Stream類模型將圖片、文本等不同模態(tài)的輸入一視同仁,在同一個模型進行融合,例如VL-BERT[2]。2020年,Su Weijie等人提出了VL-BERT,它采用transformer作為主干,將視覺和語言嵌入特征同時輸入模型。

3. 統(tǒng)一多模態(tài)模型

在之前的模型中,單模態(tài)數(shù)據(jù)集上訓練的模型只能做各自領域的任務,否則它們的表現(xiàn)會大幅下降。要想學習多模態(tài)模型必須圖文結合才行。這種多模態(tài)圖文對數(shù)據(jù)數(shù)據(jù)量少,獲取成本高。2021年,百度的Li Wei等人[3]提出的UNIMO模型,統(tǒng)一了單模態(tài)、多模態(tài)模型的訓練方式,既可以利用海量的單模態(tài)數(shù)據(jù),又能將多模態(tài)信號統(tǒng)一在一個語義空間內(nèi)促進理解。

UNIMO的核心網(wǎng)絡是Transformer,同時為圖像和文本輸入學習統(tǒng)一的語義表示。圖像和文本數(shù)據(jù)分別通過預訓練的Faster R-CNN和Bert進行特征提取和表示,多模態(tài)圖文對數(shù)據(jù)被轉(zhuǎn)換為圖像表示序列和文本表示序列的拼接。

這三種類型數(shù)據(jù)共享模型參數(shù),經(jīng)過多層注意力機制后得到圖像文本信息統(tǒng)一的語義表示,UNIMO結構如圖4所示。其訓練方式類似Bert, 此外論文還提出了一種跨模態(tài)對比學習的新預訓練方法。

在多模態(tài)任務上, UNIMO超過了諸如ViLBERT、VLP、UNITER、Oscar、Villa等最新的多模預訓練模型。而且在單模態(tài)任務上也取得了不錯的效果,如圖5(b)所示。

4. 視覺物體錨點模型

前面的幾個模型只是將圖像區(qū)域特征和文本特征連接起來作為輸入,并不參考任何對齊線索,利用Transformer的self-attention機制,讓模型自動學習整張圖像和文本的語義對齊方式。Oscar的作者[4]提出把物體用作圖像和文本語義層面上的錨點(Anchor Point),以簡化圖像和文本之間的語義對齊的學習任務。

使用Faster R-CNN等預訓練物體檢測器 ,將圖像表示為一組圖像區(qū)域特征,每個圖像區(qū)域特征分配一個物體標簽,同時使用預訓練后的BERT得到物體標簽的詞嵌入表示。

該模型在共享空間中顯式地將圖像和文本關聯(lián)在一起,物體則扮演圖像、文本語義對齊中錨點的角色。在此例中,由于視覺重疊區(qū)域,“狗”和“沙發(fā)”在圖像區(qū)域特征空間中相似,在單詞嵌入空間中有所差異。

經(jīng)過實驗測試,該模型的性能在多個任務上已經(jīng)超過SOTA模型。下表中 SoTAS、 SoTAB、和SoTAL分別表示小規(guī)模模型、與Bert-base和Bert-large規(guī)模相近的VLP模型。OscarB和OscarL分別是基于Bert-base和Bert-large訓練的Oscar模型。

5. 總結

目前多模態(tài)研究已經(jīng)取得了較大進展,但如果以構建能感知多模態(tài)信息并利用多模態(tài)信息跨越語義鴻溝的智能系統(tǒng)為目標,那么現(xiàn)在的研究仍處于初級階段,既面臨著挑戰(zhàn),也存在著機遇。在未來,多模態(tài)表示學習、多模態(tài)情感分析以及任務導向的大規(guī)模多模態(tài)人機交互系統(tǒng)等方向的發(fā)展值得我們關注。

Reference

[1] Lu J , Batra D , Parikh D , et al. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks[J]。 2019.

[2] Su W , Zhu X , Y Cao, et al. VL-BERT: Pre-training of Generic Visual-Linguistic Representations[J]。 2019.

[3] Li W , Gao C , Niu G , et al. UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning[J]。 2020.

[4] Li X , Yin X , Li C , et al. Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks[M]。 2020.

原文:李曉辰

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像
    +關注

    關注

    2

    文章

    1095

    瀏覽量

    42144
  • 計算機視覺
    +關注

    關注

    9

    文章

    1714

    瀏覽量

    47443
  • 深度學習
    +關注

    關注

    73

    文章

    5589

    瀏覽量

    123877
  • 自然語言處理

    關注

    1

    文章

    629

    瀏覽量

    14557

原文標題:多模態(tài)預訓練模型簡述

文章出處:【微信號:NLP_lover,微信公眾號:自然語言處理愛好者】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    格靈深瞳模態(tài)大模型Glint-ME讓圖文互搜更精準

    在電商、安防等場景下,圖文互搜應用廣泛。隨著以CLIP為代表的模態(tài)表征方法相繼提出,過去單一模態(tài)搜索(文搜文、圖搜圖)被突破,模型可以同時理解文本、
    的頭像 發(fā)表于 11-02 15:56 ?1197次閱讀
    格靈深瞳<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型Glint-ME讓圖文互搜更精準

    亞馬遜云科技上線Amazon Nova模態(tài)嵌入模型

    Embeddings模態(tài)嵌入模型現(xiàn)已在Amazon Bedrock上線,這是一款專為Agentic RAG與語義搜索應用打造的頂尖模態(tài)嵌入模型。該模型是首個通過單一模型支持
    的頭像 發(fā)表于 10-29 17:15 ?98次閱讀
    亞馬遜云科技上線Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嵌入模型

    米爾RK3576部署端側模態(tài)輪對話,6TOPS算力驅(qū)動30億參數(shù)LLM

    細化需求,系統(tǒng)需實時調(diào)整響應策略 1.2 輪對話系統(tǒng)鳥瞰:三顆“核心”協(xié)同驅(qū)動RK3576 模態(tài)交互對話方案基于 RKLLM 的核心運作,依賴于圖像視覺編碼器、大語言模型與對話管
    發(fā)表于 09-05 17:25

    淺析模態(tài)標注對大模型應用落地的重要性與標注實例

    ”的關鍵工序——模態(tài)標注重要性日益凸顯。 一、什么是模態(tài)標注? 模態(tài)標注是指對
    的頭像 發(fā)表于 09-05 13:49 ?674次閱讀

    基于米爾瑞芯微RK3576開發(fā)板的Qwen2-VL-3B模型NPU模態(tài)部署評測

    案例:支持圖像文本交互 步驟 1:環(huán)境準備 步驟 2:模型的獲取、驗證與格式轉(zhuǎn)換 步驟 3:修改代碼并交叉編譯可執(zhí)行文件并上傳到板子上 步驟 4:上傳文件到開發(fā)板 性能測試 Tips
    發(fā)表于 08-29 18:08

    商湯科技模態(tài)通用智能戰(zhàn)略思考

    時間是最好的試金石,AI領域尤其如此。當行業(yè)熱議大模型走向時,商湯早已錨定“模態(tài)通用智能”——這是我們以深厚研究積累和實踐反復驗證的可行路徑。
    的頭像 發(fā)表于 08-14 09:33 ?985次閱讀

    移遠通信智能模組全面接入模態(tài)AI大模型,重塑智能交互新體驗

    隨著千行百業(yè)數(shù)智化進程的不斷加速,模態(tài)AI大模型的應用需求不斷攀升,圖像、語音、視頻等多樣化的交互方式正逐漸成為推動行業(yè)變革的新動力。 ? 3月20日,全球物聯(lián)網(wǎng)整體解決方案供應商移遠通信宣布,其
    發(fā)表于 03-21 14:12 ?396次閱讀
    移遠通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大模型,重塑智能交互新體驗

    移遠通信智能模組全面接入模態(tài)AI大模型,重塑智能交互新體驗

    隨著千行百業(yè)數(shù)智化進程的不斷加速,模態(tài)AI大模型的應用需求不斷攀升,圖像、語音、視頻等多樣化的交互方式正逐漸成為推動行業(yè)變革的新動力。3月20日,全球物聯(lián)網(wǎng)整體解決方案供應商移遠通信宣布,其全系
    的頭像 發(fā)表于 03-20 19:03 ?660次閱讀
    移遠通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大模型,重塑智能交互新體驗

    ?模態(tài)交互技術解析

    模態(tài)交互 模態(tài)交互( Multimodal Interaction )是指通過多種感官通道(如視覺、聽覺、觸覺等)或多種交互方式(如語音、手勢、觸控、眼動等)與計算機系統(tǒng)進行自然、
    的頭像 發(fā)表于 03-17 15:12 ?3455次閱讀

    階躍星辰開源模態(tài)模型,天數(shù)智芯迅速適配

    近日,頭部大模型創(chuàng)業(yè)公司階躍星辰在行業(yè)內(nèi)引起了軒然大波,宣布正式開源兩款Step系列模態(tài)模型——Step-Video-T2V視頻生成模型和Step-Audio語音交互模型。這一消息迅速引發(fā)了行業(yè)
    的頭像 發(fā)表于 02-19 14:30 ?806次閱讀

    一文詳解視覺語言模型

    視覺語言模型(VLM)是一種模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像文本
    的頭像 發(fā)表于 02-12 11:13 ?3169次閱讀
    一文詳解視覺語言模型

    2025年Next Token Prediction范式會統(tǒng)一模態(tài)

    各種模態(tài)的信息(如圖像、視頻和音頻片段)分解為最小的單元序列(Token),以便 Transformer 結構為基礎的 NTP 模型學習。 Tokenization 方法可以分為離散(Discrete
    的頭像 發(fā)表于 01-21 10:11 ?918次閱讀
    2025年Next Token Prediction范式會統(tǒng)一<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嗎

    體驗MiniCPM-V 2.6 模態(tài)能力

    模態(tài)組網(wǎng)
    jf_23871869
    發(fā)布于 :2025年01月20日 13:40:48

    商湯日日新模態(tài)大模型權威評測第一

    剛剛,商湯科技日日新SenseNova模態(tài)大模型,在權威綜合評測權威平臺OpenCompass的模態(tài)評測中取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?1480次閱讀

    一文理解模態(tài)大語言模型——上

    /understanding-multimodal-llms 在過去幾個月中, OpenVINO? 架構師 Yury閱讀了眾多有關模態(tài)大語言模型的論文和博客,在此基礎上,推薦了一篇解讀
    的頭像 發(fā)表于 12-02 18:29 ?1913次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言模型——上