chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何在多模態(tài)的語境中利用Transformer強大的表達能力?

深度學習自然語言處理 ? 來源:夕小瑤的賣萌屋 ? 作者:子龍 ? 2021-03-29 16:47 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

曾幾何時,多模態(tài)預訓練已經不是一個新的話題,各大頂會諸多論文仿佛搭上Visual和BERT,就能成功paper+=1,VisualBERT、ViLBERT層出不窮,傻傻分不清楚。..。..這些年NLPer在跨界上忙活的不亦樂乎,提取視覺特征后和文本詞向量一同輸入到萬能的Transformer中,加大力度預訓練,總有意想不到的SOTA。

如何在多模態(tài)的語境中更細致準確地利用Transformer強大的表達能力呢?Facebook最新的 Transformer is All You Need 也許可以給你答案。

a12e796a-8e8f-11eb-8b86-12bb97331649.png

這篇貌似標題黨的文章開宗明義,針對文本+視覺的多模態(tài)任務,用好Transformer就夠了,與許多前作不同,這次提出的模型一個模型可以解決多個任務:目標檢測、自然語言理解、視覺問答,各個模型板塊各司其職、條理清晰:視覺編碼器、文本編碼器、特征融合解碼器,都是建立在多層Transformer之上,最后添加為每個任務設計的處理器,通過多任務訓練,一舉刷新了多個任務的榜單。

a1a44924-8e8f-11eb-8b86-12bb97331649.png

文本編碼器用Transformer提取文本特征是個老生常談的問題,從BERT石破天驚開始,純文本領域近乎已被Transformer蠶食殆盡,所以該文也不能免俗,直接借用BERT的結構提取文本內容,區(qū)別在于,為了解決多個任務,在文本序列前添加了一個針對不同任務的參數向量,在最后輸出隱藏狀態(tài)到解碼器時再去掉。

視覺編碼器本文將Transformer強大的表達能力運用到視覺特征的提取中,由于圖片像素點數量巨大,首先通過基于卷積神經網絡的ResNet-50提取卷積特征,極大程度上地降低了特征數量,最終得到的feature map大小為,然后用全聯接層調整單個特征的維度到,再利用多層Transformer中的注意力機制提取各個feature之間的關系,由于Transformer的輸入是序列,文章將拉成一條長為的序列,另外和文本編碼器類似,同樣添加了與下游任務相關的。

其中是調整維度的全聯接層,是多層Transformer編碼器。

模態(tài)融合解碼器多模態(tài)的關鍵之一就在于怎么同時利用多個模態(tài),在本文中是通過Transformer的解碼器實現的,這個解碼器首先將任務相關的query做self-attention,再將結果與文本編碼器和視覺編碼器的結果做cross-attention,針對單一模態(tài)的任務,選取對應編碼器的輸出即可,針對多模態(tài)的任務,取兩個編碼器輸出的拼接。

任務處理器(task-specific output head)之前多模態(tài)預訓練模型往往只針對某一項任務,而本文提出的一個模型可以解決多個文本+視覺任務,與BERT可以解決多個文本任務類似,本文的模型在模態(tài)融合解碼器的結果上添加為每個任務設計的處理器,這個處理器相對簡單,用于從隱藏狀態(tài)中提取出與特定任務相匹配的特征。

目標檢測:添加box_head和class_head兩個前饋神經網絡從最后一層隱藏狀態(tài)中提取特征用來確定目標位置和預測目標類型。

自然語言理解、視覺問答:通過基于全聯接層的分類模型實現,將模態(tài)融合解碼器結果的第一位隱藏狀態(tài)輸入到兩層全聯接層并以GeLU作為激活函數,最后計算交叉熵損失。

實驗與總結本文提出的多模態(tài)預訓練模型各個板塊劃分明確,通過多層Transformer分別提取特征,再利用解碼器機制融合特征并完成下游任務,同時借助最后一層任務相關的處理器,可以通過一個模型解決多個任務,同時也讓多任務預訓練成為可能,并在實驗中的各個數據集上得到了論文主要進行了兩部分實驗:

多任務學習:

這里的多任務涉及目標檢測和視覺問答兩個任務,在目標檢測上運用COCO和VG兩個數據集,在視覺問答上運用VQAv2數據集。對比了單一任務和多任務同時訓練的結果,同時對比了不同任務共用解碼器的結果。

a1f97444-8e8f-11eb-8b86-12bb97331649.png

從結果中我們可以看出,單純的使用多任務訓練并不一定可以提高結果,不同任務間雖然相關但是卻不完全相同,這可能是任務本身差異或者數據集的特性所導致,第二行和第五行可以很明顯地看出COCO上的目標檢測和VQAv2的視覺問答相結合后,結果有顯著的下降,然而VG上的目標檢測卻能夠和視覺問答很好地結合,通過三個數據集上的共同訓練,可以得到最高的結果。

多模態(tài)學習:

這一實驗中,為了體現所提出模型能夠有效解決多個多種模態(tài)的不同任務,論文作者在之前COCO、VG、VQAv2的基礎上,增加了單一文本任務GLUE的幾個數據集(QNLI、QQP、MNLI、SST-2)和視覺推斷數據集SNLI-VE,從數據集的數量上可以看出本文模型的全能性。與本文對比的有純文本的BERT、基于Transformer的視覺模型DETR、多模態(tài)預訓練模型VisualBERT。

a2736164-8e8f-11eb-8b86-12bb97331649.png

仔細看各個數據集上的結果,不難看出本文提出的模型其實并不能在所有數據集多上刷出SOTA,比如COCO上遜色于DETR,SNLI-VE遜色于VisualBERT,SST-2遜色于BERT,其他數據集上都有一定的提高,但是模型卻勝在一個“全”字,模型的結構十分清晰明了,各個板塊的作用十分明確,同時針對不同任務的處理器也對后續(xù)多模態(tài)任務富有啟發(fā)性。

原文標題:【Transformer】沒有什么多模態(tài)任務是一層Transformer解決不了的!

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3899

    瀏覽量

    141335
  • Transforme
    +關注

    關注

    0

    文章

    12

    瀏覽量

    8938
  • 多模
    +關注

    關注

    1

    文章

    30

    瀏覽量

    11147

原文標題:【Transformer】沒有什么多模態(tài)任務是一層Transformer解決不了的!

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    米爾RK3576部署端側模態(tài)輪對話,6TOPS算力驅動30億參數LLM

    配合,三者各司其職、無縫銜接,共同構建起完整的模態(tài)對話能力。 輪對話系統架構 1. 圖像視覺編碼器(Vision Encoder) 模型選擇:采用
    發(fā)表于 09-05 17:25

    自動駕駛Transformer大模型會取代深度學習嗎?

    持續(xù)討論。特別是在自動駕駛領域,部分廠商開始嘗試將模態(tài)大模型(MLLM)引入到感知、規(guī)劃與決策系統,引發(fā)了“傳統深度學習是否已過時”的激烈爭論。然而,從技術原理、算力成本、安全需求與實際落地路徑等維度來看,Transformer
    的頭像 發(fā)表于 08-13 09:15 ?3892次閱讀
    自動駕駛<b class='flag-5'>中</b><b class='flag-5'>Transformer</b>大模型會取代深度學習嗎?

    偉視界:解密GB28181流媒體平臺,模態(tài)AI的強大支撐

    GB28181流媒體平臺作為模態(tài)AI系統的基礎數據樞紐,解決了源異構視頻資源的接入與處理問題,提供標準化數據格式,支持各類智能分析與應用場景。其廣泛的協議兼容性和強大的視頻處理
    的頭像 發(fā)表于 07-24 14:38 ?516次閱讀
    <b class='flag-5'>中</b>偉視界:解密GB28181流媒體平臺,<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI的<b class='flag-5'>強大</b>支撐

    研華科技攜手創(chuàng)新奇智推出模態(tài)大模型AI一體機

    這是一款基于研華高性能邊緣計算平臺MIC-733,深度集成創(chuàng)新奇智視覺小模型與模態(tài)大模型的邊緣智能終端,通過創(chuàng)新的“視覺識別 + 深度語義理解”融合分析路徑,具備強大的本地視頻智能分析及大模型深度研判
    的頭像 發(fā)表于 07-17 17:14 ?763次閱讀
    研華科技攜手創(chuàng)新奇智推出<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型AI一體機

    Android Studio的Gemini支持模態(tài)輸入功能

    的 Gemini 現已支持模態(tài)輸入,您可在提示中直接添加圖像!這為團隊協作和界面開發(fā)工作流程解鎖了更多新的可能性。
    的頭像 發(fā)表于 05-14 16:44 ?953次閱讀

    設備預測性維護進入2.0時代:模態(tài)AI如何突破誤報困局

    三號生產線傳感器報警頻發(fā),模態(tài) AI 技術為解決難題提供新思路。工廠升級數據層、決策層、應用層,實現故障預測,系統上線后立即顯現強大能力,解決設備問題。
    的頭像 發(fā)表于 04-22 09:24 ?613次閱讀
    設備預測性維護進入2.0時代:<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI如何突破誤報困局

    移遠通信智能模組全面接入模態(tài)AI大模型,重塑智能交互新體驗

    全系智能模組產品已全面接入火山引擎豆包VLM(視覺語言)模態(tài)AI大模型。這一突破性進展表明,搭載移遠任意智能模組的終端設備,均可無縫融合模態(tài)AI大模型的
    發(fā)表于 03-21 14:12 ?396次閱讀
    移遠通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大模型,重塑智能交互新體驗

    移遠通信智能模組全面接入模態(tài)AI大模型,重塑智能交互新體驗

    智能模組產品已全面接入火山引擎豆包VLM(視覺語言)模態(tài)AI大模型。這一突破性進展表明,搭載移遠任意智能模組的終端設備,均可無縫融合模態(tài)AI大模型的
    的頭像 發(fā)表于 03-20 19:03 ?660次閱讀
    移遠通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大模型,重塑智能交互新體驗

    ?模態(tài)交互技術解析

    模態(tài)交互 模態(tài)交互( Multimodal Interaction )是指通過多種感官通道(如視覺、聽覺、觸覺等)或多種交互方式(如語音、手勢、觸控、眼動等)與計算機系統進行自然、
    的頭像 發(fā)表于 03-17 15:12 ?3456次閱讀

    北京大學兩部 DeepSeek 秘籍新出爐?。ǜ饺螺d)

    機器人 圖像生成工具 音頻工具 視頻生成工具 搜索工具 就以目前火熱的聊天機器人來看,DeepSeek-R1 的主要優(yōu)勢還在于 強大的推理能力 ,但其并不具備模態(tài)
    發(fā)表于 02-27 17:57

    字節(jié)跳動發(fā)布OmniHuman 模態(tài)框架

    2 月 6 日消息,字節(jié)跳動近日發(fā)布了一項重大成果 ——OmniHuman 模態(tài)框架,其優(yōu)勢在于其強大的視頻生成能力。用戶只需提供一張任意尺寸和人物占比的單張圖片,再結合一段輸入音頻
    的頭像 發(fā)表于 02-07 17:50 ?1164次閱讀

    2025年Next Token Prediction范式會統一模態(tài)

    訓練方法與推理策略 性能評測體系 現存挑戰(zhàn)與未來方向 綜述的完整目錄如下: 模態(tài)的 Tokenization 我們認為模態(tài)的 Tokenization 是 MMNTP 的基石和最重
    的頭像 發(fā)表于 01-21 10:11 ?918次閱讀
    2025年Next Token Prediction范式會統一<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嗎

    體驗MiniCPM-V 2.6 模態(tài)能力

    模態(tài)組網
    jf_23871869
    發(fā)布于 :2025年01月20日 13:40:48

    【「具身智能機器人系統」閱讀體驗】2.具身智能機器人大模型

    。 模態(tài)融合的創(chuàng)新與突破 機器人控制技術的另一個重要突破在于模態(tài)大模型的應用。相比于僅通過文字進行人機交互的傳統方法,現代機器人能夠融合視覺、聲音、定位等
    發(fā)表于 12-29 23:04

    商湯日日新模態(tài)大模型權威評測第一

    剛剛,商湯科技日日新SenseNova模態(tài)大模型,在權威綜合評測權威平臺OpenCompass的模態(tài)評測取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?1480次閱讀