chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

利用大語言模型做多模態(tài)任務

深度學習自然語言處理 ? 來源:人工智能與算法學習 ? 2023-05-10 16:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大型語言模型LLM(Large Language Model)具有很強的通用知識理解以及較強的邏輯推理能力,但其只能處理文本數據。雖然已經發(fā)布的GPT4具備圖片理解能力,但目前還未開放多模態(tài)輸入接口并且不會透露任何模型上技術細節(jié)。因此,現階段,如何利用LLM做一些多模態(tài)任務還是有一定的研究價值的。

本文整理了近兩年來基于LLM做vision-lanuage任務的一些工作,并將其劃分為4個類別:

利用LLM作為理解中樞調用多模態(tài)模型,例如VisualChatGPT(2023)[1], MM-REACT(2023)[2];

將視覺轉化為文本,作為LLM的輸入,例如PICA(2022)[3],PromptCap(2022)[4],ScienceQA(2022)[5];

利用視覺模態(tài)影響LLM的解碼,例如ZeroCap[6],MAGIC[7];

凍住LLM,訓練視覺編碼器等額外結構以適配LLM,例如Frozen[8],BLIP2[9],Flamingo[10],PaLM-E[11];

接下來每個類別會挑選代表性的工作進行簡單介紹:

一. 利用LLM作為理解中樞調用多模態(tài)模型

以微軟Visual ChatGPT[1]為例,它的目標是使得一個系統(tǒng)既能和人進行視覺內容相關的對話,又能進行畫圖以及圖片修改的工作。為此,Visual ChatGPT采用ChatGPT作為和用戶交流的理解中樞,整合了多個視覺基礎模型(Visual Foundation Models),通過prompt engineering (即Prompt Manager)告訴ChatGPT各個基礎模型的用法以及輸入輸出格式,讓ChatGPT決定為了滿足用戶的需求,應該如何調用這些模型,如圖1所示。

wKgZomRbXAmAc6z1AAE1UpeyNB8273.jpg

圖1:Visual ChatGPT系統(tǒng)示意圖

微軟另一個小組稍晚一段時間提出的MM-REACT[2]也是同樣的思路,區(qū)別主要在于prompt engineering的設計以及MM-REACT更側重于視覺的通用理解和解釋,包含了很多Microsoft Azure API,例如名人識別、票據識別以及Bing搜索等。

二. 將視覺轉化為文本,作為LLM的輸入

以PICA[3]為例,它的目標是充分利用LLM中的海量知識來做Knowledge-based QA。給定一張圖和問題,以往的工作主要從外部來源,例如維基百科等來檢索出相關的背景知識以輔助答案的生成。但PICA嘗試將圖片用文本的形式描述出來后,直接和問題拼在一起作為LLM的輸入,讓LLM通過in-context learning的方式直接生成回答,如圖2所示。

wKgZomRbXByAFUmkAADzSwk37Xo822.jpg

圖2:PICA方法示意圖

in-context learning的效果比較依賴example/demonstration的質量,為此PICA的作者利用CLIP挑選了和當前測試樣例在問題和圖片上最接近的16個訓練樣例作為examples。

三. 利用視覺模態(tài)影響LLM的解碼

以MAGIC[3]為例,它的目標是讓LLM做image captioning的任務,它的核心思路是生成每一個詞時,提高視覺相關的詞的生成概率,公式如圖3所示。

wKgaomRbXC6AI8lwAAEVOkruUAU948.jpg

圖3:MAGIC解碼公式示意圖

該公式主要由三部分組成:1)LLM預測詞的概率;2)退化懲罰(橙色);3)視覺相關性(紅色)。退化懲罰主要是希望生成的詞能帶來新的信息量。視覺相關性部分為基于CLIP計算了所有候選詞和圖片的相關性,取softmax之后的概率作為預測概率。

四.訓練視覺編碼器等額外結構以適配LLM

這部分工作是目前關注度最高的工作,因為它具有潛力來“以遠低于多模態(tài)通用模型訓練的代價將LLM拓展為多模態(tài)模型”。DeepMind于2021年發(fā)表的Frozen,2022年的Flamingo以及Saleforce 2023年的BLIP2都是這條路線,如圖4所示。

wKgZomRbXECACc_XAAFJnhUfizU929.jpg

圖4:Frozen,Flamingo,BLIP2示意圖。

Frozen訓練時將圖片編碼成2個vision token,作為LLM的前綴,目標為生成后續(xù)文本,采用Conceptual Caption作為訓練語料。Frozen通過few-shot learning/in-context learning做下游VQA以及image classification的效果還沒有很強,但是已經能觀察到一些多模態(tài)in-context learning的能力。

Flamingo為了解決視覺feature map大小可能不一致(尤其對于多幀的視頻)的問題,用Perceiver Resampler (類似DETR的解碼器)生成固定長度的特征序列(64個token),并且在LLM的每一層之前額外增加了一層對視覺特征進行注意力計算的cross-attention layer,以實現更強的視覺相關性生成。Flamingo的訓練參數遠高于Frozen,因此采用了大量的數據:1)MultiModal MassiveWeb(M3W) dataset:從43million的網頁上收集的圖文混合數據,轉化為圖文交叉排列的序列(根據網頁上圖片相對位置,決定在轉化為序列后,token 在文本token系列中的位置);2)ALIGN (alt-text & image Pairs): 1.8 million圖文對;3)LTIP (LongText & Image Pairs):312 million圖文對;4)VTP (Video & Text Pairs) :27 million視頻文本對(平均一個視頻22s,幀采樣率為1FPS)。類似LLM,Flamingo的訓練目標也為文本生成,但其對于不同的數據集賦予不同的權重,上面四部分權重分別為1.0、0.2、0.2、0.03,可見圖文交叉排列的M3W數據集的訓練重要性是最高的,作者也強調這類數據是具備多模態(tài)in-context learning能力的重要因素。Flamingo在多個任務上實現了很不錯的zero-shot以及few-shot的表現。

BLIP2采用了類似于Flamingo的視覺編碼結構,但是采用了更復雜的訓練策略。其包含兩階段訓練,第一階段主要想讓視覺編碼器學會提取最關鍵的視覺信息,訓練任務包括image-Text Contrastive Learning, Image-grounded Text Generation以及Image-Text Matching;第二階段則主要是將視覺編碼結構的輸出適配LLM,訓練任務也是language modeling。BLIP2的訓練數據包括MSCOCO,Visual Genome,CC15M,SBU,115M來自于LAION400M的圖片以及BLIP在web images上生成的描述。BLIP2實現了很強的zero-shot capitoning以及VQA的能力,但是作者提到未觀察到其in-context learning的能力,即輸入樣例并不能提升它的性能。作者分析是因為訓練數據里不存在Flamingo使用的圖文交錯排布的數據。不過Frozen也是沒有用這類數據,但是也觀察到了一定的in-context learning能力。因此多模態(tài)的in-context learning能力可能和訓練數據、訓練任務以及位置編碼方法等都存在相關性。

總結

“利用LLM作為理解中樞調用多模態(tài)模型”可以方便快捷地基于LLM部署一個多模態(tài)理解和生成系統(tǒng),難點主要在于prompt engineering的設計來調度不同的多模態(tài)模型;

“將視覺轉化為文本,作為LLM的輸入”和“利用視覺模態(tài)影響LLM的解碼”可以直接利用LLM做一些多模態(tài)任務,但是可能上限較低,其表現依賴于外部多模態(tài)模型的能力;

“訓練視覺編碼器等額外結構以適配LLM”具有更高的研究價值,因為其具備將任意模態(tài)融入LLM,實現真正意義多模態(tài)模型的潛力,其難點在于如何實現較強的in-context learning的能力。





審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1174

    瀏覽量

    41973
  • 編碼器
    +關注

    關注

    45

    文章

    3796

    瀏覽量

    138009
  • 視覺編程
    +關注

    關注

    0

    文章

    2

    瀏覽量

    1844
  • ChatGPT
    +關注

    關注

    29

    文章

    1589

    瀏覽量

    9089

原文標題:利用大語言模型做多模態(tài)任務

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    一文理解模態(tài)語言模型——上

    /understanding-multimodal-llms 在過去幾個月中, OpenVINO? 架構師 Yury閱讀了眾多有關模態(tài)語言模型的論文和博客,在此基礎上,推薦了一篇解
    的頭像 發(fā)表于 12-02 18:29 ?1168次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>——上

    如何使用模態(tài)信息prompt

    自多模態(tài)大火以來,井噴式地出現了許多工作,通過改造預訓練語言模型,用圖像信息來增強語義信息,但主要集中在幾個 NLU 任務上,在 NLG 上的研究比較少。 今天要介紹的這篇 paper
    的頭像 發(fā)表于 11-03 09:39 ?2121次閱讀
    如何使用<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>信息<b class='flag-5'>做</b>prompt

    基于圖文模態(tài)領域典型任務

    圖文模態(tài)領域典型任務如img-text retrieval、VQA、captioning、grounding等,目前的學術設定難度尚可。但是, 一旦知識范圍擴展,到了open-ended
    的頭像 發(fā)表于 09-01 17:14 ?2757次閱讀

    一個真實閑聊模態(tài)數據集TikTalk

    隨著大量預訓練語言模型在文本對話任務中的出色表現,以及模態(tài)的發(fā)展,在對話中引入
    的頭像 發(fā)表于 02-09 09:31 ?2464次閱讀

    利用視覺+語言數據增強視覺特征

    傳統(tǒng)的模態(tài)預訓練方法通常需要"大數據"+"大模型"的組合來同時學習視覺+語言的聯(lián)合特征。但是關注如何利用視覺+
    的頭像 發(fā)表于 02-13 13:44 ?1299次閱讀

    中文模態(tài)對話數據集

    隨著大量預訓練語言模型在文本對話任務中的出色表現,以及模態(tài)的發(fā)展,在對話中引入
    的頭像 發(fā)表于 02-22 11:03 ?1734次閱讀
    中文<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>對話數據集

    如何利用LLM模態(tài)任務?

    大型語言模型LLM(Large Language Model)具有很強的通用知識理解以及較強的邏輯推理能力,但其只能處理文本數據。雖然已經發(fā)布的GPT4具備圖片理解能力,但目前還未開放模態(tài)
    的頭像 發(fā)表于 05-11 17:09 ?1240次閱讀
    如何<b class='flag-5'>利用</b>LLM<b class='flag-5'>做</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>任務</b>?

    VisCPM:邁向多語言模態(tài)模型時代

    隨著 GPT-4 和 Stable Diffusion 等模型模態(tài)能力的突飛猛進,模態(tài)模型
    的頭像 發(fā)表于 07-10 10:05 ?997次閱讀
    VisCPM:邁向多<b class='flag-5'>語言</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>時代

    更強更通用:智源「悟道3.0」Emu模態(tài)模型開源,在模態(tài)序列中「補全一切」

    當前學界和工業(yè)界都對模態(tài)模型研究熱情高漲。去年,谷歌的 Deepmind 發(fā)布了模態(tài)視覺語言
    的頭像 發(fā)表于 07-16 20:45 ?1019次閱讀
    更強更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>開源,在<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>序列中「補全一切」

    探究編輯模態(tài)語言模型的可行性

    不同于單模態(tài)模型編輯,模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點依然從單
    發(fā)表于 11-09 14:53 ?767次閱讀
    探究編輯<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的可行性

    自動駕駛和模態(tài)語言模型的發(fā)展歷程

    模態(tài)語言模型(MLLM) 最近引起了廣泛的關注,其將 LLM 的推理能力與圖像、視頻和音頻數據相結合,通過多模態(tài)對齊使它們能夠更高效地執(zhí)
    發(fā)表于 12-28 11:45 ?787次閱讀
    自動駕駛和<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的發(fā)展歷程

    機器人基于開源的模態(tài)語言視覺大模型

    ByteDance Research 基于開源的模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機器人操作
    發(fā)表于 01-19 11:43 ?657次閱讀
    機器人基于開源的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>語言</b>視覺大<b class='flag-5'>模型</b>

    韓國Kakao宣布開發(fā)模態(tài)語言模型“蜜蜂”

    韓國互聯(lián)網巨頭Kakao最近宣布開發(fā)了一種名為“蜜蜂”(Honeybee)的模態(tài)大型語言模型。這種創(chuàng)新模型能夠同時理解和處理圖像和文本數據
    的頭像 發(fā)表于 01-19 16:11 ?1013次閱讀

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態(tài)之間的關聯(lián),實現更加智能化的信息處理。簡單來說,
    的頭像 發(fā)表于 10-18 09:39 ?1251次閱讀

    一文理解模態(tài)語言模型——下

    /understanding-multimodal-llms ? 《一文理解模態(tài)語言模型 - 上》介紹了什么是
    的頭像 發(fā)表于 12-03 15:18 ?587次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>——下