美女裸体全无遮挡免费视频,3D动漫A片区,潮喷在线第一页

使用視覺(jué)和語(yǔ)言指令訓(xùn)練一個(gè)多模態(tài)聊天機(jī)器人！

基于開(kāi)源多模態(tài)模型OpenFlamingo，作者使用公開(kāi)數(shù)據(jù)集創(chuàng)建了各種視覺(jué)指令數(shù)據(jù)，包括視覺(jué)問(wèn)答、圖像字幕、視覺(jué)推理、文本 OCR 和視覺(jué)對(duì)話。此外，還使用僅包含語(yǔ)言指令數(shù)據(jù)的語(yǔ)言模型組件進(jìn)行了訓(xùn)練。

視覺(jué)和語(yǔ)言指令的聯(lián)合訓(xùn)練有效提高了模型的性能！

具體細(xì)節(jié)就跟隨小編繼續(xù)往下看看吧~

總結(jié)

本文提出一種多模態(tài)GPT（視覺(jué)、語(yǔ)言），與人類進(jìn)行多輪對(duì)話，同時(shí)設(shè)計(jì)了統(tǒng)一化多模態(tài)的指令數(shù)據(jù)模板

能夠遵循的指令類型：生成詳細(xì)的標(biāo)題、計(jì)算特定的對(duì)象、處理一般的詢問(wèn)

基準(zhǔn)模型：OpenFlamingo（用LoRA方式訓(xùn)練）

聯(lián)合訓(xùn)練的數(shù)據(jù)：1.純文本數(shù)據(jù) 2.圖像-文本數(shù)據(jù)

其他的一些多模態(tài)GPT模型：GPT-4[1]、Mini-GPT[2]、LLaVA[3]

提到的其他LLM：Vicuna[4]、LLaMA[5]

提到的其他數(shù)據(jù)集：VQA v2.0、Ok-vqa、GQA、CLEVR、NLVR

1.引言

人類交流/理解世界的方式：視覺(jué)、語(yǔ)言等

AI智能助手的作用：根據(jù)多種模態(tài)的指令，理解人類意圖，完成各種任務(wù)

之前的方法：將視覺(jué)表示與LLM的輸入空間對(duì)齊，隨后利用LLM中的原始自我注意來(lái)處理視覺(jué)信息

本文的方法：微調(diào)Flamingo（開(kāi)源）

視覺(jué)編碼器

門(mén)限交叉注意力機(jī)制

預(yù)訓(xùn)練使用“圖文對(duì)”數(shù)據(jù)

統(tǒng)一多模態(tài)的指令模板

語(yǔ)言數(shù)據(jù)、語(yǔ)言-視覺(jué)數(shù)據(jù)，進(jìn)行聯(lián)合訓(xùn)練

本文目標(biāo)：在多模態(tài)對(duì)話任務(wù)上，接近人的性能表現(xiàn)

2.統(tǒng)一指令模板

主要是提出了一個(gè)統(tǒng)一的訓(xùn)練數(shù)據(jù)模板，把以下兩種數(shù)據(jù)整合起來(lái)，提高模型理解能力

2.1 僅語(yǔ)言的指令模板

僅包含語(yǔ)言的指令提示模板

{instruction},{input}為輸入文本，{response}，用于計(jì)算損失

使用數(shù)據(jù)：

Dolly15k數(shù)據(jù)集

AlpacaGPT4數(shù)據(jù)集

2.2 視覺(jué)-語(yǔ)言的指令模板

包含視覺(jué)-語(yǔ)言的指令提示模板

其中，{question}是原始文本，是表示圖像存在的token，{response}、用于計(jì)算損失

使用數(shù)據(jù)集：

LLaVA

Mini-GPT4

A-OKVQA

COCOcaption（不直接作為訓(xùn)練集，而是用GPT-4轉(zhuǎn)化，再加入訓(xùn)練集）

OCRVQA

上述合成指令使得訓(xùn)練集較為豐富，則模型能夠更健壯

圖像描述的指令，舉例如下：

本文方法

模型結(jié)構(gòu)圖

基線模型：open-flamingo模型

組成：

視覺(jué)編碼器：CLIP

感知重采樣

語(yǔ)言解碼器：LLaMA （自注意力、交叉注意力、FFW中加入LoRA，便于微調(diào)）

訓(xùn)練數(shù)據(jù)：用2.1和2.2兩種數(shù)據(jù)，進(jìn)行聯(lián)合訓(xùn)練

訓(xùn)練過(guò)程：通過(guò)預(yù)測(cè)文本的下一個(gè)標(biāo)記進(jìn)行訓(xùn)練，只有{responce}和標(biāo)記參與損失計(jì)算

4.實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置：

實(shí)驗(yàn)參數(shù)	取值
GPU	A100*8
epoch	1
batch_size	1
LoRA參數(shù)更新	每16輪
learningrate	1e-5

Demos展示：

給出一個(gè)烤千層面的食譜，并告訴用戶在哪里吃到它

能夠識(shí)別埃隆·馬斯克的形象，并回答關(guān)于埃隆·馬斯克的問(wèn)題

我知道照片上有4個(gè)女人，也知道她們?cè)谧鍪裁?/p>

認(rèn)得出電影，也知道電影是由哪個(gè)電影公司制作的

能識(shí)別圖像中的人物，并認(rèn)識(shí)該書(shū)的作者

可以回答關(guān)于用戶旅行的一般問(wèn)題

可以為圖像生成詳細(xì)的描述，并有能力推理得到在圖像中的季節(jié)

在線網(wǎng)站

感興趣可以去官方網(wǎng)站[6]去嘗試下，真的很棒！點(diǎn)擊閱讀原文也可直達(dá)！

缺點(diǎn)是好像只支持英文~

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴