chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

北大&華為提出:多模態(tài)基礎(chǔ)大模型的高效微調(diào)

CVer ? 來源:CVer ? 2023-11-08 16:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

很榮幸我們近期的工作Parameter-efficient Tuning of Large-scaleMultimodal Foundation Model被NeurIPS2023錄用!

0a78a91c-7d2c-11ee-939d-92fbcf53809c.png

https://arxiv.org/abs/2305.08381

這是我們第一篇拓展至多模態(tài)領(lǐng)域的高效微調(diào)的工作,在該工作中我們首次采用模式逼近(mode apprximation)的方法來進(jìn)行大模型的輕量化高效微調(diào),僅需訓(xùn)練預(yù)訓(xùn)練大模型0.04%的參數(shù)。同時(shí)我們設(shè)計(jì)了兩個(gè)啟發(fā)性模塊來增強(qiáng)高效微調(diào)時(shí)極低參數(shù)條件下的模態(tài)對齊。實(shí)驗(yàn)上,我們在六大跨模態(tài)基準(zhǔn)測試集上進(jìn)行全面評估顯示,我們的方法不僅超越當(dāng)前的sota, 還在一些任務(wù)上優(yōu)于全量微調(diào)方法。

論文的相關(guān)代碼也會(huì)開源在這個(gè)GitHub項(xiàng)目:

github.com/WillDreamer/Aurora

大模型的高效微調(diào)是一個(gè)非常新且日漸繁榮的task,歡迎小伙伴們一起學(xué)習(xí)交流~

一、背景

深度學(xué)習(xí)的大模型時(shí)代已經(jīng)來臨,越來越多的大規(guī)模預(yù)訓(xùn)練模型在文本、視覺和多模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量有兩個(gè)明顯缺點(diǎn)。第一,它帶來巨大的計(jì)算和物理存儲(chǔ)成本,使預(yù)訓(xùn)練和遷移變得非常昂貴。第二,微調(diào)限制了預(yù)訓(xùn)練知識(shí)在小規(guī)模數(shù)據(jù)量的下游任務(wù)中的應(yīng)用效果。這兩點(diǎn)阻礙了大模型從特定數(shù)據(jù)集擴(kuò)展到更廣泛場景。

為緩解預(yù)訓(xùn)練大模型的高昂成本,一系列參數(shù)高效微調(diào)方法相繼提出。其通用范式是凍結(jié)大模型的骨干網(wǎng)絡(luò),并引入少量額外參數(shù)。最近,一些工作開始關(guān)注多模態(tài)領(lǐng)域的高效微調(diào)任務(wù),例如UniAdapter、VL-Adapter和MAPLE。但是,它們的通用思路是將自然語言處理領(lǐng)域的現(xiàn)有架構(gòu)用于多模態(tài)模型并組合使用,然后直接在單模態(tài)和多模態(tài)分支的骨干網(wǎng)絡(luò)中插入可訓(xùn)練參數(shù)以獲得良好表現(xiàn)。直接、簡單的設(shè)計(jì)無法將參數(shù)高效遷移的精髓融入多模態(tài)模型。此外,還有兩個(gè)主要挑戰(zhàn)需要面對: (1)如何在極輕量級高效微調(diào)框架下進(jìn)行知識(shí)遷移;(2)在極低參數(shù)環(huán)境下如何提高各模態(tài)間的對齊程度。

0a83d436-7d2c-11ee-939d-92fbcf53809c.jpg

圖1:與現(xiàn)有主流的高效微調(diào)方法的對比

在這篇文章中,我們嘗試解決這兩種挑戰(zhàn),貢獻(xiàn)可以總結(jié)為:

介紹了名為Aurora的多模態(tài)基礎(chǔ)大模型高效微調(diào)框架,它解決了當(dāng)前大規(guī)模預(yù)訓(xùn)練和微調(diào)策略的局限性。

提出了模式近似(mode approximation)方法來生成輕量級可學(xué)習(xí)參數(shù),并提出了兩個(gè)啟發(fā)性模塊來更好地增強(qiáng)模態(tài)融合。

通過六個(gè)跨模態(tài)任務(wù)和兩個(gè)零樣本任務(wù)進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果顯示Aurora相比其他方法取得了最先進(jìn)的性能,同時(shí)也只使用最少的可學(xué)習(xí)參數(shù)。

二、高效微調(diào)的輕量化架構(gòu)的設(shè)計(jì)

0a9c301c-7d2c-11ee-939d-92fbcf53809c.png

0aa7d0e8-7d2c-11ee-939d-92fbcf53809c.jpg

Aurora的整體過程示意圖。

三、高效微調(diào)的模態(tài)對齊的設(shè)計(jì)

3.1 Informative Context Enhancement

該模塊的目標(biāo)是為了實(shí)現(xiàn)更好的模態(tài)對齊,在交叉注意力模塊后的融合特征中提供提示文本來更好的激活。受“上下文學(xué)習(xí)”這一領(lǐng)域的進(jìn)步啟發(fā),我們意識(shí)到為提示詞提供示范模板是很重要的。最直觀的方法是對圖像與文本對進(jìn)行對齊,以獲得更多跨模態(tài)上下文信息。但是,即使與相關(guān)圖像區(qū)域匹配,描述這些區(qū)域的文本可能還是有多個(gè)選擇。一些文本可能準(zhǔn)確概括圖像內(nèi)容,而另一些可能不行。在沒有事先匹配文本信息的先驗(yàn)情況下,我們決定引入上下文增強(qiáng)模塊來涵蓋各個(gè)方面的可能的文本信息。

0ab5ae84-7d2c-11ee-939d-92fbcf53809c.png

四、實(shí)驗(yàn)結(jié)果

4.1 實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集與基準(zhǔn)比較。我們在六個(gè)跨模態(tài)任務(wù)領(lǐng)域的benchmark上評估了Aurora,這些任務(wù)包括圖片文本檢索、問答(QA)、視頻文本檢索和視頻QA。我們將Aurora與兩類方法進(jìn)行比較:完全微調(diào)后的SOTA方法以及Frozen重要部分的LoRA和UniAdapter方法。更多細(xì)節(jié)請參閱附錄。

實(shí)現(xiàn)細(xì)節(jié)。我們的實(shí)現(xiàn)基于Salesforce開源代碼庫。與UniAdapter一致,我們使用BLIP-base作為所有多模態(tài)下游任務(wù)的視覺語言初始化權(quán)重。我們使用PyTorch在8臺(tái)NVIDIA V100 GPU(32G)設(shè)備上實(shí)現(xiàn)所有實(shí)驗(yàn)。我們使用AdamW優(yōu)化器,設(shè)置權(quán)重衰減為0.05,學(xué)習(xí)率通過網(wǎng)格搜索得到為1e-4。需要注意的是,在微調(diào)過程中,參數(shù)組只更新交叉注意模塊的權(quán)重, backbone初始化權(quán)重不更新。

4.2 實(shí)驗(yàn)結(jié)果

0ac0ab9a-7d2c-11ee-939d-92fbcf53809c.jpg

Image-Text Retrieval

0acbc44e-7d2c-11ee-939d-92fbcf53809c.jpg

Video-Text Retrieval

0ae334da-7d2c-11ee-939d-92fbcf53809c.jpg

VQA

0aee2c1e-7d2c-11ee-939d-92fbcf53809c.jpg

實(shí)驗(yàn)氣泡圖

4.3 消融實(shí)驗(yàn)

0b151b8a-7d2c-11ee-939d-92fbcf53809c.jpg

How Rank of CP Decomposition Affects Aurora?

0b2deebc-7d2c-11ee-939d-92fbcf53809c.jpg

How Does Aurora Benefit from Informative Context Enhancement

0b4231f6-7d2c-11ee-939d-92fbcf53809c.jpg

How Does Aurora Benefit from Gated Query Transformation?

0b467522-7d2c-11ee-939d-92fbcf53809c.jpg

How Does Aurora Benefit from Parameter Sharing?

4.4 可視化分析

0b59e8a0-7d2c-11ee-939d-92fbcf53809c.jpg

參數(shù)分布可視化

0b694610-7d2c-11ee-939d-92fbcf53809c.jpg

Video-Text retrieval cases on MSRVTT

0b74c512-7d2c-11ee-939d-92fbcf53809c.jpg

Video Question Answering cases on MSRVTT-QA

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 框架
    +關(guān)注

    關(guān)注

    0

    文章

    404

    瀏覽量

    18311
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5589

    瀏覽量

    123881
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3435

    瀏覽量

    4958

原文標(biāo)題:NeurIPS 2023 | 北大&華為提出:多模態(tài)基礎(chǔ)大模型的高效微調(diào)

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

    今天學(xué)習(xí)<基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化>這本書。大模型微調(diào)是深度學(xué)習(xí)領(lǐng)域中的一項(xiàng)關(guān)鍵技術(shù),它指的是在已經(jīng)預(yù)訓(xùn)
    發(fā)表于 01-14 16:51

    米爾RK3576部署端側(cè)模態(tài)輪對話,6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

    話:基于歷史回答圖中女孩頭發(fā)和衣服分別是什么顏色 上一次我們詳細(xì)講解在RK3576上部署模態(tài)模型的案例,這次將繼續(xù)講解輪對話的部署流程。整體流程基于 rknn-llm 里的
    發(fā)表于 09-05 17:25

    AMP01 SPICE宏模型

    AMP01 SPICE宏模型
    發(fā)表于 04-14 08:52 ?0次下載
    <b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

    AMP02 SPICE宏模型

    AMP02 SPICE宏模型
    發(fā)表于 04-14 08:55 ?0次下載
    <b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

    AMP01 SPICE宏模型

    AMP01 SPICE宏模型
    發(fā)表于 06-17 15:53 ?0次下載
    <b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

    AMP02 SPICE宏模型

    AMP02 SPICE宏模型
    發(fā)表于 06-17 15:55 ?2次下載
    <b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

    單張消費(fèi)級顯卡微調(diào)模態(tài)模型

    把大模型的訓(xùn)練門檻打下來!我們在單張消費(fèi)級顯卡上實(shí)現(xiàn)了模態(tài)模型(LaVIN-7B, LaVIN-13B)的適配和訓(xùn)練
    的頭像 發(fā)表于 06-30 10:43 ?3928次閱讀
    單張消費(fèi)級顯卡<b class='flag-5'>微調(diào)</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    VisCPM:邁向多語言模態(tài)模型時(shí)代

    隨著 GPT-4 和 Stable Diffusion 等模型模態(tài)能力的突飛猛進(jìn),模態(tài)模型
    的頭像 發(fā)表于 07-10 10:05 ?1186次閱讀
    VisCPM:邁向多語言<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>時(shí)代

    更強(qiáng)更通用:智源「悟道3.0」Emu模態(tài)模型開源,在模態(tài)序列中「補(bǔ)全一切」

    當(dāng)前學(xué)界和工業(yè)界都對模態(tài)模型研究熱情高漲。去年,谷歌的 Deepmind 發(fā)布了模態(tài)視覺語言模型
    的頭像 發(fā)表于 07-16 20:45 ?1312次閱讀
    更強(qiáng)更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>開源,在<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>序列中「補(bǔ)全一切」

    中科大&amp;amp;字節(jié)提出UniDoc:統(tǒng)一的面向文字場景的模態(tài)模型

    如上圖所示,UniDoc基于預(yù)訓(xùn)練的視覺大模型及大語言模型,將文字的檢測、識(shí)別、spotting(圖中未畫出)、模態(tài)理解等四個(gè)任務(wù),通過多模態(tài)
    的頭像 發(fā)表于 08-31 15:29 ?2278次閱讀
    中科大&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;字節(jié)<b class='flag-5'>提出</b>UniDoc:統(tǒng)一的面向文字場景的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    探究編輯模態(tài)大語言模型的可行性

    不同于單模態(tài)模型編輯,模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點(diǎn)依然從單
    發(fā)表于 11-09 14:53 ?980次閱讀
    探究編輯<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言<b class='flag-5'>模型</b>的可行性

    用語言對齊模態(tài)信息,北大騰訊等提出LanguageBind,刷新多個(gè)榜單

    目前的 VL 預(yù)訓(xùn)練方法通常僅適用于視覺和語言模態(tài),而現(xiàn)實(shí)世界中的應(yīng)用場景往往包含更多的模態(tài)信息,如深度圖、熱圖像等。如何整合和分析不同模態(tài)的信息,并且能夠在多個(gè)模態(tài)之間建立準(zhǔn)確的語義
    的頭像 發(fā)表于 11-23 15:46 ?1425次閱讀
    用語言對齊<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>信息,<b class='flag-5'>北大</b>騰訊等<b class='flag-5'>提出</b>LanguageBind,刷新多個(gè)榜單

    基于AX650N芯片部署MiniCPM-V 2.0高效端側(cè)模態(tài)模型

    今年4月份,面壁智能&amp;清華大學(xué)自然語言處理實(shí)驗(yàn)室推出MiniCPM系列的最新模態(tài)版本MiniCPM-V 2.0。該模型基于MiniCPM 2.4B和SigLip-400M構(gòu)建
    的頭像 發(fā)表于 07-15 09:34 ?2102次閱讀
    基于AX650N芯片部署MiniCPM-V 2.0<b class='flag-5'>高效</b>端側(cè)<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡單來說,
    的頭像 發(fā)表于 10-18 09:39 ?2603次閱讀

    商湯“日日新”融合大模型登頂大語言與模態(tài)雙榜單

    據(jù)弗若斯特沙利文(Frost &amp; Sullivan, 簡稱“沙利文”)聯(lián)合頭豹研究院發(fā)布的《2025年中國大模型年度評測》結(jié)果顯示:在語言和模態(tài)核心能力測評中,商湯“日日新”
    的頭像 發(fā)表于 03-18 10:35 ?925次閱讀