chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于視頻語言模型LiteVL的無參的特征池化方法

CVer ? 來源:CVer ? 作者:CVer ? 2022-12-05 10:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

沿著從大規(guī)模圖文多模態(tài)預(yù)訓(xùn)練遷移適配到視頻多模態(tài)任務(wù)的思路,我們提出了模型LiteVL,它利用圖文預(yù)訓(xùn)練模型BLIP來初始化參數(shù),可以直接在下游任務(wù)上微調(diào)而不需要進(jìn)行額外的昂貴的視頻文本預(yù)訓(xùn)練。并且為了增強(qiáng)圖像語言模型中缺乏的時(shí)間建模,我們提出在BLIP的Image encoder中增加具有動(dòng)態(tài)時(shí)間縮放(dynamic temporal scaling)的時(shí)間注意力模塊。除了模型方面的這一適配之外,我們還提出了一種非參數(shù)池化text-dependent pooling,以自適應(yīng)地重新加權(quán)以文本為條件的細(xì)粒度視頻嵌入。我們選取了兩個(gè)具有代表性的下游任務(wù),即文本-視頻檢索和視頻問答,來驗(yàn)證所提出方法的有效性。實(shí)驗(yàn)結(jié)果表明,所提出的LiteVL在沒有任何視頻文本預(yù)訓(xùn)練的情況下,甚至明顯優(yōu)于以前的視頻文本預(yù)訓(xùn)練模型。

1. Motivation

近期許多Video-language modeling的工作往往基于大規(guī)模video-text數(shù)據(jù)集 (WebVid2M,CC-3M,HowTo100M) 上進(jìn)行預(yù)訓(xùn)練,然后在下游任務(wù)的數(shù)據(jù)集上微調(diào),而預(yù)訓(xùn)練的成本往往十分昂貴。另一方面,學(xué)習(xí)細(xì)粒度的visual-language對(duì)齊往往需要利用離線的目標(biāo)檢測(cè)器 (e.g., ActBERT) 來捕捉物體信息,但卻受限于檢測(cè)器有限的類別數(shù)量 (e.g., 在MSCOCO數(shù)據(jù)集上訓(xùn)練的目標(biāo)檢測(cè)器只能檢測(cè)出不到100個(gè)類別) 和昂貴的計(jì)算開銷。而且沒有充分利用來自文本數(shù)據(jù)的監(jiān)督信息。此外,以往的稀疏幀采樣的video-text模型是利用image encoder在大規(guī)模圖文對(duì)上預(yù)訓(xùn)練的,它忽略了視頻理解所需要的時(shí)序信息建模 (e.g., CLIPBERT)。最近,在單一視頻模態(tài)領(lǐng)域的研究上,基于預(yù)訓(xùn)練的圖像編碼器ViT初始化而來的TimeSformer在許多下游的視頻任務(wù)上性能表現(xiàn)很好,它相比ViT僅僅插入了額外的一層用ViT的注意力層初始化來的時(shí)間注意力層。

2. Solution

我們提出了一種簡(jiǎn)單且高效的視頻語言模型LiteVL,它是從近期的預(yù)訓(xùn)練圖像語言模型BLIP初始化而來的,并且分別從模型層面和特征層面做了時(shí)域信息增強(qiáng)。

對(duì)于模型層面,我們提出用一組具有可學(xué)習(xí)scaling factor的時(shí)間注意層明確插入原始image backbone中,可以針對(duì)每個(gè)下游任務(wù)進(jìn)行訓(xùn)練調(diào)整(Dynamic Temporal Scaling):

7a92c294-73ed-11ed-8abf-dac502259ad0.png

對(duì)于特征層面,我們?cè)O(shè)計(jì)了一種無參的特征池化方法(Text-dependent Pooling),以學(xué)習(xí)基于文本描述的細(xì)粒度時(shí)間-空間視頻特征:

7aac5b3c-73ed-11ed-8abf-dac502259ad0.png

7ad75e68-73ed-11ed-8abf-dac502259ad0.png

模型框架和動(dòng)態(tài)時(shí)序scaling

7b176832-73ed-11ed-8abf-dac502259ad0.png

Text-dependent Pooling

3. Experiments

在三個(gè)視頻文本檢索數(shù)據(jù)集上和BLIP的性能比較:

7b3ad5ba-73ed-11ed-8abf-dac502259ad0.png

我們提出的LiteVL由于在模型和特征方面的顯式時(shí)間建模,最終性能優(yōu)于原始BLIP。

關(guān)于Dynamic Temporal Scaling和Text-dependent Pooling的消融實(shí)驗(yàn)

7b5bba5a-73ed-11ed-8abf-dac502259ad0.png

通過提出的輕巧的動(dòng)態(tài)時(shí)間縮放自適應(yīng)地根據(jù)每個(gè)特定任務(wù)調(diào)整框架級(jí)別的重要性,使性能得到進(jìn)一步提高。此外,與僅使用原始特征相比,使用其他空間或時(shí)間池化后的特征會(huì)更好。

逐層的平均temporal scaling可視化分析

7b8012a6-73ed-11ed-8abf-dac502259ad0.png

折線圖的變化趨勢(shì)顯示了video encoder的淺層更多地集中在理解每個(gè)幀的空間內(nèi)容上,并更少注意不同幀之間的時(shí)間依賴性。當(dāng)層的深度增加時(shí),每個(gè)幀的空間特征變得更加全局,并且該模型逐漸尋求學(xué)習(xí)它們之間的時(shí)間依賴性。

Grad-CAM可視化分析

7b9bef08-73ed-11ed-8abf-dac502259ad0.png

上圖展示了Grad-CAM可視化,提出的LiteVL有效地捕捉了不同幀之間的細(xì)微差異。這也表明我們提出的text-dependent pooling為video-grounded text encoder提供了豐富的信息。

4. Conslusion

我們提出了LiteVL,這是一種視頻語言模型,它無需大量的視頻語言預(yù)訓(xùn)練或目標(biāo)檢測(cè)器。LiteVL從預(yù)先訓(xùn)練的圖像語言模型BLIP中繼承了空間視覺信息和文本信息之間已經(jīng)學(xué)習(xí)的對(duì)齊。然后,我們提出了具有動(dòng)態(tài)時(shí)間縮放的額外時(shí)間注意力塊,以學(xué)習(xí)視頻幀中的時(shí)間動(dòng)態(tài)。我們還引入了一種無參的text-denpendent pooling,該方法基于文本描述來對(duì)不同幀或者空間位置進(jìn)行加權(quán),從而實(shí)現(xiàn)了細(xì)粒度的視頻語言對(duì)齊。實(shí)驗(yàn)結(jié)果表明,我們的LiteVL優(yōu)于利用了視頻文本預(yù)訓(xùn)練的最先進(jìn)方法。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 檢測(cè)器
    +關(guān)注

    關(guān)注

    1

    文章

    926

    瀏覽量

    49686
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1232

    瀏覽量

    26063

原文標(biāo)題:EMNLP 2022 | LiteVL:具有增強(qiáng)時(shí)空建模的高效視頻-語言學(xué)習(xí)

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    C語言內(nèi)存使用

    C語言的內(nèi)存管理,從來都是一個(gè)讓人頭禿的問題。要想更自由地管理內(nèi)存,就必須去堆中申請(qǐng),然后還需要考慮何時(shí)釋放,萬一釋放不當(dāng),或者沒有及時(shí)釋放,造成的后果都是難以估量的。 當(dāng)然如果就這些,那倒也還不
    發(fā)表于 12-11 07:57

    數(shù)據(jù)全復(fù)用高性能層設(shè)計(jì)思路分享

    大家好,本團(tuán)隊(duì)此次分享的內(nèi)容為可實(shí)現(xiàn)數(shù)據(jù)全復(fù)用高性能層設(shè)計(jì)思路,核心部分主要由以下3個(gè)部分組成; 1.SRAM讀取模塊;——使用的存儲(chǔ)為SRAM 基于SRAM讀與寫時(shí)序,約束
    發(fā)表于 10-29 07:10

    軸承異步電機(jī)轉(zhuǎn)子徑向位移白檢測(cè)

    訓(xùn)練構(gòu)建轉(zhuǎn)子位移預(yù)測(cè)模型,利用位移預(yù)測(cè)模型的泛能力,進(jìn)行轉(zhuǎn)子位移估計(jì)。仿真結(jié)果表明,提出的位移估計(jì)方法能夠準(zhǔn)確檢測(cè)轉(zhuǎn)子徑向位移信號(hào),并且能實(shí)現(xiàn)電機(jī)
    發(fā)表于 07-14 17:45

    速度傳感器感應(yīng)電機(jī)控制系統(tǒng)轉(zhuǎn)速辨識(shí)方法研究

    摘 要:速度傳感器感應(yīng)電機(jī)控制技術(shù)已成為近年的研究熱點(diǎn),轉(zhuǎn)逸估計(jì)是速度傳感器感應(yīng)電機(jī)控制技術(shù)的核心問題。在此對(duì)速度傳感器感應(yīng)電機(jī)轉(zhuǎn)速辦識(shí)技術(shù)進(jìn)行了介紹,分析了幾種比較典型的轉(zhuǎn)速解識(shí)方法
    發(fā)表于 07-09 14:23

    刷直流電機(jī)調(diào)速系統(tǒng)轉(zhuǎn)矩脈動(dòng)抑制方法研究

    摘 要:通過對(duì)刷直流電機(jī)開通期間的相電流和關(guān)斷期間的相電流分析,經(jīng)過實(shí)際計(jì)算得到電磁轉(zhuǎn)矩的表達(dá)式,得到相應(yīng)的電磁轉(zhuǎn)矩脈動(dòng)曲線?;陔娏黝A(yù)測(cè)方法通過將預(yù)測(cè)模型分為模型建立、反饋調(diào)整和性
    發(fā)表于 06-26 13:49

    模型自適應(yīng)控制在永磁同步電機(jī)轉(zhuǎn)速中的仿真研究

    摘要:針對(duì)永磁同步電機(jī)非線性、時(shí)變不確定性及難以建立精確的數(shù)學(xué)模型等問題,不同于動(dòng)態(tài)線性時(shí)變模型替代一般非線性系統(tǒng),提出一種基于模糊過程和系統(tǒng)輸出誤差的模型控制器?;诜答伨€性
    發(fā)表于 06-25 13:01

    改進(jìn)電壓模型的異步電機(jī)速度傳感器矢量控制

    速度傳感器矢量控制技術(shù)能夠有效提高交流傳動(dòng)系統(tǒng)的可靠性,降低系統(tǒng)成本。該技術(shù)的核心問題是準(zhǔn)確獲取電機(jī)轉(zhuǎn)子轉(zhuǎn)速,并將其反饋到速度閉環(huán)控制環(huán)節(jié)。介紹一種采用改進(jìn)模型參考自適應(yīng)轉(zhuǎn)速估計(jì)方法的異步電機(jī)矢量
    發(fā)表于 05-28 15:43

    小白學(xué)大模型:從零實(shí)現(xiàn) LLM語言模型

    在當(dāng)今人工智能領(lǐng)域,大型語言模型(LLM)的開發(fā)已經(jīng)成為一個(gè)熱門話題。這些模型通過學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語言文本,完成各種復(fù)雜的任務(wù),如寫作、翻譯、問答等。https
    的頭像 發(fā)表于 04-30 18:34 ?1085次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實(shí)現(xiàn) LLM<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    ?VLM(視覺語言模型)?詳細(xì)解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型
    的頭像 發(fā)表于 03-17 15:32 ?7726次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細(xì)解析

    語言模型的解碼策略與關(guān)鍵優(yōu)化總結(jié)

    本文系統(tǒng)性地闡述了大型語言模型(LargeLanguageModels,LLMs)中的解碼策略技術(shù)原理及其實(shí)踐應(yīng)用。通過深入分析各類解碼算法的工作機(jī)制、性能特征和優(yōu)化方法,為研究者和工
    的頭像 發(fā)表于 02-18 12:00 ?1115次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的解碼策略與關(guān)鍵優(yōu)化總結(jié)

    一文詳解視覺語言模型

    視覺語言模型(VLM)是一種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?3333次閱讀
    一文詳解視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    騰訊公布大語言模型訓(xùn)練新專利

    近日,騰訊科技(深圳)有限公司公布了一項(xiàng)名為“大語言模型的訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)”的新專利。該專利的公布,標(biāo)志著騰訊在大語言模型
    的頭像 發(fā)表于 02-10 09:37 ?745次閱讀

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

    。通過微調(diào),模型可以學(xué)習(xí)特定領(lǐng)域的專業(yè)知識(shí)和語言特征,從而在高度專業(yè)的領(lǐng)域中展現(xiàn)出卓越的表現(xiàn)。微調(diào)過程主要有這幾項(xiàng)內(nèi)容:數(shù)據(jù)清洗:消除噪聲、提高數(shù)據(jù)質(zhì)量。包括處理缺失值(如用特殊符號(hào)
    發(fā)表于 01-14 16:51

    語言模型管理的作用

    要充分發(fā)揮語言模型的潛力,有效的語言模型管理非常重要。以下,是對(duì)語言模型管理作用的分析,由AI部
    的頭像 發(fā)表于 01-02 11:06 ?582次閱讀

    AI模型部署邊緣設(shè)備的奇妙之旅:目標(biāo)檢測(cè)模型

    準(zhǔn)確性。 類別不平衡問題:當(dāng)某些類別的樣本數(shù)遠(yuǎn)多于其他類別時(shí),分類器可能會(huì)偏向多數(shù)類別,導(dǎo)致少數(shù)類別的預(yù)測(cè)精度較低。 過擬合風(fēng)險(xiǎn):復(fù)雜的模型容易在訓(xùn)練數(shù)據(jù)上過擬合,即學(xué)到了訓(xùn)練數(shù)據(jù)中的特定特征而不是一般
    發(fā)表于 12-19 14:33