chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于視頻語言模型LiteVL的無參的特征池化方法

CVer ? 來源:CVer ? 作者:CVer ? 2022-12-05 10:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

沿著從大規(guī)模圖文多模態(tài)預(yù)訓(xùn)練遷移適配到視頻多模態(tài)任務(wù)的思路,我們提出了模型LiteVL,它利用圖文預(yù)訓(xùn)練模型BLIP來初始化參數(shù),可以直接在下游任務(wù)上微調(diào)而不需要進(jìn)行額外的昂貴的視頻文本預(yù)訓(xùn)練。并且為了增強(qiáng)圖像語言模型中缺乏的時間建模,我們提出在BLIP的Image encoder中增加具有動態(tài)時間縮放(dynamic temporal scaling)的時間注意力模塊。除了模型方面的這一適配之外,我們還提出了一種非參數(shù)池化text-dependent pooling,以自適應(yīng)地重新加權(quán)以文本為條件的細(xì)粒度視頻嵌入。我們選取了兩個具有代表性的下游任務(wù),即文本-視頻檢索和視頻問答,來驗證所提出方法的有效性。實驗結(jié)果表明,所提出的LiteVL在沒有任何視頻文本預(yù)訓(xùn)練的情況下,甚至明顯優(yōu)于以前的視頻文本預(yù)訓(xùn)練模型。

1. Motivation

近期許多Video-language modeling的工作往往基于大規(guī)模video-text數(shù)據(jù)集 (WebVid2M,CC-3M,HowTo100M) 上進(jìn)行預(yù)訓(xùn)練,然后在下游任務(wù)的數(shù)據(jù)集上微調(diào),而預(yù)訓(xùn)練的成本往往十分昂貴。另一方面,學(xué)習(xí)細(xì)粒度的visual-language對齊往往需要利用離線的目標(biāo)檢測器 (e.g., ActBERT) 來捕捉物體信息,但卻受限于檢測器有限的類別數(shù)量 (e.g., 在MSCOCO數(shù)據(jù)集上訓(xùn)練的目標(biāo)檢測器只能檢測出不到100個類別) 和昂貴的計算開銷。而且沒有充分利用來自文本數(shù)據(jù)的監(jiān)督信息。此外,以往的稀疏幀采樣的video-text模型是利用image encoder在大規(guī)模圖文對上預(yù)訓(xùn)練的,它忽略了視頻理解所需要的時序信息建模 (e.g., CLIPBERT)。最近,在單一視頻模態(tài)領(lǐng)域的研究上,基于預(yù)訓(xùn)練的圖像編碼器ViT初始化而來的TimeSformer在許多下游的視頻任務(wù)上性能表現(xiàn)很好,它相比ViT僅僅插入了額外的一層用ViT的注意力層初始化來的時間注意力層。

2. Solution

我們提出了一種簡單且高效的視頻語言模型LiteVL,它是從近期的預(yù)訓(xùn)練圖像語言模型BLIP初始化而來的,并且分別從模型層面和特征層面做了時域信息增強(qiáng)。

對于模型層面,我們提出用一組具有可學(xué)習(xí)scaling factor的時間注意層明確插入原始image backbone中,可以針對每個下游任務(wù)進(jìn)行訓(xùn)練調(diào)整(Dynamic Temporal Scaling):

7a92c294-73ed-11ed-8abf-dac502259ad0.png

對于特征層面,我們設(shè)計了一種無參的特征池化方法(Text-dependent Pooling),以學(xué)習(xí)基于文本描述的細(xì)粒度時間-空間視頻特征:

7aac5b3c-73ed-11ed-8abf-dac502259ad0.png

7ad75e68-73ed-11ed-8abf-dac502259ad0.png

模型框架和動態(tài)時序scaling

7b176832-73ed-11ed-8abf-dac502259ad0.png

Text-dependent Pooling

3. Experiments

在三個視頻文本檢索數(shù)據(jù)集上和BLIP的性能比較:

7b3ad5ba-73ed-11ed-8abf-dac502259ad0.png

我們提出的LiteVL由于在模型和特征方面的顯式時間建模,最終性能優(yōu)于原始BLIP。

關(guān)于Dynamic Temporal Scaling和Text-dependent Pooling的消融實驗

7b5bba5a-73ed-11ed-8abf-dac502259ad0.png

通過提出的輕巧的動態(tài)時間縮放自適應(yīng)地根據(jù)每個特定任務(wù)調(diào)整框架級別的重要性,使性能得到進(jìn)一步提高。此外,與僅使用原始特征相比,使用其他空間或時間池化后的特征會更好。

逐層的平均temporal scaling可視化分析

7b8012a6-73ed-11ed-8abf-dac502259ad0.png

折線圖的變化趨勢顯示了video encoder的淺層更多地集中在理解每個幀的空間內(nèi)容上,并更少注意不同幀之間的時間依賴性。當(dāng)層的深度增加時,每個幀的空間特征變得更加全局,并且該模型逐漸尋求學(xué)習(xí)它們之間的時間依賴性。

Grad-CAM可視化分析

7b9bef08-73ed-11ed-8abf-dac502259ad0.png

上圖展示了Grad-CAM可視化,提出的LiteVL有效地捕捉了不同幀之間的細(xì)微差異。這也表明我們提出的text-dependent pooling為video-grounded text encoder提供了豐富的信息。

4. Conslusion

我們提出了LiteVL,這是一種視頻語言模型,它無需大量的視頻語言預(yù)訓(xùn)練或目標(biāo)檢測器。LiteVL從預(yù)先訓(xùn)練的圖像語言模型BLIP中繼承了空間視覺信息和文本信息之間已經(jīng)學(xué)習(xí)的對齊。然后,我們提出了具有動態(tài)時間縮放的額外時間注意力塊,以學(xué)習(xí)視頻幀中的時間動態(tài)。我們還引入了一種無參的text-denpendent pooling,該方法基于文本描述來對不同幀或者空間位置進(jìn)行加權(quán),從而實現(xiàn)了細(xì)粒度的視頻語言對齊。實驗結(jié)果表明,我們的LiteVL優(yōu)于利用了視頻文本預(yù)訓(xùn)練的最先進(jìn)方法。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 檢測器
    +關(guān)注

    關(guān)注

    1

    文章

    930

    瀏覽量

    49928
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1236

    瀏覽量

    26187

原文標(biāo)題:EMNLP 2022 | LiteVL:具有增強(qiáng)時空建模的高效視頻-語言學(xué)習(xí)

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    華為榮獲算力服務(wù)商互聯(lián)能力成熟度模型編證書

    在2025算力互聯(lián)網(wǎng)大會期間,算力互聯(lián)網(wǎng)服務(wù)論壇在成都成功舉辦。論壇現(xiàn)場舉行了《算力服務(wù)商互聯(lián)能力成熟度模型編證書頒發(fā)儀式,華為憑借在算力互聯(lián)領(lǐng)域深厚的技術(shù)積累與豐富實踐經(jīng)驗,作為核心編單位獲頒證書,充分彰顯其在行業(yè)標(biāo)準(zhǔn)制
    的頭像 發(fā)表于 12-31 11:50 ?649次閱讀

    C語言內(nèi)存使用

    C語言的內(nèi)存管理,從來都是一個讓人頭禿的問題。要想更自由地管理內(nèi)存,就必須去堆中申請,然后還需要考慮何時釋放,萬一釋放不當(dāng),或者沒有及時釋放,造成的后果都是難以估量的。 當(dāng)然如果就這些,那倒也還不
    發(fā)表于 12-11 07:57

    CNN卷積神經(jīng)網(wǎng)絡(luò)設(shè)計原理及在MCU200T上仿真測試

    CNN算法簡介 我們硬件加速器的模型為Lenet-5的變型,網(wǎng)絡(luò)粗略分共有7層,細(xì)分共有13層。包括卷積,最大層,激活層,扁平層,全連接層。下面是各層作用介紹: 卷積層:提取特征
    發(fā)表于 10-29 07:49

    數(shù)據(jù)全復(fù)用高性能層設(shè)計思路分享

    大家好,本團(tuán)隊此次分享的內(nèi)容為可實現(xiàn)數(shù)據(jù)全復(fù)用高性能層設(shè)計思路,核心部分主要由以下3個部分組成; 1.SRAM讀取模塊;——使用的存儲為SRAM 基于SRAM讀與寫時序,約束
    發(fā)表于 10-29 07:10

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗

    , batch_size=512, epochs=20)總結(jié) 這個核心算法中的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練過程,是用來對MNIST手寫數(shù)字圖像進(jìn)行分類的。模型將圖像作為輸入,通過卷積和層提取圖像的
    發(fā)表于 10-22 07:03

    MSCMG刷直流電機(jī)改進(jìn)的I_f位置起動方法

    針對磁懸浮控制力矩陀螺刷直流電機(jī)電阻、電感值極小的特點和已有的位置傳感器 I/f 起動算法加速階段換相精度不高且算法復(fù)雜的問題,通過分析電磁轉(zhuǎn)矩和換相時刻的關(guān)系,提出了一種改進(jìn)的 I/f起動方法
    發(fā)表于 08-06 14:27

    MSCMG刷直流電機(jī)改進(jìn)的I_f位置起動方法

    方法。該方法在電磁轉(zhuǎn)矩恒定的情況下,結(jié)合電機(jī)模型,精確計算出電機(jī)換相的具體時刻。為保證電磁轉(zhuǎn)矩恒定確保換相時刻的準(zhǔn)確性,采用神經(jīng)網(wǎng)絡(luò)法估計反電勢系數(shù),并設(shè)計了基于三相繞組不對稱補(bǔ)償?shù)母倪M(jìn)的電流環(huán)。仿真
    發(fā)表于 07-23 13:19

    軸承異步電機(jī)轉(zhuǎn)子徑向位移白檢測

    訓(xùn)練構(gòu)建轉(zhuǎn)子位移預(yù)測模型,利用位移預(yù)測模型的泛能力,進(jìn)行轉(zhuǎn)子位移估計。仿真結(jié)果表明,提出的位移估計方法能夠準(zhǔn)確檢測轉(zhuǎn)子徑向位移信號,并且能實現(xiàn)電機(jī)
    發(fā)表于 07-14 17:45

    速度傳感器感應(yīng)電機(jī)控制系統(tǒng)轉(zhuǎn)速辨識方法研究

    摘 要:速度傳感器感應(yīng)電機(jī)控制技術(shù)已成為近年的研究熱點,轉(zhuǎn)逸估計是速度傳感器感應(yīng)電機(jī)控制技術(shù)的核心問題。在此對速度傳感器感應(yīng)電機(jī)轉(zhuǎn)速辦識技術(shù)進(jìn)行了介紹,分析了幾種比較典型的轉(zhuǎn)速解識方法
    發(fā)表于 07-09 14:23

    刷直流電機(jī)模糊PI控制系統(tǒng)建模與仿真

    摘 要:從無刷直流電機(jī)(BIDCM)的工作原理和結(jié)構(gòu)出發(fā),在分析了 BLDCM數(shù)學(xué)模型的基礎(chǔ)上,采用模塊方法,在Matlab/Simulink 中建立了 BLDCM 轉(zhuǎn)速、電流雙閉環(huán)控制系統(tǒng)
    發(fā)表于 07-07 18:25

    刷直流電機(jī)調(diào)速系統(tǒng)轉(zhuǎn)矩脈動抑制方法研究

    摘 要:通過對刷直流電機(jī)開通期間的相電流和關(guān)斷期間的相電流分析,經(jīng)過實際計算得到電磁轉(zhuǎn)矩的表達(dá)式,得到相應(yīng)的電磁轉(zhuǎn)矩脈動曲線。基于電流預(yù)測方法通過將預(yù)測模型分為模型建立、反饋調(diào)整和性
    發(fā)表于 06-26 13:49

    模型自適應(yīng)控制在永磁同步電機(jī)轉(zhuǎn)速中的仿真研究

    摘要:針對永磁同步電機(jī)非線性、時變不確定性及難以建立精確的數(shù)學(xué)模型等問題,不同于動態(tài)線性時變模型替代一般非線性系統(tǒng),提出一種基于模糊過程和系統(tǒng)輸出誤差的模型控制器。基于反饋線性
    發(fā)表于 06-25 13:01

    改進(jìn)電壓模型的異步電機(jī)速度傳感器矢量控制

    速度傳感器矢量控制技術(shù)能夠有效提高交流傳動系統(tǒng)的可靠性,降低系統(tǒng)成本。該技術(shù)的核心問題是準(zhǔn)確獲取電機(jī)轉(zhuǎn)子轉(zhuǎn)速,并將其反饋到速度閉環(huán)控制環(huán)節(jié)。介紹一種采用改進(jìn)模型參考自適應(yīng)轉(zhuǎn)速估計方法的異步電機(jī)矢量
    發(fā)表于 05-28 15:43

    小白學(xué)大模型:從零實現(xiàn) LLM語言模型

    在當(dāng)今人工智能領(lǐng)域,大型語言模型(LLM)的開發(fā)已經(jīng)成為一個熱門話題。這些模型通過學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語言文本,完成各種復(fù)雜的任務(wù),如寫作、翻譯、問答等。https
    的頭像 發(fā)表于 04-30 18:34 ?1299次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實現(xiàn) LLM<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    ?VLM(視覺語言模型)?詳細(xì)解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型,
    的頭像 發(fā)表于 03-17 15:32 ?8802次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細(xì)解析