国产精品香蕉热久久新品,午夜av影视中文字幕,不卡国产成人高清视频

沿著從大規(guī)模圖文多模態(tài)預(yù)訓(xùn)練遷移適配到視頻多模態(tài)任務(wù)的思路，我們提出了模型LiteVL，它利用圖文預(yù)訓(xùn)練模型BLIP來初始化參數(shù)，可以直接在下游任務(wù)上微調(diào)而不需要進(jìn)行額外的昂貴的視頻文本預(yù)訓(xùn)練。并且為了增強(qiáng)圖像語言模型中缺乏的時間建模，我們提出在BLIP的Image encoder中增加具有動態(tài)時間縮放（dynamic temporal scaling）的時間注意力模塊。除了模型方面的這一適配之外，我們還提出了一種非參數(shù)池化text-dependent pooling，以自適應(yīng)地重新加權(quán)以文本為條件的細(xì)粒度視頻嵌入。我們選取了兩個具有代表性的下游任務(wù)，即文本-視頻檢索和視頻問答，來驗證所提出方法的有效性。實驗結(jié)果表明，所提出的LiteVL在沒有任何視頻文本預(yù)訓(xùn)練的情況下，甚至明顯優(yōu)于以前的視頻文本預(yù)訓(xùn)練模型。

1. Motivation

近期許多Video-language modeling的工作往往基于大規(guī)模video-text數(shù)據(jù)集 (WebVid2M，CC-3M，HowTo100M) 上進(jìn)行預(yù)訓(xùn)練，然后在下游任務(wù)的數(shù)據(jù)集上微調(diào)，而預(yù)訓(xùn)練的成本往往十分昂貴。另一方面，學(xué)習(xí)細(xì)粒度的visual-language對齊往往需要利用離線的目標(biāo)檢測器 (e.g., ActBERT) 來捕捉物體信息，但卻受限于檢測器有限的類別數(shù)量 (e.g., 在MSCOCO數(shù)據(jù)集上訓(xùn)練的目標(biāo)檢測器只能檢測出不到100個類別) 和昂貴的計算開銷。而且沒有充分利用來自文本數(shù)據(jù)的監(jiān)督信息。此外，以往的稀疏幀采樣的video-text模型是利用image encoder在大規(guī)模圖文對上預(yù)訓(xùn)練的，它忽略了視頻理解所需要的時序信息建模 (e.g., CLIPBERT)。最近，在單一視頻模態(tài)領(lǐng)域的研究上，基于預(yù)訓(xùn)練的圖像編碼器ViT初始化而來的TimeSformer在許多下游的視頻任務(wù)上性能表現(xiàn)很好，它相比ViT僅僅插入了額外的一層用ViT的注意力層初始化來的時間注意力層。

2. Solution

我們提出了一種簡單且高效的視頻語言模型LiteVL，它是從近期的預(yù)訓(xùn)練圖像語言模型BLIP初始化而來的，并且分別從模型層面和特征層面做了時域信息增強(qiáng)。

對于模型層面，我們提出用一組具有可學(xué)習(xí)scaling factor的時間注意層明確插入原始image backbone中，可以針對每個下游任務(wù)進(jìn)行訓(xùn)練調(diào)整（Dynamic Temporal Scaling）：

對于特征層面，我們設(shè)計了一種無參的特征池化方法（Text-dependent Pooling），以學(xué)習(xí)基于文本描述的細(xì)粒度時間-空間視頻特征：

模型框架和動態(tài)時序scaling

Text-dependent Pooling

3. Experiments

在三個視頻文本檢索數(shù)據(jù)集上和BLIP的性能比較：

我們提出的LiteVL由于在模型和特征方面的顯式時間建模，最終性能優(yōu)于原始BLIP。

關(guān)于Dynamic Temporal Scaling和Text-dependent Pooling的消融實驗

通過提出的輕巧的動態(tài)時間縮放自適應(yīng)地根據(jù)每個特定任務(wù)調(diào)整框架級別的重要性，使性能得到進(jìn)一步提高。此外，與僅使用原始特征相比，使用其他空間或時間池化后的特征會更好。

逐層的平均temporal scaling可視化分析

折線圖的變化趨勢顯示了video encoder的淺層更多地集中在理解每個幀的空間內(nèi)容上，并更少注意不同幀之間的時間依賴性。當(dāng)層的深度增加時，每個幀的空間特征變得更加全局，并且該模型逐漸尋求學(xué)習(xí)它們之間的時間依賴性。

Grad-CAM可視化分析

上圖展示了Grad-CAM可視化，提出的LiteVL有效地捕捉了不同幀之間的細(xì)微差異。這也表明我們提出的text-dependent pooling為video-grounded text encoder提供了豐富的信息。

4. Conslusion

我們提出了LiteVL，這是一種視頻語言模型，它無需大量的視頻語言預(yù)訓(xùn)練或目標(biāo)檢測器。LiteVL從預(yù)先訓(xùn)練的圖像語言模型BLIP中繼承了空間視覺信息和文本信息之間已經(jīng)學(xué)習(xí)的對齊。然后，我們提出了具有動態(tài)時間縮放的額外時間注意力塊，以學(xué)習(xí)視頻幀中的時間動態(tài)。我們還引入了一種無參的text-denpendent pooling，該方法基于文本描述來對不同幀或者空間位置進(jìn)行加權(quán)，從而實現(xiàn)了細(xì)粒度的視頻語言對齊。實驗結(jié)果表明，我們的LiteVL優(yōu)于利用了視頻文本預(yù)訓(xùn)練的最先進(jìn)方法。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

檢測器

檢測器

+關(guān)注

關(guān)注
1

文章
930

瀏覽量
49928
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1236

瀏覽量
26187

原文標(biāo)題：EMNLP 2022 | LiteVL：具有增強(qiáng)時空建模的高效視頻-語言學(xué)習(xí)

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

基于視頻語言模型LiteVL的無參的特征池化方法

評論