chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種用于視頻識(shí)別的SlowFast網(wǎng)絡(luò)

電子工程師 ? 來(lái)源:lq ? 2018-12-25 10:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導(dǎo)語(yǔ)】繼圖像領(lǐng)域之后,現(xiàn)在的 CV 領(lǐng)域,大家都在研究哪些內(nèi)容?近日,F(xiàn)acebook AI 實(shí)驗(yàn)室的 Christoph Feichtenhofer、何愷明等人發(fā)表一篇論文,在視頻識(shí)別領(lǐng)域提出了一種 SlowFast 網(wǎng)絡(luò),并且在沒有預(yù)訓(xùn)練模型情況下,此網(wǎng)絡(luò)在 Kinetics 數(shù)據(jù)集上取得79.0% 的準(zhǔn)確率,是當(dāng)前該數(shù)據(jù)集上的最佳表現(xiàn)。在 AVA 動(dòng)作檢測(cè)數(shù)據(jù)集上,同樣實(shí)現(xiàn)了 28.3 mAP 的最佳水準(zhǔn)。

到底 SlowFast 網(wǎng)絡(luò)是怎樣的設(shè)計(jì)、有什么特征、效果如何,下面就一起來(lái)看一下~

對(duì)于圖像識(shí)別任務(wù),給定一張圖像 I(x, y),對(duì)稱地處理圖像的空間維度 x、y 是一種很常見的做法,而自然圖像的統(tǒng)計(jì)數(shù)據(jù)也證明了這種做法的合理性—自然圖像具有各向同性(即所有方向具有相同的可能性)和平移不變性。

然而,對(duì)于視頻信號(hào) I(x, y, t)而言,我們不能這樣對(duì)稱地處理時(shí)空信號(hào)。因?yàn)閯?dòng)作是方向的時(shí)空產(chǎn)物,但并非所有的時(shí)空方向都擁有相同的可能性。如果這樣,那么我們就不能像基于時(shí)空卷積(spatiotemporal convolutions)的視頻識(shí)別方法那樣,對(duì)稱地處理空間和時(shí)間信息。相反,我們需要分解這種結(jié)構(gòu),并分開處理空間結(jié)構(gòu)和時(shí)間事件。

受此啟發(fā),本研究提出了一種用于視頻識(shí)別的 SlowFast 雙路徑模型,一條路徑 slow pathway更關(guān)注空間域的語(yǔ)義信息,以低幀率,緩慢的刷新速度運(yùn)行,用于捕獲圖像或幾個(gè)稀疏幀提供的語(yǔ)義信息;而另一條路徑 fast pathway以高時(shí)間分辨率、快速刷新在所有中間層運(yùn)行,捕獲快速變化的動(dòng)作信息,輕量級(jí),整體的計(jì)算開銷小。此外,這種快慢結(jié)合的雙路徑二者在結(jié)構(gòu)上通過側(cè)向連接(lateral connection)進(jìn)行融合,以不同的速率處理原始視頻。

圖1 SlowFast 網(wǎng)絡(luò)由低幀率、低時(shí)間分辨率的 Slow 路徑和高幀率、高時(shí)間分辨率 (是 Slow 路徑時(shí)間分辨率的 α 倍) 的 Fast 路徑構(gòu)成。使用減少通道容量輕量化 Fast 路徑,并通過側(cè)向連接的方式連接 Slow 路徑和 Fast 路徑。圖中該樣本來(lái)自 AVA 數(shù)據(jù)集。

SlowFast 模型

如上圖所示,SlowFast 網(wǎng)絡(luò)的整體結(jié)構(gòu),包含 Slow pathway、Fast pathway 及其側(cè)向連接(lateral connection)部分。其中,Slow pathway 可以是任意的卷積模型,用于處理視頻的空間信息體量。為了與 Slow pathway 對(duì)應(yīng),F(xiàn)ast pathway 也是卷積結(jié)構(gòu)的模型,但需要具有高幀率,高時(shí)間分辨率、低通道容量等特點(diǎn)。

為了將快慢兩條途徑的信息融合在一起,作者采用側(cè)向連接(lateral connection)的方式來(lái)實(shí)現(xiàn)。側(cè)向連接技術(shù)已被廣泛用于融合基于光流的雙流網(wǎng)絡(luò),而在圖像目標(biāo)檢測(cè)任務(wù)中,橫向連接作為一種流行的融合的技術(shù),能夠?qū)⒖臻g分辨率和語(yǔ)義水平特征融合在一起。在這里作者在快慢路徑之間引入一個(gè)橫向連接,即每個(gè)“階段”的兩條路徑(如上圖1所示)。具體而言,對(duì)于 ResNets 網(wǎng)絡(luò),這些側(cè)向連接分別在 pool1,res2,res3 和 res4 層之后。而對(duì)于 slow-fast 網(wǎng)絡(luò),由于兩條路徑存在差異,因此側(cè)向連接需要通過轉(zhuǎn)換過程以便匹配各自的路徑,即采用單向連接的方式來(lái)將 Fast 的特征融合到 Slow 路徑上。最后,在每條路徑的輸出后引入一個(gè)全局平均池化操作,并將兩個(gè)池化特征向量連接,作為全連接分類層的輸入。更多具體的信息可以查看論文中的詳細(xì)介紹。

值得一提的是,這種快慢結(jié)合方法是受到靈長(zhǎng)類視覺系統(tǒng)中視網(wǎng)膜神經(jīng)節(jié)細(xì)胞的生物學(xué)研究啟發(fā)的。生物學(xué)研究結(jié)果發(fā)現(xiàn),在這些細(xì)胞中約 80% 是小細(xì)胞 P-cell,它能夠提供良好的空間細(xì)節(jié)和顏色,但時(shí)間分辨率較低;而另外有大約 15-20% 的細(xì)胞是大細(xì)胞 M-cell,它以較高的時(shí)間頻率工作,對(duì)時(shí)間變化更加敏感,但對(duì)空間細(xì)節(jié)和顏色不敏感。SlowFast 網(wǎng)絡(luò)的提出正是受此啟發(fā),兩條路徑構(gòu)成,分別以低時(shí)間分辨率和高時(shí)間分辨率工作,對(duì)應(yīng)于 P-cell 和 M-cell 的作用。

SlowFast 是一種通用的網(wǎng)絡(luò)框架,可以進(jìn)行實(shí)例化,適配各種的主干網(wǎng)絡(luò)。在這里,作者所采用的 SlowFast 網(wǎng)絡(luò)參數(shù)如下圖2所示:

圖2 SlowFast 網(wǎng)絡(luò)的實(shí)例化。核維度表示為 {T×S^2 , C},其中 T 表示時(shí)間分辨率,S 表示空間語(yǔ)義而 C 表示通道數(shù)。步長(zhǎng)表示為 {temporal stride, spatial stride^2}。此外,速度比率是α = 8,通道比率是 β = 1/8。τ = 16。圖中綠色表示 Fast 路徑較高的時(shí)間分辨率,橙色表示 Fast 路徑較少的通道數(shù),下劃線表示非退化時(shí)間濾波器(non-degenerate temporal filter)。方括號(hào)內(nèi)表示的是殘差塊結(jié)構(gòu)。骨干網(wǎng)絡(luò)采用的是 ResNet-50。

實(shí)驗(yàn)

SlowFast 網(wǎng)絡(luò)在 Kinetics 和 AVA 數(shù)據(jù)集上具體表現(xiàn)如何?我們通過研究中的一些實(shí)驗(yàn)數(shù)據(jù)對(duì)比看一下各數(shù)據(jù)結(jié)果。

▌Kinetics 數(shù)據(jù)集的動(dòng)作分類

對(duì)于視頻動(dòng)作分類,作者采用 Kinetics-400 數(shù)據(jù)集,其中包含約 240k 個(gè)訓(xùn)練視頻數(shù)據(jù)和20k個(gè)驗(yàn)證數(shù)據(jù),共涵蓋400種動(dòng)作類別。實(shí)驗(yàn)結(jié)果得到 Top1 和 Top5 的分類準(zhǔn)確性,單條 Slow 網(wǎng)絡(luò)與 SlowFast 網(wǎng)絡(luò)的性能對(duì)比,以及 SlowFast 網(wǎng)絡(luò)與 Kibetics-400 數(shù)據(jù)集上當(dāng)前最佳模型之間的性能對(duì)比,詳細(xì)結(jié)果如下圖3,圖4,圖5所示。

圖3 Kinetics-400 數(shù)據(jù)集動(dòng)作分類結(jié)果,包括 top-1 和 top-5 分類準(zhǔn)確度,以及計(jì)算復(fù)雜度 GFLOPs。

圖4 Kinetics-400 數(shù)據(jù)集上 Slow-only 網(wǎng)絡(luò)與 SlowFast 網(wǎng)絡(luò)的性能對(duì)比;top-1 訓(xùn)練誤差 (虛線表示) 和驗(yàn)證誤差 (實(shí)線表示)。

圖5 Kinetics-400 數(shù)據(jù)集上當(dāng)前最佳模型與 SlowFast 網(wǎng)絡(luò)的性能對(duì)比。

▌AVA 數(shù)據(jù)集的動(dòng)作檢測(cè)

對(duì)于視頻動(dòng)作檢測(cè),作者采用 AVA 數(shù)據(jù)集,其中包含有 211k 個(gè)訓(xùn)練數(shù)據(jù)和 57k 個(gè)驗(yàn)證數(shù)據(jù),共涵蓋 60 種動(dòng)作類別。實(shí)驗(yàn)結(jié)果得到 60 個(gè)類別的平均精度 mAP 值,SlowFast 網(wǎng)絡(luò)與 AVA 數(shù)據(jù)集上當(dāng)前最佳模型之間的性能對(duì)比,以及 AVA 數(shù)據(jù)集動(dòng)作檢測(cè)結(jié)果的可視化過程,詳細(xì)結(jié)果如下圖 6,圖 7,圖 8 所示。

圖6 AVA 數(shù)據(jù)集上每個(gè)類別的 AP:Slow-only 模型的 19.0 mAP vs. SlowFast 模型的 24.2 mAP。其中,黑色突出顯示的是絕對(duì)增長(zhǎng)最高的5個(gè)類別,而這里實(shí)例化的 SlowFast 網(wǎng)絡(luò)并不是最佳的模型。

圖7 AVA 數(shù)據(jù)集上最佳模型與 SlowFast 網(wǎng)絡(luò)的性能對(duì)比。其中,++ 表示在測(cè)試過程引入了諸如水平翻轉(zhuǎn)的圖像增強(qiáng)操作。

圖8 可視化 AVA 數(shù)據(jù)集的動(dòng)作檢測(cè)結(jié)果。其中真實(shí)的標(biāo)簽用紅色表示,而 SlowFast 模型在驗(yàn)證集上的預(yù)測(cè)結(jié)果用綠色表示。

總結(jié)

本文提出了一種用于視頻識(shí)別的 SlowFast 網(wǎng)絡(luò)。該模型由兩部分組成:以低幀率運(yùn)行以捕捉空間語(yǔ)義信息的 Slow pathway;以高幀率運(yùn)行捕捉較好時(shí)序分辨率的運(yùn)動(dòng)信息的 Fast pathway。通過減少通道容量,所設(shè)計(jì)的 Fast pathway 是個(gè)非常輕量級(jí)的、同時(shí)又能夠?qū)W(xué)習(xí)到有用的時(shí)間信息用于視頻識(shí)別的網(wǎng)絡(luò)。

SlowFast 網(wǎng)絡(luò)在視頻動(dòng)作分類及檢測(cè)任務(wù)上展現(xiàn)了強(qiáng)大的性能,同時(shí)這種快慢結(jié)合思想的提出也為視頻目標(biāo)識(shí)別和檢測(cè)領(lǐng)域做出了重要貢獻(xiàn)。實(shí)驗(yàn)結(jié)果表明,在沒有使用任何預(yù)訓(xùn)練模型的情況下,SlowFast 網(wǎng)絡(luò)在 Kinetics 數(shù)據(jù)集上取得了 79.0% 的準(zhǔn)確率,大大超過了以前同類方法的最佳結(jié)果。而在 AVA 動(dòng)作檢測(cè)數(shù)據(jù)集上,該網(wǎng)絡(luò)同樣實(shí)現(xiàn)了 28.3 mAP 的當(dāng)前最佳水準(zhǔn)。

總的來(lái)說,時(shí)間維度是視頻任務(wù)中一個(gè)特殊的因素,本文的 SlowFast 網(wǎng)絡(luò)框架考慮時(shí)間維度上不同的速度對(duì)時(shí)空信息捕捉的影響,實(shí)例化的 SlowFast 模型在 Kinetics 和 AVA 數(shù)據(jù)集上實(shí)現(xiàn)當(dāng)前最佳的視頻動(dòng)作分類和檢測(cè)結(jié)果,希望這種快慢結(jié)合的設(shè)計(jì)理念能夠促進(jìn)視頻識(shí)別領(lǐng)域未來(lái)的研究。有關(guān)的項(xiàng)目代碼將會(huì)在近期開源。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 濾波器
    +關(guān)注

    關(guān)注

    162

    文章

    8205

    瀏覽量

    183987
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1229

    瀏覽量

    25899
  • 視頻識(shí)別
    +關(guān)注

    關(guān)注

    2

    文章

    12

    瀏覽量

    11032

原文標(biāo)題:何愷明等最新突破:視頻識(shí)別快慢結(jié)合,取得人體動(dòng)作AVA數(shù)據(jù)集最佳水平

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    介紹一種基于Winpcap的網(wǎng)絡(luò)視頻識(shí)別算法

    本文設(shè)計(jì)了一種基于Winpcap的網(wǎng)絡(luò)視頻識(shí)別算法,實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)流媒體的發(fā)現(xiàn)。
    發(fā)表于 06-03 06:34

    一種用于槍聲的多級(jí)檢測(cè)識(shí)別技術(shù)

    一種用于槍聲的多級(jí)檢測(cè)識(shí)別技術(shù),感興趣的可以看看。
    發(fā)表于 01-04 15:23 ?0次下載

    人臉識(shí)別技術(shù)是生物識(shí)別技術(shù)的一種 主要通過信息的相似度識(shí)別身份

    人臉識(shí)別技術(shù)是生物識(shí)別技術(shù)的一種,它是依據(jù)獨(dú)無(wú)二的人臉生理特征,自動(dòng)進(jìn)行身份鑒別的一種生物特征
    發(fā)表于 10-31 16:03 ?4608次閱讀

    我國(guó)人臉識(shí)別的市場(chǎng)還有多大的發(fā)展空間

    人臉識(shí)別,又稱人像識(shí)別、面部識(shí)別,是基于人類的臉部特征信息進(jìn)行身份識(shí)別的一種生物識(shí)別技術(shù),主要用
    發(fā)表于 10-24 10:12 ?1864次閱讀

    人臉識(shí)別的般流程看了就知道

    人臉識(shí)別一種依據(jù)人的面部特征,自動(dòng)進(jìn)行身份識(shí)別的一種生物識(shí)別技術(shù),通常我們所說的人臉識(shí)別是基于
    的頭像 發(fā)表于 11-15 11:39 ?2.9w次閱讀

    人臉識(shí)別是基于臉部信息進(jìn)行身份識(shí)別的一種技術(shù)

    人臉識(shí)別,是基于人的臉部信息進(jìn)行身份識(shí)別的一種生物識(shí)別技術(shù)。用攝像機(jī)或攝像頭采集含有人臉的圖像或視頻流,并自動(dòng)在圖像中檢測(cè)和跟蹤人臉,進(jìn)而對(duì)
    發(fā)表于 03-06 10:53 ?5889次閱讀

    一種用于釋義識(shí)別的句子相似度算法

    針對(duì)現(xiàn)有句子相似度算法無(wú)法處理同義詞、準(zhǔn)確率低和復(fù)雜度高等不足,結(jié)合詞向量技術(shù)改進(jìn) Levenshtein相似度算法和 Jaccard系數(shù),提出一種新的句子相似度算法用于釋義識(shí)別,并對(duì)多種句子相似度
    發(fā)表于 03-23 14:32 ?8次下載
    <b class='flag-5'>一種</b><b class='flag-5'>用于</b>釋義<b class='flag-5'>識(shí)別的</b>句子相似度算法

    一種用于模式識(shí)別的新型神經(jīng)網(wǎng)絡(luò)

    提出了一種用于模式識(shí)別的新型神經(jīng)網(wǎng)絡(luò)模型——局部有監(jiān)督特征映射網(wǎng)絡(luò),描述了該網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和學(xué)
    發(fā)表于 05-31 16:29 ?5次下載

    一種應(yīng)用于網(wǎng)絡(luò)視頻記錄/數(shù)碼錄影機(jī)系統(tǒng)的備電方案

    一種應(yīng)用于網(wǎng)絡(luò)視頻記錄/數(shù)碼錄影機(jī)系統(tǒng)的備電方案
    發(fā)表于 10-31 08:23 ?0次下載
    <b class='flag-5'>一種</b>應(yīng)<b class='flag-5'>用于</b><b class='flag-5'>網(wǎng)絡(luò)</b><b class='flag-5'>視頻</b>記錄/數(shù)碼錄影機(jī)系統(tǒng)的備電方案

    基于一種新型的用于無(wú)聲語(yǔ)音識(shí)別的貼片式智能傳感器

    摘要:電子科技大學(xué)和格拉斯哥大學(xué)的研究人員合作開發(fā)了一種用于無(wú)聲語(yǔ)音識(shí)別的貼片式智能傳感器件,可以檢測(cè)到說話時(shí)細(xì)微的喉嚨振動(dòng),借助深度學(xué)習(xí)將其轉(zhuǎn)化為可讀的單詞,這為語(yǔ)音控制和人機(jī)界面智能感知開辟了
    的頭像 發(fā)表于 06-17 10:27 ?1860次閱讀

    人臉識(shí)別和指紋識(shí)別哪個(gè)安全?人臉識(shí)別和指紋識(shí)別的利弊及風(fēng)險(xiǎn)

      人臉識(shí)別是基于人的臉部特征信息進(jìn)行身份識(shí)別的一種生物識(shí)別技術(shù)。用攝像機(jī)或攝像頭采集含有人臉的圖像或視頻流,并自動(dòng)在圖像中檢測(cè)和跟蹤人臉,
    發(fā)表于 08-03 16:55 ?6762次閱讀

    生物識(shí)別和人臉識(shí)別的區(qū)別

    對(duì)人臉圖片或視頻進(jìn)行分析和識(shí)別,以確定個(gè)體身份的一種方法。本文將探討生物識(shí)別和人臉識(shí)別的概念、應(yīng)用領(lǐng)域和區(qū)別。
    發(fā)表于 08-28 17:29 ?2604次閱讀

    一種基于圖像識(shí)別的第五版人民幣成色檢測(cè)方法

    電子發(fā)燒友網(wǎng)站提供《一種基于圖像識(shí)別的第五版人民幣成色檢測(cè)方法.pdf》資料免費(fèi)下載
    發(fā)表于 10-13 11:19 ?0次下載
    <b class='flag-5'>一種</b>基于圖像<b class='flag-5'>識(shí)別的</b>第五版人民幣成色檢測(cè)方法

    一種用于化學(xué)和生物材料識(shí)別的便攜式拉曼光譜解決方案

    基于掃頻光源的緊湊型拉曼光譜系統(tǒng):美國(guó)麻省理工學(xué)院(MIT)和韓國(guó)科學(xué)技術(shù)院(KAIST)的研究人員開發(fā)了一種用于化學(xué)和生物材料識(shí)別的便攜式拉曼光譜解決方案,克服了光譜儀笨重的局限性。
    的頭像 發(fā)表于 04-16 10:35 ?1994次閱讀
    <b class='flag-5'>一種</b><b class='flag-5'>用于</b>化學(xué)和生物材料<b class='flag-5'>識(shí)別的</b>便攜式拉曼光譜解決方案

    如何設(shè)計(jì)人臉識(shí)別的神經(jīng)網(wǎng)絡(luò)

    人臉識(shí)別技術(shù)是一種基于人臉特征信息進(jìn)行身份識(shí)別的技術(shù),廣泛應(yīng)用于安全監(jiān)控、身份認(rèn)證、智能門禁等領(lǐng)域。神經(jīng)網(wǎng)絡(luò)是實(shí)現(xiàn)人臉
    的頭像 發(fā)表于 07-04 09:20 ?1306次閱讀