chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于視覺transformer的高效時空特征學(xué)習(xí)算法

CVer ? 來源:ECCV 2022 ? 作者:ECCV 2022 ? 2022-12-12 15:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

二、背景

高效的時空建模(Spatiotemporal modeling)是視頻理解和動作識別的核心問題。相較于圖像的Transformer網(wǎng)絡(luò),視頻由于增加了時間維度,如果將Transformer中的自注意力機制(Self-Attention)簡單擴展到時空維度,將會導(dǎo)致時空自注意力高昂的計算復(fù)雜度和空間復(fù)雜度。許多工作嘗試對時空自注意力進行分解,例如ViViT和Timesformer。這些方法雖然減小了計算復(fù)雜度,但會引入額外的參數(shù)量。本文提出了一種簡單高效的時空自注意力Transformer,在對比2D Transformer網(wǎng)絡(luò)不增加計算量和參數(shù)量情況下,實現(xiàn)了時空自注意力機制。并且在Sthv1&Sthv2, Kinetics400, Diving48取得了很好的性能。

三、方法

視覺Transofrmer通常將圖像分割為不重疊的塊(patch),patch之間通過自注意力機制(Self-Attention)進行特征聚合,patch內(nèi)部通過全連接層(FFN)進行特征映射。每個Transformer block中,包含Self-Attention和FFN,通過堆疊Transformer block的方式達到學(xué)習(xí)圖像特征的目的。

在視頻動作識別領(lǐng)域,輸入的數(shù)據(jù)是連續(xù)采樣的多幀圖像(常用8幀、16幀、32幀等)學(xué)習(xí)視頻的時空特征,不僅要學(xué)習(xí)單幀圖像的空間視覺特征,更要建模幀之間的時域特征。本文提出一種基于視覺transformer的高效時空特征學(xué)習(xí)算法,具體來說,我們通過將patch按照一定的規(guī)則進行移動(patch shift),把當(dāng)前幀中的一部分patch移動到其他幀,同時其他幀也會有一部分patch移動到當(dāng)前幀。經(jīng)過patch移動之后,對每一幀圖像的patch分別做Self-Attention,這一步學(xué)習(xí)的特征就同時包含了時空特征。具體思想可以由下圖所示:

9564e2d0-7944-11ed-8abf-dac502259ad0.png

在常用的2D圖像視覺Transformer網(wǎng)絡(luò)結(jié)構(gòu)上,將上述patch shift操作插入到self-attention操作之前即可,無需額外操作,下圖是patch shift transformer block,相比其他視頻transformer的結(jié)構(gòu),我們的操作不增加額外的計算量,僅需進行內(nèi)存數(shù)據(jù)移動操作即可。對于patch shift的移動規(guī)則,我們提出幾種設(shè)計原則:1. 不同幀的塊盡可能均勻地分布。2.合適的時域感受野。3.保持一定的移動塊比例。具體的分析,讀者可以參考正文。

我們對通道移動(Channel shift) 與 塊移動(patch shift)進行了詳盡的分析和討論,這兩種方法的可視化如下:

95ab73a8-7944-11ed-8abf-dac502259ad0.png

通道移動(Channel shift) 與 塊移動(patch shift)都使用了shift操作,但channel shift是通過移動所有patch的部分channel的特征來實現(xiàn)時域特征的建模,而patch shift是通過移動部分patch的全部channel與Self-attention來實現(xiàn)時域特征的學(xué)習(xí)??梢哉J為channel shift的時空建模在空域是稠密的,但在channel上是稀疏的。而patch shift在空域稀疏,在channel上是稠密的。因此兩種方法具有一定的互補性?;诖耍覀兲岢鼋惶嫜h(huán)使用 patchshift和channel shift。網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示:

95c20c4e-7944-11ed-8abf-dac502259ad0.png

四、實驗結(jié)果

1. 消融實驗

95eafd70-7944-11ed-8abf-dac502259ad0.png

2. 與SOTA方法進行對比

961daf2c-7944-11ed-8abf-dac502259ad0.png

969a1bf2-7944-11ed-8abf-dac502259ad0.png

9761b4dc-7944-11ed-8abf-dac502259ad0.png

3. 運行速度

可以看到,PST的實際推理速度和2D的Swin網(wǎng)絡(luò)接近,但具有時空建模能力,性能顯著優(yōu)于2D Swin。和Video-Swin網(wǎng)絡(luò)相比,則具有明顯的速度和顯存優(yōu)勢。

9789f1a4-7944-11ed-8abf-dac502259ad0.png

4. 可視化結(jié)果

圖中從上到下依次為Kinetics400, Diving48, Sthv1的可視化效果。PST通過學(xué)習(xí)關(guān)聯(lián)區(qū)域的相關(guān)性,并且特征圖能夠反映出視頻當(dāng)中動作的軌跡。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 內(nèi)存
    +關(guān)注

    關(guān)注

    9

    文章

    3185

    瀏覽量

    76244

原文標(biāo)題:ECCV 2022 | 阿里提出:快速動作識別的時空自注意力模型

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    【精選活動】缺陷系統(tǒng)檢測不走坑!10年+資深LabVIEW視覺專家全套珍藏

    “告別檢測系統(tǒng)能力缺陷!10+年LabVIEW視覺資深專家手把手教你:5000+分鐘高清教程(含工具、算法原理、實戰(zhàn)操作、項目優(yōu)化全流程講解)”——從傳統(tǒng)視覺算法→深度
    的頭像 發(fā)表于 12-30 08:06 ?174次閱讀
    【精選活動】缺陷系統(tǒng)檢測不走坑!10年+資深LabVIEW<b class='flag-5'>視覺</b>專家全套珍藏

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實戰(zhàn)課(11大系列課程,共5000+分鐘)

    行業(yè)市場具備深度學(xué)習(xí)能力的視覺系統(tǒng)占比已突破40%,催生大量復(fù)合型技術(shù)崗位需求: ? 崗位缺口:視覺算法工程師全國缺口15萬+,缺陷檢測專項人才招聘響應(yīng)率僅32% ? 薪資水平:掌握L
    發(fā)表于 12-04 09:28

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實戰(zhàn)課程(11大系列課程,共5000+分鐘)

    行業(yè)市場具備深度學(xué)習(xí)能力的視覺系統(tǒng)占比已突破40%,催生大量復(fù)合型技術(shù)崗位需求: ? 崗位缺口:視覺算法工程師全國缺口15萬+,缺陷檢測專項人才招聘響應(yīng)率僅32% ? 薪資水平:掌握L
    發(fā)表于 12-03 13:50

    從0到1,10+年資深LabVIEW專家,手把手教你攻克機器視覺+深度學(xué)習(xí)(5000分鐘實戰(zhàn)課)

    “告別檢測系統(tǒng)能力缺陷!10+年LabVIEW視覺資深專家手把手教你:5000+分鐘高清教程(含工具、算法原理、實戰(zhàn)操作、項目優(yōu)化全流程講解)”——從傳統(tǒng)視覺算法→深度
    的頭像 發(fā)表于 12-02 08:07 ?365次閱讀
    從0到1,10+年資深LabVIEW專家,手把手教你攻克機器<b class='flag-5'>視覺</b>+深度<b class='flag-5'>學(xué)習(xí)</b>(5000分鐘實戰(zhàn)課)

    如何深度學(xué)習(xí)機器視覺的應(yīng)用場景

    深度學(xué)習(xí)視覺應(yīng)用場景大全 工業(yè)制造領(lǐng)域 復(fù)雜缺陷檢測:處理傳統(tǒng)算法難以描述的非標(biāo)準(zhǔn)化缺陷模式 非標(biāo)產(chǎn)品分類:對形狀、顏色、紋理多變的產(chǎn)品進行智能分類 外觀質(zhì)量評估:基于學(xué)習(xí)的外觀質(zhì)量標(biāo)
    的頭像 發(fā)表于 11-27 10:19 ?167次閱讀

    取之于開源,貢獻于開源:進迭時空AI計算生態(tài)開源貢獻

    時空和opencv社區(qū)進行合作,基于進迭時空的RISC-VAICPU芯片K1,優(yōu)化了opencv的基礎(chǔ)視覺算法在RISC-Vvector1.0的性能,取得了顯著的性
    的頭像 發(fā)表于 10-21 09:03 ?5574次閱讀
    取之于開源,貢獻于開源:進迭<b class='flag-5'>時空</b>AI計算生態(tài)開源貢獻

    機器視覺檢測PIN針

    : 結(jié)合形態(tài)學(xué)處理、特征提?。ㄈ玳L寬比、面積)及深度學(xué)習(xí)(針對復(fù)雜缺陷),自動檢出彎曲、斷裂、變形、污染等。輸出與控制:實時顯示檢測結(jié)果(OK/NG)及具體參數(shù)數(shù)值。生成檢測報告,支持?jǐn)?shù)據(jù)追溯。NG品自動剔除信號輸出,無縫對接產(chǎn)線。了解更多機器
    發(fā)表于 09-26 15:09

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    Transformer視覺Transformer模型。 ViTA是一種高效數(shù)據(jù)流AI加速器,用于在邊緣設(shè)備上部署計算密集型視覺
    發(fā)表于 09-12 17:30

    自動駕駛中Transformer大模型會取代深度學(xué)習(xí)嗎?

    [首發(fā)于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學(xué)習(xí)”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?4044次閱讀
    自動駕駛中<b class='flag-5'>Transformer</b>大模型會取代深度<b class='flag-5'>學(xué)習(xí)</b>嗎?

    PID控制算法學(xué)習(xí)筆記資料

    用于新手學(xué)習(xí)PID控制算法。
    發(fā)表于 08-12 16:22 ?7次下載

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷一場翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?1194次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)概述

    【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】視覺實現(xiàn)的基礎(chǔ)算法的應(yīng)用

    閱讀心得體會:ROS2機器人視覺與地圖構(gòu)建技術(shù) 通過對本書第7章(ROS2視覺應(yīng)用)和第8章(ROS2地圖構(gòu)建)的學(xué)習(xí),我對機器人視覺感知和自主導(dǎo)航的核心技術(shù)有了更深入的理解。以下是我
    發(fā)表于 05-03 19:41

    大象機器人攜手進迭時空推出 RISC-V 全棧開源六軸機械臂產(chǎn)品

    集成于同一硬件平臺。內(nèi)置RISC-V AI核,接入ONNXRuntime加速框架,可快速部署Transformer、CNN等主流算法,實現(xiàn)視覺跟蹤、語音交互與自主決策的一體化應(yīng)用。 低門檻開發(fā) 提供
    發(fā)表于 04-25 17:59

    ?VLM(視覺語言模型)?詳細解析

    的詳細解析: 1. 核心組成與工作原理 視覺編碼器 :提取圖像特征,常用CNN(如ResNet)或視覺Transformer(ViT)。 語言模型 :處理文本輸入/輸出,如GPT、BE
    的頭像 發(fā)表于 03-17 15:32 ?8207次閱讀
    ?VLM(<b class='flag-5'>視覺</b>語言模型)?詳細解析

    如何使用MATLAB構(gòu)建Transformer模型

    LanguageProcessing, NLP)中的序列到序列任務(wù),如機器翻譯。Transformer 通過引入自注意力機制使得處理長距離依賴關(guān)系時變得高效。因此 Vaswani 等人的論文強調(diào)“注意力是所需的一切”。
    的頭像 發(fā)表于 02-06 10:21 ?6135次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b>模型