chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

清華、GoogleAI和斯李飛飛團隊提出具有強記憶力的E3D-LSTM網絡

G5zW_AppDowns ? 來源:陳年麗 ? 2019-08-27 10:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

清華大學、Google AI 和斯坦福大學李飛飛團隊提出了一種具有強記憶力的 E3D-LSTM 網絡,強化了 LSTM 的長時記憶能力,這為視頻預測、動作分類等相關問題提供了新思路,是一項非常具有啟發(fā)性的工作。

如何對時間序列進行時空建模及特征抽取,是 RGB 視頻預測分類,動作識別,姿態(tài)估計等相關領域的研究熱點。

清華大學、Google AI 和斯坦福大學李飛飛團隊提出了一種具有強記憶力的 E3D-LSTM 網絡,用 3D 卷積代替 2D 卷積作為 LSTM 網絡的基礎計算操作,并加入自注意力機制,使網絡能同時兼顧長時和短時信息依賴以及局部時空特征抽取。

這為視頻預測、動作分類等相關問題提供了新思路,是一項非常具有啟發(fā)性的工作。

時間序列的時空建模問題

現(xiàn)實生活中許多數(shù)據(jù)都同時具有時間特征和空間特征,例如人體的運動軌跡,連續(xù)幀的視頻等,每個時間點都對應一組數(shù)據(jù),而數(shù)據(jù)往往又具有一定的空間特征。因此要在這樣的時間序列數(shù)據(jù)上開展分類,預測等工作,就必須在時間(temporal)和空間 (spatial) 上對其進行建模和特征抽取。

常用的時間建模工具是循環(huán)神經網絡(RNN)相關模型(LSTM 等),由于其特有的門結構設計,對時間序列特征具有強大的抽取能力,因此被廣泛應用于預測問題并取得了良好的成果,但是 RNN 并不能很好的學習到原始特征的高階表示,這不利于對空間信息的提取??臻g建模則當屬卷積神經網絡(CNN),其具有強大的空間特征抽取能力,其中3D-CNN又能將卷積核可控范圍擴大到時域上,相對于 2D 卷積靈活性更高,能學習到更多的運動信息(motion 信息),相對于 RNN 則更有利于學習到信息的高級表示(層數(shù)越深,信息越高級),是目前動作識別領域的流行方法。當然 3D 卷積的時間特征抽取能力并不能和 RNN 媲美。

得益于 3D 卷積和 RNN 在各自領域的成功,如何進一步將二者結合起來使用也成為了研究熱點,常見的簡單方法是將二者串聯(lián)堆疊或者并聯(lián)結合(在圖卷積網絡出現(xiàn)之前,動作識別領域的最優(yōu)方法就是將 CNN 和 RNN 并聯(lián)),但測試發(fā)現(xiàn)這么做并不能帶來太大的提升,這是因為二者的工作機制差距太大,簡單的結合并不能很好的實現(xiàn)優(yōu)勢互補。本文提出用 3D 卷積代替原始 LSTM 中的門更新操作,使 LSTM 不僅能在時間層面,也能在空間層面上進行短期依賴的表象特征和運動特征的抽取,從而在更深的機制層面實現(xiàn)兩種網絡的結合。此外,在 LSTM 中引入自注意力(self-attention)機制,進一步強化了 LSTM 的長時記憶能力,使其對長距離信息作用具有更好的感知力。作者將這種網絡稱為Eidetic 3D LSTM(E3D-LSTM),Eidetic 意思是具有逼真記憶,強調網絡的強記憶能力。

E3D-LSTM 網絡結構

圖 1:三種不同的 3D 卷積和 LSTM 的結合方法

圖中每個顏色的模塊都代表了多層相應的網絡。圖(a)和圖(b)是兩種 3D 卷積和 LSTM 結合的基線方法,3D 卷積和 LSTM 線性疊加,主要起到了編碼(解碼器)的作用,并沒有和 RNN 有機制上的結合。圖(a)中 3D 卷積作為編碼器,輸入是一段視頻幀,圖(b)中作為解碼器,得到每個單元的最終輸出。這兩個方法中的綠色模塊使用的是時空長短時記憶網絡(ST-LSTM)[1],這種 LSTM 獨立的維護兩個記憶狀態(tài) M 和 C,但由于記憶狀態(tài) C 的遺忘門過于響應具有短期依賴的特征,因此容易忽略長時依賴信息,因此 E3D-LSTM 在 ST-LSTM 的基礎添加了自注意力機制和 3D 卷積操作,在一定程度上解決了這個問題。具體單元結構下一節(jié)介紹。

圖(c)是 E3D-LSTM 網絡的結構,3D 卷積作為編碼 - 解碼器(藍色模塊),同時和 LSTM 結合(橙色模塊)。E3D-LSTM 既可用于分類任務,也可用于預測任務。分類時將所有 LSTM 單元的輸出結合,預測時則利用 3D 卷積解碼器的輸出作為預測值。

E3D-LSTM 單元結構設計

圖 2:標準 LSTM 單元結構

首先簡要介紹一下標準 LSTM 結構,和 RNN 相比 LSTM 增加了更復雜的門結構(圖中黃色模塊),主要解決 RNN 中存在的梯度消失問題,從而提高網絡對長時依賴(long-term dependency)的記憶感知能力。LSTM 有兩個輸入門,一個輸出門和遺忘門

圖 2:ST-LSTM 網絡結構和單元結構

和標準 LSTM 相比,ST-LSTM 還增加了不同層間對應位置的 cell 連接,如圖 2 左側,水平灰色連接線表示標準 LSTM 的單元連接,豎直黃色連接線表示層間同一時刻的單元連接,通過張量 M 傳播,注意當 l=1 時,

(作者認為 t 時刻的頂層信息對 t+1 時刻的底層信息影響很大),這樣記憶信息就能同時在層內和層間傳播。

圖 3 E3D-LSTM 單元結構

圖 3 是本文提出的 E3D-LSTM 模型的單元結構,

是一個維度為的五維張量,代表之前個時間步的所有隱狀態(tài)。表示召回門(代替遺忘門),和 ST-LSTM 相比,主要有以下改進:

1、輸入數(shù)據(jù)是的四維張量,對應時刻

的連續(xù)幀序列,因此現(xiàn)在每個單元時間步都對應一段視頻,而不是單幀視頻。

2、針對幀序列數(shù)據(jù)額外添加了一個召回門(recall gate)以及相關結構,用于實現(xiàn)長時依賴學習,也就是自注意力機制。這部分對應網絡名稱中的 Eidetic。

3、由于輸入數(shù)據(jù)變成了四維張量,因此在更新公式中采用 3D 卷積操作而不是 2D 卷積。

大部分門結構的更新公式和 ST-LSTM 相同,額外添加了召回門更新公式:

上面介紹的機制用于同一層不同時間步連接,作者將這種機制也用在了不同層同一時間步的連接,但效果并不好,這是因為不同層在同一時刻學習到的信息并沒有太好的依賴性。

基于 E3D-LSTM 的半監(jiān)督輔助學習

在許多監(jiān)督學習任務,例如視頻動作識別中,沒有足夠的監(jiān)督信息和標注信息來幫助訓練一個令人滿意的 RNN,因此可以將視頻預測作為一個輔助的表征學習方法,來幫助網絡更好的理解視頻特征,并提高時間域上的監(jiān)督性。

具體的,讓視頻預測和動作識別任務共享相同的主干網絡(圖 1),只不過損失函數(shù)不同,在視頻預測任務中,目標函數(shù)為:

帶上標的 X 表示預測值,不帶上標的表示真值,F(xiàn) 表示 Frobenius 歸一化。

在動作識別任務中,目標函數(shù)為:

其中 Y 和是預測值和幀值,這樣通過將預測任務的損失函數(shù)嵌入到識別任務中,以及主干網絡的共享,能在一定程度上幫助識別任務學習到更多的時序信息。為了保證過渡平滑,額外添加了一個權重因子,會隨著迭代次數(shù)的增加而線性衰減:

作者將這種方法稱為半監(jiān)督輔助學習。

實驗結果

視頻預測任務,在 Moving MINIST 數(shù)據(jù)集上的結果:

為了驗證 E3D-LSTM 中不同模塊對性能的影響,作者還在該數(shù)據(jù)集上進行了燒蝕研究:

可以看到不管是添加 3D 卷積還是自注意力機制,網絡性能相對于基線方法都有提升。

視頻預測任務,在 KTH 人體動作數(shù)據(jù)集上的結果:

接下來在一個實際視頻預測任務:交通流預測中,與其他方法進行了對比:

動作識別任務,在 Something-Something 數(shù)據(jù)集上進行了測試:

同樣在該數(shù)據(jù)集上進行了燒蝕研究:

以及不同的半監(jiān)督輔助學習策略帶來的性能提升:

總結

本文對 ST-LSTM 進行了改進,將流行的 3D 卷積操作作為其基本張量操作,同時添加了自注意力模塊,進一步強化了網絡對長距離依賴信息的刻畫能力,不僅能用于預測任務,還能通過輔助學習的方法拓展到其他任務上,是非常具有啟發(fā)性的工作。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:數(shù)月整改,三星折疊屏手機Fold 終于可以發(fā)售了?

文章出處:【微信號:AppDowns,微信公眾號:掌上科技頻道】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    鳳凰與火山引擎達成戰(zhàn)略合作

    近日,賽發(fā)布公告,旗下子公司重慶鳳凰技術有限公司(簡稱“賽鳳凰”)當日與字節(jié)跳動旗下火山引擎簽署《具身智能業(yè)務合作框架協(xié)議》。
    的頭像 發(fā)表于 10-16 14:09 ?376次閱讀

    鳳凰智創(chuàng)榮獲DEKRA德凱ISO 26262 ASIL-D認證

    近日,重慶賽鳳凰智創(chuàng)科技有限公司(以下簡稱“賽鳳凰智創(chuàng)”)順利通過ISO 26262:2018 ASIL-D汽車功能安全管理體系認證
    的頭像 發(fā)表于 09-05 14:33 ?956次閱讀

    成都華微赴賽開展技術交流學習

    近日,成都華微電子科技股份有限公司(以下簡稱成都華微)副總經理朱志勇、董事會秘書春妍帶領公司核心研發(fā)團隊,赴重慶賽技術有限公司(以下簡稱賽
    的頭像 發(fā)表于 08-22 14:30 ?1267次閱讀

    芯片方案:專業(yè)視頻信號轉換UVC轉HDMI解決方案,支持大疆Pocket3

    一、核心功能與兼容設備炬 AM8271D 芯片方案專注于實現(xiàn) USB 信號到 HDMI 信號的高效轉換與投屏,兼容多款主流設備,包括: · 視頻創(chuàng)作設備:DJI Pocket3 等· 網絡
    發(fā)表于 07-04 17:08

    清華大學攜手華為打造業(yè)內首個園區(qū)網絡智能體

    清華大學響應國家教育新基建戰(zhàn)略,正在加速推進網絡管理平臺升級:為滿足在線教育、協(xié)同創(chuàng)新及智慧校園的發(fā)展需求,為清華大學躋身世界一流大學創(chuàng)造基礎條件,清華大學攜手華為打造業(yè)內首個園區(qū)
    的頭像 發(fā)表于 05-07 09:51 ?618次閱讀

    DD10-48D15E3(C)2 DD10-48D15E3(C)2

    電子發(fā)燒友網為你提供AIPULNION(AIPULNION)DD10-48D15E3(C)2相關產品參數(shù)、數(shù)據(jù)手冊,更有DD10-48D15E3(C)2的引腳圖、接線圖、封裝手冊、中文資料、英文資料,DD10-48D15E3(C
    發(fā)表于 03-20 18:49
    DD10-48<b class='flag-5'>D15E3</b>(C)2 DD10-48<b class='flag-5'>D15E3</b>(C)2

    PFD6-18D18E2(C)3 PFD6-18D18E2(C)3

    電子發(fā)燒友網為你提供AIPULNION(AIPULNION)PFD6-18D18E2(C)3相關產品參數(shù)、數(shù)據(jù)手冊,更有PFD6-18D18E2(C)3的引腳圖、接線圖、封裝手冊、中文
    發(fā)表于 03-20 18:47
    PFD6-18<b class='flag-5'>D18E</b>2(C)<b class='flag-5'>3</b> PFD6-18<b class='flag-5'>D18E</b>2(C)<b class='flag-5'>3</b>

    FK6-18D18E2C3 FK6-18D18E2C3

    電子發(fā)燒友網為你提供AIPULNION(AIPULNION)FK6-18D18E2C3相關產品參數(shù)、數(shù)據(jù)手冊,更有FK6-18D18E2C3的引腳圖、接線圖、封裝手冊、中文資料、英文資料,F(xiàn)K6-18D18E2C3真值表,F(xiàn)K6
    發(fā)表于 03-20 18:40
    FK6-18<b class='flag-5'>D18E2C3</b> FK6-18<b class='flag-5'>D18E2C3</b>

    KW3-24D24E3R3 KW3-24D24E3R3

    電子發(fā)燒友網為你提供AIPULNION(AIPULNION)KW3-24D24E3R3相關產品參數(shù)、數(shù)據(jù)手冊,更有KW3-24D24E3R3的引腳圖、接線圖、封裝手冊、中文資料、英文資料,KW3-24D24E3R3真值表,KW
    發(fā)表于 03-20 18:33
    KW<b class='flag-5'>3-24D24E3R3</b> KW<b class='flag-5'>3-24D24E3R3</b>

    KW1-24D15E3R3 KW1-24D15E3R3

    電子發(fā)燒友網為你提供AIPULNION(AIPULNION)KW1-24D15E3R3相關產品參數(shù)、數(shù)據(jù)手冊,更有KW1-24D15E3R3的引腳圖、接線圖、封裝手冊、中文資料、英文資料,KW1-24D15E3R3真值表,KW1
    發(fā)表于 03-20 18:31
    KW1-24<b class='flag-5'>D15E3R3</b> KW1-24<b class='flag-5'>D15E3R3</b>

    深度學習模型在傳感器數(shù)據(jù)處理中的應用(二):LSTM

    長短期記憶網絡(Long Short-Term Memory,LSTM)是遞歸神經網絡(Recurrent Neural Network,RNN)的一個變種,專門設計用來解決標準 RN
    的頭像 發(fā)表于 02-20 10:48 ?1424次閱讀
    深度學習模型在傳感器數(shù)據(jù)處理中的應用(二):<b class='flag-5'>LSTM</b>

    北大攜智元機器?團隊提出OmniManip架構

    近日,北京大學與智元機器人的聯(lián)合實驗室有了重大成果,北?攜?智元機器?團隊提出 OmniManip 架構。 在具身智能領域,將視覺語言基礎模型(VLMs)應用于機器人實現(xiàn)通用操作一直是核心問題。目前
    的頭像 發(fā)表于 01-24 09:57 ?818次閱讀

    王欣然教授團隊提出基于二維材料的高效稀疏神經網絡硬件方案

    。 ? 稀疏性 (Sparsity)?是人腦中的神經突觸的本征屬性。在大腦發(fā)育過程中,超過一半的突觸會以細粒度和非結構化的方式被剪枝?(Pruning),這是人腦具有高能效的關鍵因素。受此啟發(fā),稀疏神經網絡?(Sparse neural
    的頭像 發(fā)表于 01-13 10:41 ?860次閱讀
    王欣然教授<b class='flag-5'>團隊</b><b class='flag-5'>提出</b>基于二維材料的高效稀疏神經<b class='flag-5'>網絡</b>硬件方案

    記憶示波器的原理和應用

    和維修中,記憶示波器也發(fā)揮著重要作用。它能夠存儲和重放信號波形,并通過波形分析來排查和定位故障位置。這有利于提高故障處理效率和準確性,保證生產正常運行。 此外,記憶示波器還具有高速而精確的波形分析功能
    發(fā)表于 01-06 15:50

    清華大學創(chuàng)新領軍工程博士團隊調研芯和半導體

    近日,清華大學2024級創(chuàng)新領軍工程博士團隊到今年國家科技進步一等獎獲得企業(yè)——芯和半導體上??偛繀⒂^調研。
    的頭像 發(fā)表于 12-04 17:15 ?1699次閱讀