chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一文全面概覽動態(tài)神經網絡

中科院長春光機所 ? 來源:AIWalker ? 作者:Happy ? 2021-06-02 12:58 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在過去了幾年里,動態(tài)神經網絡非常熱,熱到每周都能看到幾篇不錯的動態(tài)神經網絡論文上傳到arxiv。那么什么是動態(tài)神經網絡呢?它有有哪些類型呢?它的研究現狀如何呢?接下來,就由Happy帶領大家簡單回顧一下咯。

Abstract

Abstract 動態(tài)神經網絡已成為深度學習新型研究課題。相比靜態(tài)模型(固定計算圖、固定參數),動態(tài)網絡可以按照不同輸入自適應調整自身結構或者參數量,導致了精度、計算效率、自適應等方面的顯著優(yōu)勢。

本文對動態(tài)神經網絡進行了系統性的綜述并將其分為三大類:

instance-wise 它采用數據依賴的結構或參數處理每個樣例;

spatial-wise 它采用與圖像空域位置相關的方式進行自適應計算;

temporal-wise 它驗證序列數據(比如視頻、文本)的時間維度進行自適應推理。

相比靜態(tài)網絡,動態(tài)神經網絡有這樣幾個優(yōu)勢:

Efficiency

Representation power

Adaptiveness

Compatibility

Generality

Interpretability

本文對動態(tài)網絡的幾個重要組成部分(比如結構設計、決策機制、優(yōu)化技術以及應用)進行了系統性研究,最后我們對該領域的開問題以及未來研究方向進行了討論。

Instance-wise

實例級動態(tài)神經網絡旨在通過數據依賴方式處理不同樣例,它一般從以下兩個角度出發(fā)進行設計:

基于不同樣例分配適當計算量達到調整網絡架構的目的,因此可以在easy樣例上降低冗余計算,進而達到改善推理效率的目的;

針對不同樣例調整網絡參數且保持計算圖不變,通過小幅提升計算量達到提升模型表達能力的目的。

接下來,我們將從以上兩個角度出發(fā),對現有實例級動態(tài)神經網絡進行介紹。

Dynamic Architectures

假設不同的輸入具有不同的計算需求,一種自然的方式:根據輸入動態(tài)調整推理時的架構。具體來說,我們可以調整網絡的深度、寬度或者動態(tài)路徑。具有動態(tài)架構的網絡不僅可以節(jié)省對于簡單樣例冗余計算,而且保證對于困難樣例的表達能力。相比靜態(tài)模型的加速技術,該方案可以帶來顯著的效率優(yōu)勢。

Dynamic Depth

為識別“困難”樣例,目前CNN的結構變得越來越深,一種直觀的解決方案:在推理階段采用動態(tài)網絡深度減少冗余計算。關于動態(tài)深度有兩種實現方式:

Early exiting:對于“簡單”樣例提前退出。常見“早退”方案有以下三種形式:

Cascading DNNs,見下圖a。

Intermediate Classifier,見下圖b;

Multi-scale architecture with early exits,見Fig2-a。

Layer skipping:進行自適應的中間特征跳過。常見的“層跳過”有以下幾種形式:

The halting score 見下圖a;

Gating Function,見下圖b;

Policy Network,見下圖c。

Dynamic Width

動態(tài)寬度是動態(tài)深度之外的另一種選擇:盡管每個層都需要執(zhí)行,但它的多個成分(比如神經元、分支或者通道)將根據輸入自適應選擇。

給出了幾個常見動態(tài)寬度方案:

Dynamic width of FC Layers

Mixture of Experts(MoE),見上圖a和b;

Dynamic channel pruning in CNNs,

Dynamic Routing

除了動態(tài)深度、動態(tài)寬度外,還有一種動態(tài)路徑的方案(見上面圖c):SuperNet中的計算路徑根據輸入自適應調整。關于SuperNet及其路徑決策主要有以下幾種方案:

Path selection in multi-branch structures

Neural trees and tree-structured networks

Others,主要見諸于NAS。

Dynamic Parameters

盡管前面提到的動態(tài)架構可以按照不同樣例自適應調整推理圖并取得有效計算量分配,但它們通常需要特定的架構設計、特定的訓練策略或者精心的超參數調整。

那么另一條線來了:保持推理架構不變,但網絡參數自適應調整。已有研究已證實其有效性:通過小幅提升計算量改進網絡的表達能力。給定輸入

x,靜態(tài)參數網絡(模塊)的輸出可以描述為:

y=F(x,Θ);與之對立的,動態(tài)參數網絡的輸出描述如下:

y=F(x,^Θ|x)=F(x,W(x,Θ))其中,

W(?,Θ)用于生成動態(tài)參數,

W的不同選擇已得到了充分的探索。

一般來說,參數自適應可以通過以下三種方式(可參見上圖)得到:

基于輸入調整訓練參數;

根據輸入直接生成網絡參數;

采用軟注意力調整特征。

Parameter Adjustment

參數自適應的一種典型方法:在推理階段,根據輸入調整網絡權值。通常來講,該過程通過非常少的計算量生成這種調整,比如注意力權值、采樣偏移。

Attention on weights 可訓練參數量時影響表達能力的重要因素。動態(tài)網絡(比如谷歌的CondConv、微軟DY-CNN)在多個卷積核上執(zhí)行軟注意力生成自適應集成參數,它不會導致明顯的計算量提升。假設有N個核

Wn,n=1,2,?,N,該動態(tài)卷積定義如下:

y=x?~W=x?(N∑n=1αnWn)

該過程可以顯著提升模型的容量(capacity)且保持高效性,因為多分枝卷積融合等價于多卷積核參數融合后的單次卷積,而后者僅需前者

1/N的計算量。

權值調整還可以通過在卷積核的空域位置上實施軟注意力。比如,PAC(pixel-adaptive convolution)在每一層根據輸入生成注意力掩碼對卷積核進行調整。

Kernel shape adaptation 除了自適應調整權值外,參數調整還可以用于調整卷積核的形狀達到動態(tài)感受野的作用。比如,Deformable Convolution、Deformable Kernel。下表從不同角度對比了該方向的幾個方法。

Weight prediction

相比于在線修改模型參數,權值預測更為直接:在測試階段采用子網絡直接生成參數。

DFN(Dynamic Filter Network)與HyperNetwork是兩個經典的實現運行時權值預測的CNN和RNN方案。具體來說,DFN采用濾波器生成網絡為卷積生成濾波器。曠視科技提出的WeightNet則將CondConv與SENet納入到同一框架中,它通過分組全連接層生成卷積核,在精度-Flops、精度-參數量方面取得了極具競爭力的結果。其他類似的方法有:CARAFE、VSR-DUF等。

Dynamic Features

在推理階段通過調整或生成參數的主要影響在于生成更動態(tài)的、信息豐富的特征,進而增強了深度模型的表達能力。一種更直接的方式:采用輸入相關的軟注意力調整特征,見前面Figure6-c。這種類型的動態(tài)特征更易于得到,僅需要在計算圖上作微小調整。對于線性變換

F,在輸入特征執(zhí)行注意力

α等價于調整參數:

F(x,Θ)?α=F(x,Θ?α)Channel-wise attention 一種常用軟注意力機制:動態(tài)縮放不同通道的特征,比如SENet:

~y=y?α=y?A(y)當把卷積納入考慮時,上述過程空域成如下形式:

~y=(x?W)?α=x?(W?α)也就是說:特征上的注意力等價于動態(tài)權值的卷積。

不同形式的注意力得到了了探索,比如采用標準差提供更多統計信息,采用更高效的1D卷積替換全連接層。總而言之,通道注意力可以概括為以下三種形式:

~y=y?A(y)

~y=y?A(x)

~y=y?A(Conv(x))Spatial-wise attention 特征還可以在從空域位置角度采用注意力進行動態(tài)調整以改進深度模型的表達能力。更進一步,通道與空域注意力還可以集成到一個框架中,比如BAM、CBAM。

Dynamic activation functions 前面兩種在激活函數之前通過軟注意力生成動態(tài)特征。近期一些工作開始嘗試通過動態(tài)激活函數提升模型的表達能力。比如,DY-ReLU采用N個線性變換

yc=maxn{ancxc+bnc}的最大值替換ReLU

yc=max(xc,0);此外還有曠視科技提出的FReLU、ACON。動態(tài)激活函數能能與現有網絡架構兼容,已在不同視覺任務中證實了其有效性。

總而言之,由于簡單、有效性,軟注意力已在多個領域得到探索,而且,軟注意力能方便的與其他方法集成組合。

Spatial-wise Dynamic Network

在視覺學習中,并非所有位置對于最終的預測起均等貢獻,這意味著:空域動態(tài)計算有極大潛力降低計算冗余。換句話說,僅需通過自適應方式計算一定比例的像素或者區(qū)域即可做出一個正確的決策。已有研究表明:對于大部分輸入而言,低分辨率表達已足以得到一個不錯的性能,CNN采用相同分辨率的輸入無疑會造成冗余計算。

為此,空域動態(tài)網絡旨在采用圖像的不同空域位置進行自適應推理。按照動態(tài)計算的粒度,我們將其分為:

pixel level

region level

resolution level

Pixel-level Dynamic Networks

按照前述分類,像素級動態(tài)包含有以下兩種類型:

dynamic architectures:采用動態(tài)架構處理每個像素;

dynamic parameters:采用動態(tài)參數處理每個像素。

Pixel-wise dynamic architectures

基于這樣的認知:前景像素更具信息價值,其計算需求要比背景更高。一些網絡嘗試對每個像素調整其網絡架構,現有方案可以劃分為以下兩種:

Dynamic sparse convolution:僅在子集像素區(qū)域進行卷積計算,見下圖。

Dynamic additional refinement:不同于采樣子集進行計算計算,另外一條線是:現在整個特征層面執(zhí)行相對廉價的卷積,然后自適應激活額外的模塊在特定像素上進行更進一步的提煉。

Pixel-wise dynamic parameters

不同于在像素子集上完整調整卷積計算,動態(tài)網絡還可以對每個像素執(zhí)行數據依賴的卷積以提升其表達能力或者感受野?,F有方案主要有以下三種:

Dynamic weights,包含動態(tài)卷積、動態(tài)區(qū)域卷積等。

Dynamic reception fields,包含形變卷積、自適應鏈接網絡等。

Pixel-wise dynamic feature,包含空域注意力。

Region-level Dynamic Networks

像素級動態(tài)網絡需要特定的計算庫以適配稀疏計算,在實際硬件上加速極為有限。另一種可選方案:在區(qū)域或者塊級進行自適應推理。主要包含兩條線路:

Dynamic transformations:常見于細粒度圖像分類;

Hard attention:比如GFNet、RA-CNN。

Resolution-level Dynamic Networks

上面的討論是將特征分成不同的區(qū)域,然后采用自適應方式對不同區(qū)域進行處理。然而,所涉及的稀疏采樣、裁剪奧做會導致實際效率的價格降低。另外,動態(tài)網絡可以把不同分辨率的圖像視作整體:低分辨率圖像對于“簡單”樣例足夠有效?,F有的分辨率級動態(tài)網絡可以分為以下兩種:

Adaptive scaling ratios:采用自適應縮放因子對特征進行上/下采樣達到動態(tài)分辨率目的。

Dynamic resolution in multi-scale architectures:采用并行/級聯方式構建多個子網絡以達到動態(tài)分辨率目的。

Inference and Training

從前面介紹可以看到:推理階段的數據依賴決策對于獲得高性能、高效率推理非常重要;此外,訓練動態(tài)網絡通常比靜態(tài)網絡更具挑戰(zhàn)性。

由于參數的自適應性可以通過SGD直接優(yōu)化訓練得到,且無需特定技術。接下來我們主要針對離散決策、訓練策略進行介紹。

Decision Making of Dynamic Networks

推理階段的數據依賴決策主要有以下三種:

Confidence-based Criteria

Policy Networks

Gating Functions

Training of Dynamic Networks

從目標與優(yōu)化兩個角度簡單匯總了訓練動態(tài)網絡的策略:

Training objectives for efficient inference:在這方面有分為以下幾種:

Trainng multi-exit networks,

Encouraging sparsity,包含稀疏正則

Other techniques,包含知識蒸餾等

Optimization of non-differentiable functions:

Gradient estimation,包含STE等;

Reparameterization techniques,包含Gumbel Softmax等;

Reinforcement learning,包含RL等。

Application of Dynamic Networks

接下來,我們將匯總以下動態(tài)神經網絡的典型應用,見下表。

可以看到:

對于圖像識別來說,動態(tài)CNN大多為instance-wise和spatial-wise形式;

對于文本數據來說,其推理框架大多為itemporal-wis形式;

對于視頻相關任務,三種類型的動態(tài)推理可同時使用;

動態(tài)網絡還可以用于解決深度學習中的基礎問題,比如:

緩解over-thinking降低整體計算量;

引入早退機制進行長尾分類;

提升模型魯棒性

在多任務框架下降低訓練耗時;

在遷移學習中尋找最優(yōu)微調策略。

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 濾波器
    +關注

    關注

    162

    文章

    8346

    瀏覽量

    184683
  • 谷歌
    +關注

    關注

    27

    文章

    6244

    瀏覽量

    110207
  • PAC
    PAC
    +關注

    關注

    0

    文章

    72

    瀏覽量

    28674
  • DFN
    DFN
    +關注

    關注

    0

    文章

    15

    瀏覽量

    8793

原文標題:【綜述】一文概覽動態(tài)神經網絡

文章出處:【微信號:cas-ciomp,微信公眾號:中科院長春光機所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NMSIS神經網絡庫使用介紹

    NMSIS NN 軟件庫是組高效的神經網絡內核,旨在最大限度地提高 Nuclei N 處理器內核上的神經網絡的性能并最??大限度地減少其內存占用。 該庫分為多個功能,每個功能涵蓋特定類別
    發(fā)表于 10-29 06:08

    在Ubuntu20.04系統中訓練神經網絡模型的些經驗

    本帖欲分享在Ubuntu20.04系統中訓練神經網絡模型的些經驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓練框架,目標是訓練個手寫數字識別的神經
    發(fā)表于 10-22 07:03

    液態(tài)神經網絡(LNN):時間連續(xù)性與動態(tài)適應性的神經網絡

    1.算法簡介液態(tài)神經網絡(LiquidNeuralNetworks,LNN)是種新型的神經網絡架構,其設計理念借鑒自生物神經系統,特別是秀麗隱桿線蟲的
    的頭像 發(fā)表于 09-28 10:03 ?647次閱讀
    液態(tài)<b class='flag-5'>神經網絡</b>(LNN):時間連續(xù)性與<b class='flag-5'>動態(tài)</b>適應性的<b class='flag-5'>神經網絡</b>

    無刷電機小波神經網絡轉子位置檢測方法的研究

    摘要:論文通過對無刷電機數學模型的推導,得出轉角:與三相相電壓之間存在映射關系,因此構建了個以三相相電壓為輸人,轉角為輸出的小波神經網絡來實現轉角預測,并采用改進遺傳算法來訓練網絡結構與參數,借助
    發(fā)表于 06-25 13:06

    神經網絡專家系統在電機故障診斷中的應用

    的診斷誤差。仿真結果驗證了該算法的有效性。 純分享帖,需要者可點擊附件免費獲取完整資料~~~*附件:神經網絡專家系統在電機故障診斷中的應用.pdf【免責聲明】本文系網絡轉載,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題,請第
    發(fā)表于 06-16 22:09

    BP神經網絡網絡結構設計原則

    BP(back propagation)神經網絡種按照誤差逆向傳播算法訓練的多層前饋神經網絡,其網絡結構設計原則主要基于以下幾個方面:
    的頭像 發(fā)表于 02-12 16:41 ?1233次閱讀

    BP神經網絡與卷積神經網絡的比較

    BP神經網絡與卷積神經網絡在多個方面存在顯著差異,以下是對兩者的比較: 、結構特點 BP神經網絡 : BP神經網絡
    的頭像 發(fā)表于 02-12 15:53 ?1281次閱讀

    BP神經網絡的優(yōu)缺點分析

    BP神經網絡(Back Propagation Neural Network)作為種常用的機器學習模型,具有顯著的優(yōu)點,同時也存在些不容忽視的缺點。以下是對BP神經網絡優(yōu)缺點的分析
    的頭像 發(fā)表于 02-12 15:36 ?1527次閱讀

    什么是BP神經網絡的反向傳播算法

    BP神經網絡的反向傳播算法(Backpropagation Algorithm)是種用于訓練神經網絡的有效方法。以下是關于BP神經網絡的反向傳播算法的介紹:
    的頭像 發(fā)表于 02-12 15:18 ?1257次閱讀

    BP神經網絡與深度學習的關系

    BP神經網絡與深度學習之間存在著密切的關系,以下是對它們之間關系的介紹: 、BP神經網絡的基本概念 BP神經網絡,即反向傳播神經網絡(Ba
    的頭像 發(fā)表于 02-12 15:15 ?1323次閱讀

    BP神經網絡的基本原理

    BP神經網絡(Back Propagation Neural Network)的基本原理涉及前向傳播和反向傳播兩個核心過程。以下是關于BP神經網絡基本原理的介紹: 網絡結構 BP
    的頭像 發(fā)表于 02-12 15:13 ?1488次閱讀

    BP神經網絡在圖像識別中的應用

    BP神經網絡在圖像識別中發(fā)揮著重要作用,其多層結構使得網絡能夠學習到復雜的特征表達,適用于處理非線性問題。以下是對BP神經網絡在圖像識別中應用的分析: 、BP
    的頭像 發(fā)表于 02-12 15:12 ?1163次閱讀

    深度學習入門:簡單神經網絡的構建與實現

    深度學習中,神經網絡是核心模型。今天我們用 Python 和 NumPy 構建個簡單的神經網絡。 神經網絡由多個神經元組成,
    的頭像 發(fā)表于 01-23 13:52 ?833次閱讀

    人工神經網絡的原理和多種神經網絡架構方法

    在上篇文章中,我們介紹了傳統機器學習的基礎知識和多種算法。在本文中,我們會介紹人工神經網絡的原理和多種神經網絡架構方法,供各位老師選擇。 01 人工神經網絡 ? 人工
    的頭像 發(fā)表于 01-09 10:24 ?2216次閱讀
    人工<b class='flag-5'>神經網絡</b>的原理和多種<b class='flag-5'>神經網絡</b>架構方法

    詳解物理信息神經網絡

    物理信息神經網絡 (PINN) 是神經網絡,它將微分方程描述的物理定律納入其損失函數中,以引導學習過程得出更符合基本物理定律的解。
    的頭像 發(fā)表于 12-05 16:50 ?1.4w次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b>詳解物理信息<b class='flag-5'>神經網絡</b>