chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

深度學習模型常用的數(shù)據增強方法

汽車玩家 ? 來源:CSDN博主 ? 作者:csuzhaoqinghui ? 2020-01-19 17:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

數(shù)據增強(Data Augmentation)

人工智能,或者說計算機視覺的一個最終目標在于構建一個真正可適用于真實世界復雜環(huán)境的系統(tǒng)。而就目前所應用的機器學習系統(tǒng)而言,大部分采用了有監(jiān)督的學習方法,也必然導致了需要廣泛收集圖像樣本,并進行對應的圖像標注的工作。而人力時有窮盡,高質量的樣本集圖片又是構建一個優(yōu)秀的機器學習系統(tǒng)的關鍵因素。使用適當?shù)臄?shù)據增強方法可以將數(shù)據集的數(shù)量增大十倍以上,從而極大化利用小樣本集中的每個樣本,使之也可以訓練得到一個較好的機器學習模型。數(shù)據增強方法也可以提高模型的魯棒性,防止其易在訓練中出現(xiàn)過擬合的現(xiàn)象。

常用的數(shù)據增強方法主要來自數(shù)字圖像處理中的幾何變換,但不改變圖像中的像素值,而是改變了其空間位置,借此希望卷積神經網絡學習到圖像中更多的不變性特征,也有利于提高其泛化性能。

以下將對各種方法做簡單的列舉與說明。

平移(Shift)變換:對原始圖片在圖像平面內以某種方式(預先定義或者隨機方式確定平移的步長、范圍及其方向)進行平移。

翻轉(Flip)變換:沿豎直或者水平方向對原始圖片進行翻轉。

隨機裁剪(Random Crop):隨機定義感興趣區(qū)域以裁剪圖像,相當于增加隨機擾動。

噪聲擾動(Noise):對圖像隨機添加高斯噪聲或者椒鹽噪聲等。

對比度變換(Contrast):改變圖像對比度,相當于在HSV空間中,保持色調分量H不變,而改變亮度分量V和飽和度S,用于模擬現(xiàn)實環(huán)境的光照變化。

縮放變換(Zoom):以設定的比例縮小或者放大圖像。

尺度變換(Scale):與縮放變換有點類似,不過尺度變換的對象是圖像內容而非圖像本身(可以參考SIFT特征提取方法),構建圖像金字塔以得到不同大小、模糊程度的圖像。

權重初始化(weight initialization)

傳統(tǒng)神經網絡之所以一直沒辦法加深網絡的深度,一個很重要的原因在于使用隨機梯度下降法訓練時,隨著訓練迭代過程的深入會出現(xiàn)梯度彌散的現(xiàn)象,也就導致了神經網絡無法有效地從樣本中進行學習。而造成梯度彌散的一部分原因應該歸結于傳統(tǒng)神經網絡使用了權重隨機初始化。

而現(xiàn)代深度神經網絡拋棄了隨機初始化的方法,轉而使用高斯初始化、 Xavier算法等來解決這一問題。

所謂的高斯初始化方法是指隨機選取一個固定均值(如0等)和固定方差(如0.01等)的高斯分布中的值作為網絡各個神經元的權重參數(shù)的初值,從而保證權重參數(shù)訓練開始時符合高斯分布,以期獲得更好的結果。這是一種常用的權重初始化方法。

Xavier算法是Glorot于2010年提出的權值初始化方法。相比與隨機初始化或者高斯初始化方法中的隨機選取,Xavier算法為每一個深度神經網絡的初始權值進行了個性定制,因為他是根據輸入輸出神經元的個數(shù)來進行權重的初始化。該算法假設對于一個網絡有n個線性神經元,其初始權值為W,網絡輸出為Y,即:

Y=W_1 X_1+W_2 X_2+?+ W_n X_n (1-1)

計算每個神經元輸出的方差如下:

Var(W_i X_i )=E[X_i ]^2 Var(W_i )+E[W_i ]^2 Var(X_i ) + Var(W_i )Var(X_i ) (1-2)

假設所有輸入權重的均值為0,上述公式可以簡化如下:

Var(W_i X_i )= Var(W_i )Var(X_i ) (1-3)

同時假設Xi和Wi都是獨立同分布的,可得輸出Y的方差:

Var(Y)=Var(W_1 X_1+W_2 X_2+?+ W_n X_n )=nVar(W_i )Var(X_i ) (1-4)

故如果我們要求輸出分布要與輸入的分布一樣,則nVar(Wi)的值應為1。

盡管算法中使用了諸多假設,可是在實際應用過程中取得了良好的效果。直觀上來講,對原始的Xavier算法來說,假設輸入的均值為0對于傳統(tǒng)的神經網絡是合理的。因為其初始化層之后是非線性激活層(tanh,sigmoid等)中的激活函數(shù)在0值附近的梯度值最大。而對于現(xiàn)代深度神經網絡而言,由于其線性整流單元(ReLU)對于輸入的響應有一半為0,故He等提出以下公式作為替代。

Var(W_i )=2/n_in (1-8)

隨機梯度下降法(Stochastic Gradient descent)

梯度下降法(Gradient descent)是當前最為受歡迎的優(yōu)化算法之一,也是最常用的深度神經網絡優(yōu)化方法。它通過沿著當前函數(shù)點所對應的梯度的反方向進行迭代搜索,從而找到目標函數(shù)的極值點。許多學者對其提出了改進算法。

標準梯度下降法可以表征為:

θ(t+1)=θ_t- η?θ E(L(θ_t) (1-9)

其中η為每次迭代的學習率,L(θ)為目標函數(shù)。E[L(θ)]整個數(shù)據集的數(shù)學期望。

標準梯度下降法要求在每次迭代的時候都要計算整個數(shù)據集的梯度方向。它可以保證凸目標函數(shù)可以收斂到全局最小點,而對于非凸目標函數(shù)至少可以收斂到局部極值點。近幾十年來,樣本數(shù)據的增長速度遠遠大于處理器的計算能力的增長。從這個角度上來說,統(tǒng)計機器學習方法的局限在于計算能力而不在于樣本量的大小。對于小樣本學習中標準梯度下降法是適用的,但是應用于大數(shù)據集時是極其緩慢的,整個數(shù)據集無法一次性裝載進內存中的情況越來越普遍。因此標準梯度下降法無法勝任于現(xiàn)代大規(guī)模數(shù)據的優(yōu)化任務,此時隨機梯度下降法 (stochastic gradient descent, SGD)的應用效果要遠遠好于標準梯度下降法。

相比于計算整個數(shù)據集的梯度方向,隨機梯度下降法(SGD)以從訓練集中隨機選取的單個樣本來估計目標梯度,以迭代更新參數(shù)θ。

θ(t+1)=θ_t- η_t ?θ L(θ_t;x^((t) ),y^((t) )) (1-10)

在實際應用過程中,每次的參數(shù)更新并不是根據單個樣本計算的,而是由所定義的最小批量樣本(mini-batch)來計算的。這可以降低單個樣本參數(shù)更新的劇烈波動并使收斂過程更加穩(wěn)定。由于采用批量樣本并不能完全代表數(shù)據集的梯度方向,其參數(shù)更新的波動也是無可避免的。但是這種波動一定程度上使其能夠跳轉到潛在的更好的局部極小點,并且最終到達全局最小點。盡管理論上,隨機梯度下降法(SGD)可以漸進收斂,但是在實際應用過程中仍有許多挑戰(zhàn)。

首先,收斂的速度取決于學習率η,一個合適的學習率并不是那么容易確定的。如果學習率太小會導致收斂過程極其緩慢,而過大的學習率η將會阻礙模型收斂并導致目標函數(shù)在最小值附近波動甚至發(fā)散。其次,對于神經網絡這種高度非線性任務而言,其目標函數(shù)通常都有大量的次優(yōu)局部極小點,為保證收斂到全局最小點需要避免訓練過程陷入局部極小點中。

對于學習率或者學習策略的選擇,可以參考以下方法:

- 選取一個足夠小的,在第一次迭代中可以收斂的常數(shù)值(或選取兩個取其均值),如果收斂速度有所下降,取η/2作為新的學習率;

- 在每次迭代之后引入評估機制,當兩次迭代間的變化小于某個設定閾值時減小學習率。

為了避免訓練陷入局部極小點,Qian等提出了基于動量(momentum)的梯度下降學習算法,通過增加歷史參數(shù)更新的權重項,加速當前參數(shù)更新的過程并減少振蕩。

ν(t+1)=〖γν〗_t- η_t ?θ L(θ_t;x^((t) ),y^((t) )) (1-11)

θ(t+1)=θ_t+ν(t+1) (1-12)

其中ν_(t+1)是當前的更新向量,γ即為動量,通常設為0.9或者其他常數(shù)。

2013年,Sutskever等對傳統(tǒng)動量算法改進動量更新過程使得訓練更加穩(wěn)定。而Recht等提出并行SGD以適應現(xiàn)代海量數(shù)據集的訓練任務。

批規(guī)范化(Batch normalization)

當訓練一個深度神經網絡時,由于各層參數(shù)不斷變化,所以各層輸入的概率分布也在不斷的變化,也導致了非線性激活函數(shù)(如sigmoid等)正負兩邊都會飽和,使得訓練迭代的過程變得極其緩慢甚至無法進行。這時候,通常需要采用較小的學習率以及精細進行權重初始化。loffe等將這種現(xiàn)象稱為“內部協(xié)方差偏移”(internal covariate shift),并提出了批規(guī)范化(Batch normalization,BN)解決此類問題。

該論文中提出在每次隨機梯度下降迭代時,在最小批量樣本(mini-batch)內做規(guī)范化操作,使得輸出結果各個維度的均值為0,方差為1,有效地避免了非線性激活函數(shù)的飽和問題(以sigmoid為例,觀察sigmoid函數(shù)即可知,該函數(shù)輸入集中在0附近時,其輸出梯度較大);同時也讓梯度變化受參數(shù)及其初值的影響減小。

假設對當前隱含層執(zhí)行規(guī)范化,其輸入有d個,分別為 x=〖[x_1,x_1,…,x_d]〗^T,則其第k維輸出如下:

x ?k = (x_k-μβ)/√(δ_β^2+?) (1-13)

其中,μβ和δβ^2分別為最小批量樣本的均值和方差。

為了加強其表示能力,原作中引入了一對可學習參數(shù) γ,β,使得:

y_k=〖BN〗_(γ,β) (x_k )= γx ?_k+β (1-14)

總體而言,批規(guī)范化(Batch normalization)作用可以歸納如下:

(1) 可以使用更高的學習率,加快了訓練速度;

(2) 可以移除或使用較低的dropout(下一小節(jié)將作介紹)。dropout是常用的防止過擬合的方法,較低的dropout也可以提高訓練速度。

(3) 減少圖像預處理的使用。由于現(xiàn)在訓練迭代次數(shù)降低,所以可以對樣本數(shù)據少做一些圖像扭曲,讓神經網絡多從真實的數(shù)據中學習。

當然,對于上述問題的解決辦法并不是唯一的,Razvan等提出的自然梯度(Natural Gradient)也是對解決這一問題的一種思路。

Dropout

眾所周知,過擬合問題一直是機器學習的算法的致力于解決的問題。對于大型神經網絡來說,其參數(shù)規(guī)模相比于淺層學習算法有了躍進式的增加,所以相對來說也更加容易發(fā)生過擬合的現(xiàn)象。而為了解決過擬合問題,一般會采用集成方法,即同時訓練多個模型進行組合,然而這種方法費時費力也不能保證取得預期效果。

2012年,Hinton等提出Dropout用于解決神經網絡訓練易過擬合的問題。通過在其訓練過程中,按照事先規(guī)定的概率暫時屏蔽掉其中的某些神經元。由于這種屏蔽是暫時而是隨機的,對于隨機梯度下降來說,相當于每一次批量樣本的訓練均是在訓練一個新的網絡。極端情況下,對于一個n節(jié)點的網絡,相當于同時在訓練2^n個不同網絡模型, 但此時需要優(yōu)化的參數(shù)數(shù)量確實不變的,這也一定程度上符合傳統(tǒng)的集成方法的思想而同時解決了其費時的問題。

其數(shù)學表達如下:

y= εx (1-15)

其中,ε以一定的概率p等于0,使得該神經元節(jié)點x暫時被屏蔽。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4814

    瀏覽量

    103527
  • 人工智能
    +關注

    關注

    1806

    文章

    48996

    瀏覽量

    249191
  • 深度學習
    +關注

    關注

    73

    文章

    5561

    瀏覽量

    122770
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    模型推理顯存和計算量估計方法研究

    方法。 一、引言 大模型推理是指在已知輸入數(shù)據的情況下,通過深度學習模型進行預測或分類的過程。然
    發(fā)表于 07-03 19:43

    在OpenVINO?工具套件的深度學習工作臺中無法導出INT8模型怎么解決?

    無法在 OpenVINO? 工具套件的深度學習 (DL) 工作臺中導出 INT8 模型
    發(fā)表于 03-06 07:54

    模型領域常用名詞解釋(近100個)

    本文總結了大模型領域常用的近100個名詞解釋,并按照模型架構與基礎概念,訓練方法與技術,模型優(yōu)化與壓縮,推理與應用,計算與性能優(yōu)化,
    的頭像 發(fā)表于 02-19 11:49 ?778次閱讀
    大<b class='flag-5'>模型</b>領域<b class='flag-5'>常用</b>名詞解釋(近100個)

    【「基于大模型的RAG應用開發(fā)與優(yōu)化」閱讀體驗】+大模型微調技術解讀

    今天學習<基于大模型的RAG應用開發(fā)與優(yōu)化>這本書。大模型微調是深度學習領域中的一項關鍵技術,它指的是在已經預訓練好的大型
    發(fā)表于 01-14 16:51

    深度學習模型的魯棒性優(yōu)化

    深度學習模型的魯棒性優(yōu)化是一個復雜但至關重要的任務,它涉及多個方面的技術和策略。以下是一些關鍵的優(yōu)化方法: 一、數(shù)據預處理與
    的頭像 發(fā)表于 11-11 10:25 ?1177次閱讀

    Pytorch深度學習訓練的方法

    掌握這 17 種方法,用最省力的方式,加速你的 Pytorch 深度學習訓練。
    的頭像 發(fā)表于 10-28 14:05 ?649次閱讀
    Pytorch<b class='flag-5'>深度</b><b class='flag-5'>學習</b>訓練的<b class='flag-5'>方法</b>

    GPU深度學習應用案例

    GPU在深度學習中的應用廣泛且重要,以下是一些GPU深度學習應用案例: 一、圖像識別 圖像識別是深度學習
    的頭像 發(fā)表于 10-27 11:13 ?1338次閱讀

    FPGA加速深度學習模型的案例

    FPGA(現(xiàn)場可編程門陣列)加速深度學習模型是當前硬件加速領域的一個熱門研究方向。以下是一些FPGA加速深度學習
    的頭像 發(fā)表于 10-25 09:22 ?1209次閱讀

    AI大模型深度學習的關系

    AI大模型深度學習之間存在著密不可分的關系,它們互為促進,相輔相成。以下是對兩者關系的介紹: 一、深度學習是AI大
    的頭像 發(fā)表于 10-23 15:25 ?2874次閱讀

    FPGA做深度學習能走多遠?

    并行計算的能力,可以在硬件層面并行處理大量數(shù)據。這種并行處理能力使得 FPGA 在執(zhí)行深度學習算法時速度遠超傳統(tǒng)處理器,能夠提供更低的延遲和更高的吞吐量,從而加速模型訓練和推理過程,滿
    發(fā)表于 09-27 20:53

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    今天來學習大語言模型在自然語言理解方面的原理以及問答回復實現(xiàn)。 主要是基于深度學習和自然語言處理技術。 大語言模型涉及以下幾個過程:
    發(fā)表于 08-02 11:03

    深度學習模型有哪些應用場景

    深度學習模型作為人工智能領域的重要分支,已經在多個應用場景中展現(xiàn)出其巨大的潛力和價值。這些應用不僅改變了我們的日常生活,還推動了科技進步和產業(yè)升級。以下將詳細探討深度
    的頭像 發(fā)表于 07-16 18:25 ?4066次閱讀

    深度神經網絡模型量化的基本方法

    深度神經網絡模型量化是深度學習領域中的一種重要優(yōu)化技術,旨在通過減少模型參數(shù)的精度(即從高精度浮點數(shù)如32位浮點數(shù)FP32降低到低精度整數(shù)如
    的頭像 發(fā)表于 07-15 11:26 ?1320次閱讀

    深度學習模型量化方法

    深度學習模型量化是一種重要的模型輕量化技術,旨在通過減少網絡參數(shù)的比特寬度來減小模型大小和加速推理過程,同時盡量保持
    的頭像 發(fā)表于 07-15 11:01 ?1099次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學習</b><b class='flag-5'>模型</b>量化<b class='flag-5'>方法</b>

    基于Python的深度學習人臉識別方法

    基于Python的深度學習人臉識別方法是一個涉及多個技術領域的復雜話題,包括計算機視覺、深度學習、以及圖像處理等。在這里,我將概述一個基本的
    的頭像 發(fā)表于 07-14 11:52 ?1689次閱讀