chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

全面總結(jié)深度學(xué)習(xí)中的歸一化技術(shù)

新機(jī)器視覺 ? 來源:DeepHub IMBA ? 作者:Maciej Balawejder ? 2022-04-28 15:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。多年來,研究人員提出了不同的方法來加速和穩(wěn)定學(xué)習(xí)過程。歸一化是一種被證明在這方面非常有效的技術(shù)。

7166194c-c6a9-11ec-bce3-dac502259ad0.png

在這篇文章中,我將使用類比和可視化的方式來回顧這些方法中,這將幫助您了解它們的產(chǎn)生的原因和思維過程。

為什么要?dú)w一化?

例如,我們現(xiàn)在用兩個(gè)特征構(gòu)建一個(gè)簡單的神經(jīng)網(wǎng)絡(luò)模型。這兩個(gè)特征一個(gè)是年齡:范圍在 0 到 65 之間,另一個(gè)是工資:范圍從 0 到 10 000。我們將這些特征提供給模型并計(jì)算梯度。

71740e12-c6a9-11ec-bce3-dac502259ad0.png

不同規(guī)模的輸入導(dǎo)致不同的權(quán)重更新和優(yōu)化器的步驟向最小值的方向不均衡。這也使損失函數(shù)的形狀不成比例。在這種情況下,就需要使用較低的學(xué)習(xí)速率來避免過沖,這就意味著較慢的學(xué)習(xí)過程。

所以我們的解決方案是輸入進(jìn)行歸一化,通過減去平均值(定心)并除以標(biāo)準(zhǔn)偏差來縮小特征。

7180a906-c6a9-11ec-bce3-dac502259ad0.png

718e25ae-c6a9-11ec-bce3-dac502259ad0.png

此過程也稱為“漂白”,處理后所有的值具有 0 均值和單位方差,這樣可以提供更快的收斂和更穩(wěn)定的訓(xùn)練。

這是一個(gè)很好的解決方案,那么為什么我們不規(guī)范化網(wǎng)絡(luò)中每一層的激活呢?

下面我們先看一下針對(duì)于激活的歸一化方法

Batch Normalization

719cadea-c6a9-11ec-bce3-dac502259ad0.png

2015 年,Sergey Ioffe 和 Christian Szegedy[3] 采用了這個(gè)想法來解決內(nèi)部協(xié)變量偏移問題。以前輸入層分布由于權(quán)值的更新而不斷變化。所以下面的層總是需要適應(yīng)新的分布,它會(huì)導(dǎo)致收斂速度變慢和訓(xùn)練不穩(wěn)定。

批量標(biāo)準(zhǔn)化提供了一種控制和優(yōu)化每一層之后的分布的方法。該過程與輸入歸一化相同,但我們添加了兩個(gè)可學(xué)習(xí)的參數(shù),γ 和 β。

通過代碼來說明要比枯燥的公式好的多,所以BN的代碼如下:

def BatchNorm(x, gamma, beta, eps=1e-5): # x: input shape [N, C, H, W] N, C, H, W = x.shape mean = torch.mean(input=x, dim=[0,2,3], keepdim=True) var = torch.var(input=x, dim=[0,2,3], keepdim=True) # mean, var shape : [1, C, 1, 1] x = (x - mean) / torch.sqrt(var + eps) return x * gamma + beta

這兩個(gè)參數(shù)是通過反向傳播沿著網(wǎng)絡(luò)學(xué)習(xí)的。他們通過縮放(γ)和移動(dòng)(β)激活優(yōu)化分布。

71acf984-c6a9-11ec-bce3-dac502259ad0.png

由于有固定的分布,所以可以提高學(xué)習(xí)率并加快收斂速度。除了計(jì)算提升之外,BN 還可以作為一種正則化技術(shù)。數(shù)據(jù)集統(tǒng)計(jì)數(shù)據(jù)的近似產(chǎn)生的噪聲消除了對(duì) Dropout 的需要。

但這是一把雙刃劍。這種估計(jì)僅適用于較大的批次。當(dāng)批次數(shù)量較少時(shí),性能會(huì)急劇下降。

71bc0190-c6a9-11ec-bce3-dac502259ad0.png

BN 的另一個(gè)缺點(diǎn)是對(duì)于批處理的依賴。如果我們傳遞了單個(gè)樣本而不是批量的樣本,網(wǎng)絡(luò)必須使用預(yù)先計(jì)算的訓(xùn)練均值和方差,這可能會(huì)導(dǎo)致不同的結(jié)果。

這個(gè)問題的重要性促使人們創(chuàng)建替代方法以避免對(duì)批處理的依賴。

Layer Normalization

71ce214a-c6a9-11ec-bce3-dac502259ad0.png

這是Geoffrey E. Hinton等人在2016年[4]中首次嘗試減少對(duì)批大小的約束。提出這個(gè)方法的主要原因是無法找到將BN應(yīng)用于遞歸神經(jīng)網(wǎng)絡(luò),需要找到一個(gè)替代的方法。

71dc9af4-c6a9-11ec-bce3-dac502259ad0.png

在深度神經(jīng)網(wǎng)絡(luò)中,由于層數(shù)是固定的,因此很容易存儲(chǔ)每個(gè) BN 層的統(tǒng)計(jì)信息。然而在 RNN 中,輸入和輸出形狀的長度不同。因此,在這種情況下,最好使用單個(gè)時(shí)間步長(樣本)而不是整個(gè)批次的統(tǒng)計(jì)信息進(jìn)行標(biāo)準(zhǔn)化。

def LayerNorm(x, gamma, beta, eps=1e-5): # x: input shape [N, C, H, W] N, C, H, W = x.shape mean = torch.mean(input=x, dim=[1,2,3], keepdim=True) var = torch.var(input=x, dim=[1,2,3], keepdim=True) # mean, var shape: [N, 1, 1, 1] x = (x - mean) / torch.sqrt(var + eps) return x * gamma + beta

在這種方法中,batch(N) 中的每個(gè)示例都在 [C, H, W] 維度上進(jìn)行了歸一化。與 BN 一樣,它可以加速和穩(wěn)定訓(xùn)練,并且不受批次的限制。此方法可用于批量為 1 的在線學(xué)習(xí)任務(wù)。

Instance Normalization

71f5635e-c6a9-11ec-bce3-dac502259ad0.png

Dmitry Ulyanov 等人在 2016 年的論文 [5] 中介紹了Instance Normalization。這是另一種嘗試減少對(duì)批處理的依賴以改善樣式傳輸網(wǎng)絡(luò)的結(jié)果。

def InstanceNorm(x, gamma, beta, eps=1e-5): # x: input shape [N, C, H, W] N, C, H, W = x.shape mean = torch.mean(input=x, dim=[2,3], keepdim=True) var = torch.var(input=x, dim=[2,3], keepdim=True) # mean, var shape: [N, C, 1, 1] x = (x - mean) / torch.sqrt(var + eps) return x * gamma + beta

跨批次和通道的標(biāo)準(zhǔn)化允許從圖像中刪除特定的對(duì)比度信息,這有助于泛化。

這種方法在 Pix2Pix 或 CycleGAN 等生成模型中廣受歡迎,并成為著名的 StyleGAN2 中使用的自適應(yīng)實(shí)例歸一化的先驅(qū)。

Group Normalization

72009cce-c6a9-11ec-bce3-dac502259ad0.png

Group Normalization 在 2018[1] 論文中被引入,它直接解決了 CNN 的 BN 限制。主要針對(duì)的是分布式學(xué)習(xí),其中批次被分成許多機(jī)器。這些是在少數(shù)例子上訓(xùn)練的,比如 6-8,在某些情況下,甚至是 1-2。

721d068e-c6a9-11ec-bce3-dac502259ad0.png

GN 可以理解為Layer 和Instance的混合。GN 將通道分成組并在它們之間進(jìn)行標(biāo)準(zhǔn)化。該方案使計(jì)算獨(dú)立于批量大小。

def GroupNorm(x, gamma, beta, G, eps=1e-5): # x: input features with shape [N, C, H, W] # G : number of groups N, C, H, W = x.shape x = torch.reshape(input=x, shape=[N, G, C // G, H, W]) mean = torch.mean(input=x, dim=[2,3,4], keepdim=True) var = torch.var(input=x, dim=[2,3,4], keepdim=True) # mean, var shape : [N, G, 1, 1, 1] x = (x - mean) / torch.sqrt(var + eps) x = torch.reshape(input=x, shape=[N, C, H, W]) return x * gamma + beta

GN 優(yōu)于在小批量上訓(xùn)練的 BN,但無法擊敗大批量的結(jié)果,但是這是一個(gè)很好的起點(diǎn)。

上面的針對(duì)于激活的歸一化方法我們基本上都聽說過也經(jīng)常會(huì)用到,下面我們來介紹針對(duì)權(quán)重的歸一化方法。

Weight Standardization

722c5922-c6a9-11ec-bce3-dac502259ad0.png

我們已經(jīng)對(duì)輸入和層輸出進(jìn)行了標(biāo)準(zhǔn)化,唯一剩下的就是權(quán)重。因?yàn)樗鼈兛梢栽跊]有任何控制的情況下變大,尤其是當(dāng)我們無論如何都要標(biāo)準(zhǔn)化輸出時(shí)。通過標(biāo)準(zhǔn)化權(quán)重,我們實(shí)現(xiàn)了更平滑的損失和更穩(wěn)定的訓(xùn)練。

def WeightStand(w, eps=1e-5): # w: input features shape [Cin, Cout, kernel_size, kernel_size] mean = torch.mean(input=w, dim=[0,2,3], keepdim=True) var = torch.var(input=w, dim=[0,2,3], keepdim=True) # mean, var shape : [1, Cout, 1, 1] w = (w - mean) / torch.sqrt(var + eps) return w

權(quán)重的標(biāo)準(zhǔn)化是Group Normalization的一個(gè)很好的輔助。在僅使用一個(gè)樣本的 BN(大批量)情況下,將這些方法結(jié)合起來會(huì)產(chǎn)生更好的結(jié)果。

72454180-c6a9-11ec-bce3-dac502259ad0.png

除此以外,有人還提出了BCN方法,稱為批處理通道規(guī)范化。簡而言之,每一層同時(shí)使用BN和GN。

總結(jié)

歸一化是深度學(xué)習(xí)中的一個(gè)基本概念。它加快了計(jì)算速度并穩(wěn)定了訓(xùn)練。多年來發(fā)展了許多不同的技術(shù)。本篇文章整理了目前與它相關(guān)的方法,希望對(duì)你有所幫助

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:深度學(xué)習(xí)中的歸一化技術(shù)全面總結(jié)

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    人工智能與機(jī)器學(xué)習(xí)在這些行業(yè)的深度應(yīng)用

    自人工智能和機(jī)器學(xué)習(xí)問世以來,多個(gè)在線領(lǐng)域的數(shù)字格局迎來了翻天覆地的變化。這些技術(shù)從誕生之初就為企業(yè)賦予了競爭優(yōu)勢,而在線行業(yè)正是受其影響最為顯著的領(lǐng)域。人工智能(AI)與機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 02-04 14:44 ?463次閱讀

    機(jī)器學(xué)習(xí)深度學(xué)習(xí)需避免的 7 個(gè)常見錯(cuò)誤與局限性

    無論你是剛?cè)腴T還是已經(jīng)從事人工智能模型相關(guān)工作段時(shí)間,機(jī)器學(xué)習(xí)深度學(xué)習(xí)中都存在些我們需要時(shí)刻關(guān)注并銘記的常見錯(cuò)誤。如果對(duì)這些錯(cuò)誤置之不
    的頭像 發(fā)表于 01-07 15:37 ?182次閱讀
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>和<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>中</b>需避免的 7 個(gè)常見錯(cuò)誤與局限性

    穿孔機(jī)頂頭檢測儀 機(jī)器視覺深度學(xué)習(xí)

    頂頭狀態(tài)。 檢測頂頭算法 引入人工智深度學(xué)習(xí)技術(shù),通過Keras實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)(CNN),用Numpy實(shí)現(xiàn)采集數(shù)據(jù)的訓(xùn)練,得到符合現(xiàn)場需求的模型,進(jìn)步提升檢測的準(zhǔn)確性和現(xiàn)場的適應(yīng)性
    發(fā)表于 12-22 14:33

    【團(tuán)購】獨(dú)家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實(shí)戰(zhàn)課(11大系列課程,共5000+分鐘)

    強(qiáng)化 無監(jiān)督學(xué)習(xí)應(yīng)用:無需NG樣本的缺陷檢測方案,解決工業(yè)數(shù)據(jù)標(biāo)注難題 多模態(tài)融合技術(shù):PaddleOCR+YOLOv8聯(lián)動(dòng)方案,實(shí)現(xiàn)\"文字識(shí)別+缺陷定位\"一體化 團(tuán)購課程大綱
    發(fā)表于 12-04 09:28

    【團(tuán)購】獨(dú)家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實(shí)戰(zhàn)課程(11大系列課程,共5000+分鐘)

    強(qiáng)化 無監(jiān)督學(xué)習(xí)應(yīng)用:無需NG樣本的缺陷檢測方案,解決工業(yè)數(shù)據(jù)標(biāo)注難題 多模態(tài)融合技術(shù):PaddleOCR+YOLOv8聯(lián)動(dòng)方案,實(shí)現(xiàn)\"文字識(shí)別+缺陷定位\"一體化 團(tuán)購課程大綱
    發(fā)表于 12-03 13:50

    如何深度學(xué)習(xí)機(jī)器視覺的應(yīng)用場景

    深度學(xué)習(xí)視覺應(yīng)用場景大全 工業(yè)制造領(lǐng)域 復(fù)雜缺陷檢測:處理傳統(tǒng)算法難以描述的非標(biāo)準(zhǔn)缺陷模式 非標(biāo)產(chǎn)品分類:對(duì)形狀、顏色、紋理多變的產(chǎn)品進(jìn)行智能分類 外觀質(zhì)量評(píng)估:基于學(xué)習(xí)的外觀質(zhì)量標(biāo)
    的頭像 發(fā)表于 11-27 10:19 ?218次閱讀

    構(gòu)建CNN網(wǎng)絡(luò)模型并優(yōu)化的一般化建議

    通過實(shí)踐,本文總結(jié)了構(gòu)建CNN網(wǎng)絡(luò)模型并優(yōu)化的一般化建議,這些建議將會(huì)在構(gòu)建高準(zhǔn)確率輕量級(jí)CNN神經(jīng)網(wǎng)絡(luò)模型方面提供幫助。 1)避免單層神經(jīng)網(wǎng)絡(luò):我們清楚神經(jīng)網(wǎng)絡(luò)本身是需要不斷抽象出更高級(jí)別的紋理
    發(fā)表于 10-28 08:02

    如何在機(jī)器視覺中部署深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

    人士而言往往難以理解,人們也常常誤以為需要扎實(shí)的編程技能才能真正掌握并合理使用這項(xiàng)技術(shù)。事實(shí)上,這種印象忽視了該技術(shù)為機(jī)器視覺(乃至生產(chǎn)自動(dòng))帶來的潛力,因?yàn)?b class='flag-5'>深度
    的頭像 發(fā)表于 09-10 17:38 ?897次閱讀
    如何在機(jī)器視覺中部署<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>神經(jīng)網(wǎng)絡(luò)

    深度學(xué)習(xí)對(duì)工業(yè)物聯(lián)網(wǎng)有哪些幫助

    、實(shí)施路徑三個(gè)維度展開分析: 、深度學(xué)習(xí)如何突破工業(yè)物聯(lián)網(wǎng)的技術(shù)瓶頸? 1. 非結(jié)構(gòu)數(shù)據(jù)處理:解鎖“沉睡數(shù)據(jù)”價(jià)值 傳統(tǒng)困境 :工業(yè)物聯(lián)
    的頭像 發(fā)表于 08-20 14:56 ?1021次閱讀

    自動(dòng)駕駛Transformer大模型會(huì)取代深度學(xué)習(xí)嗎?

    [首發(fā)于智駕最前沿微信公眾號(hào)]近年來,隨著ChatGPT、Claude、文心言等大語言模型在生成文本、對(duì)話交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學(xué)習(xí)”這
    的頭像 發(fā)表于 08-13 09:15 ?4181次閱讀
    自動(dòng)駕駛<b class='flag-5'>中</b>Transformer大模型會(huì)取代<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>嗎?

    從接口到架構(gòu):工控體機(jī)定制深度技術(shù)剖析

    在工業(yè)4.0與數(shù)字轉(zhuǎn)型的浪潮,工控體機(jī)作為工業(yè)自動(dòng)與信息融合的核心載體,正通過深度定制
    的頭像 發(fā)表于 06-17 16:47 ?559次閱讀

    深度學(xué)習(xí)賦能:正面吊車載箱號(hào)識(shí)別系統(tǒng)的核心技術(shù)

    在現(xiàn)代物流與智慧港口建設(shè),集裝箱的高效精準(zhǔn)識(shí)別是提升作業(yè)效率的關(guān)鍵環(huán)節(jié)?;贠CR+AI深度學(xué)習(xí)技術(shù)的正面吊車載箱號(hào)識(shí)別系統(tǒng),憑借99%以上的識(shí)別率和毫秒級(jí)響應(yīng)速度,正成為港口自動(dòng)
    的頭像 發(fā)表于 05-07 10:10 ?569次閱讀

    嵌入式AI技術(shù)深度學(xué)習(xí):數(shù)據(jù)樣本預(yù)處理過程中使用合適的特征變換對(duì)深度學(xué)習(xí)的意義

    ? 作者:蘇勇Andrew 使用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)機(jī)器學(xué)習(xí),網(wǎng)絡(luò)的每個(gè)層都將對(duì)輸入的數(shù)據(jù)做次抽象,多層神經(jīng)網(wǎng)絡(luò)構(gòu)成深度學(xué)習(xí)的框架,可以深度理解數(shù)
    的頭像 發(fā)表于 04-02 18:21 ?1511次閱讀

    廠家芯資訊|WTK6900系列語音識(shí)別芯片自學(xué)習(xí)功能深度答疑

    在智能硬件全面擁抱語音交互的時(shí)代,廣州唯創(chuàng)電子WTK6900系列芯片憑借其獨(dú)特的離線自學(xué)習(xí)能力,已成為智能家居、工業(yè)控制等領(lǐng)域的核心交互模塊。本文針對(duì)實(shí)際應(yīng)用的高頻問題,深度解析故障
    的頭像 發(fā)表于 03-20 09:13 ?816次閱讀
    廠家芯資訊|WTK6900系列語音識(shí)別芯片自<b class='flag-5'>學(xué)習(xí)</b>功能<b class='flag-5'>深度</b>答疑

    行業(yè)首創(chuàng):基于深度學(xué)習(xí)視覺平臺(tái)的AI驅(qū)動(dòng)輪胎檢測自動(dòng)

    全球領(lǐng)先的輪胎制造商 NEXEN TIRE 在其輪胎生產(chǎn)檢測過程中使用了基于友思特伙伴Neurocle開發(fā)的AI深度學(xué)習(xí)視覺平臺(tái),實(shí)現(xiàn)缺陷檢測率高達(dá)99.96%,是該行業(yè)首個(gè)使用AI平臺(tái)技術(shù)推動(dòng)缺陷檢測自動(dòng)
    的頭像 發(fā)表于 03-19 16:51 ?1004次閱讀
    行業(yè)首創(chuàng):基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>視覺平臺(tái)的AI驅(qū)動(dòng)輪胎檢測自動(dòng)<b class='flag-5'>化</b>