chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何有效地對神經(jīng)網(wǎng)絡參數(shù)進行初始化

DPVg_AI_era ? 來源:lq ? 2019-05-15 08:59 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

神經(jīng)網(wǎng)絡的初始化是訓練流程的重要基礎環(huán)節(jié),會對模型的性能、收斂性、收斂速度等產生重要的影響。本文是deeplearning.ai的一篇技術博客,文章指出,對初始化值的大小選取不當, 可能造成梯度爆炸或梯度消失等問題,并提出了針對性的解決方法。

初始化會對深度神經(jīng)網(wǎng)絡模型的訓練時間和收斂性產生重大影響。簡單的初始化方法可以加速訓練,但使用這些方法需要注意小心常見的陷阱。本文將解釋如何有效地對神經(jīng)網(wǎng)絡參數(shù)進行初始化。

有效的初始化對構建模型至關重要

要構建機器學習算法,通常要定義一個體系結構(例如邏輯回歸,支持向量機,神經(jīng)網(wǎng)絡)并對其進行訓練來學習參數(shù)。下面是訓練神經(jīng)網(wǎng)絡的一些常見流程:

初始化參數(shù)

選擇優(yōu)化算法

然后重復以下步驟:

1、向前傳播輸入

2、計算成本函數(shù)

3、使用反向傳播計算與參數(shù)相關的成本梯度

4、根據(jù)優(yōu)化算法,利用梯度更新每個參數(shù)

然后,給定一個新的數(shù)據(jù)點,使用模型來預測其類型。

初始化值太大太小會導致梯度爆炸或梯度消失

初始化這一步對于模型的最終性能至關重要,需要采用正確的方法。比如對于下面的三層神經(jīng)網(wǎng)絡??梢試L試使用不同的方法初始化此網(wǎng)絡,并觀察對學習的影響。

在優(yōu)化循環(huán)的每次迭代(前向,成本,后向,更新)中,我們觀察到當從輸出層向輸入層移動時,反向傳播的梯度要么被放大,要么被最小化。

假設所有激活函數(shù)都是線性的(恒等函數(shù))。 則輸出激活為:

其中 L=10 ,且W[1]、W[2]…W[L-1]都是2*2矩陣,因為從第1層到L-1層都是2個神經(jīng)元,接收2個輸入。為了方便分析,如果假設W[1]=W[2]=…=W[L-1]=W,那么輸出預測為

如果初始化值太大或太小會造成什么結果?

情況1:初始化值過大會導致梯度爆炸

如果每個權重的初始化值都比單位矩陣稍大,即:

可簡化表示為

且a[l]的值隨l值呈指數(shù)級增長。當這些激活用于向后傳播時,會導致梯度爆炸。也就是說,與參數(shù)相關的成本梯度太大。 這導致成本圍繞其最小值振蕩。

初始化值太大導致成本圍繞其最小值震蕩

情況2:初始化值過小會導致梯度消失

類似地,如果每個權重的初始化值都比單位矩陣稍小,即:

可簡化表示為

且a[l]的值隨l值減少呈指數(shù)級下降。當這些激活用于后向傳播時,可能會導致梯度消失。也就是說,與參數(shù)相關的成本梯度太小。這會導致成本在達到最小值之前收斂。

初始化值太小導致模型過早收斂

總而言之,使用大小不合適的值對權重進行將導致神經(jīng)網(wǎng)絡的發(fā)散或訓練速度下降。 雖然我們用的是簡單的對稱權重矩陣來說明梯度爆炸/消失的問題,但這一現(xiàn)象可以推廣到任何不合適的初始化值。

如何確定合適的初始化值

為了防止以上問題的出現(xiàn),我們可以堅持以下經(jīng)驗原則:

1.激活的平均值應為零。

2.激活的方差應該在每一層保持不變。

在這兩個假設下,反向傳播的梯度信號不應該在任何層中乘以太小或太大的值。梯度應該可以移動到輸入層,而不會爆炸或消失。

更具體地說,對于層l,其前向傳播是:

我們想讓下式成立:

確保均值為零,并保持每層輸入方差值不變,可以保證信號不會爆炸或消失。該方法既適用于前向傳播(用于激活),也適用于向后傳播(用于關于激活的成本梯度)。這里建議使用Xavier初始化(或其派生初始化方法),對于每個層l,有:

層l中的所有權重均自正態(tài)分布中隨機挑選,其中均值μ=0,方差E= 1/( n[l?1]),其中n[l?1]是第l-1層網(wǎng)絡中的神經(jīng)元數(shù)量。偏差已初始化為零。

下圖說明了Xavier初始化對五層全連接神經(jīng)網(wǎng)絡的影響。數(shù)據(jù)集為MNIST中選取的10000個手寫數(shù)字,分類結果的紅色方框表示錯誤分類,藍色表示正確分類。

結果顯示,Xavier初始化的模型性能顯著高于uniform和標準正態(tài)分布(從上至下分別為uniform、標準正態(tài)分布、Xavier)。

結論

在實踐中,使用Xavier初始化的機器學習工程師會將權重初始化為N(0,1/( n[l?1]))或N(0,2/(n[l-1]+n[1])),其中后一個分布的方差是n[l-1]和n[1]的調和平均。

Xavier初始化可以與tanh激活一起使用。此外,還有大量其他初始化方法。 例如,如果你正在使用ReLU,則通常的初始化是He初始化,其初始化權重通過乘以Xavier初始化的方差2來初始化。 雖然這種初始化證明稍微復雜一些,但其思路與tanh是相同的。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:一文看懂神經(jīng)網(wǎng)絡初始化!吳恩達Deeplearning.ai最新干貨

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    MATLAB神經(jīng)網(wǎng)絡工具箱函數(shù)

    遞歸網(wǎng)絡newelm 創(chuàng)建一Elman遞歸網(wǎng)絡2. 網(wǎng)絡應用函數(shù)sim 仿真一個神經(jīng)網(wǎng)絡init 初始化一個
    發(fā)表于 09-22 16:10

    【案例分享】基于BP算法的前饋神經(jīng)網(wǎng)絡

    }或o koko_{k})的誤差神經(jīng)元偏倚的變化量:ΔΘ ΔΘ Delta Theta=學習步長η ηeta × ×imes 乘以神經(jīng)元的誤差BP神經(jīng)網(wǎng)絡算法過程網(wǎng)絡
    發(fā)表于 07-21 04:00

    改善深層神經(jīng)網(wǎng)絡--超參數(shù)優(yōu)化、batch正則和程序框架 學習總結

    《深度學習工程師-吳恩達》02改善深層神經(jīng)網(wǎng)絡--超參數(shù)優(yōu)化、batch正則和程序框架 學習總結
    發(fā)表于 06-16 14:52

    怎么解決人工神經(jīng)網(wǎng)絡并行數(shù)據(jù)處理的問題

    本文提出了一個基于FPGA 的信息處理的實例:一個簡單的人工神經(jīng)網(wǎng)絡應用Verilog 語言描述,該數(shù)據(jù)流采用模塊的程序設計,并考慮了模塊間數(shù)據(jù)傳輸信號同 步的問題,有效地解決了人工神經(jīng)網(wǎng)絡
    發(fā)表于 05-06 07:22

    基于BP神經(jīng)網(wǎng)絡的PID控制

    神經(jīng)網(wǎng)絡可以建立參數(shù)Kp,Ki,Kd自整定的PID控制器?;贐P神經(jīng)網(wǎng)絡的PID控制系統(tǒng)結構框圖如下圖所示:控制器由兩部分組成:經(jīng)典增量式PID控制器;BP神經(jīng)網(wǎng)絡...
    發(fā)表于 09-07 07:43

    卷積神經(jīng)網(wǎng)絡模型發(fā)展及應用

    propagation algorithm,BP)[22]。BP 算法采用 Sigmoid 進行非線性映射,有效解決了 非線性分類和學習的問題,掀起了神經(jīng)網(wǎng)絡第二次 研究高潮。BP 網(wǎng)絡
    發(fā)表于 08-02 10:39

    如何進行高效的時序圖神經(jīng)網(wǎng)絡的訓練

    現(xiàn)有的圖數(shù)據(jù)規(guī)模極大,導致時序圖神經(jīng)網(wǎng)絡的訓練需要格外長的時間,因此使用多GPU進行訓練變得成為尤為重要,如何有效地將多GPU用于時序圖神經(jīng)網(wǎng)絡訓練成為一個非常重要的研究議題。本文提供
    發(fā)表于 09-28 10:37

    BP神經(jīng)網(wǎng)絡的稅收預測

    針對傳統(tǒng)稅收預測模型精度較低的問題,提出一種將Adaboost算法和BP神經(jīng)網(wǎng)絡相結合進行稅收預測的方法。該方法首先對歷年稅收數(shù)據(jù)進行預處理并初始化測試數(shù)據(jù)分布權值;然后
    發(fā)表于 02-27 16:51 ?0次下載
    BP<b class='flag-5'>神經(jīng)網(wǎng)絡</b>的稅收預測

    神經(jīng)網(wǎng)絡是在許多用例中提供了精確狀態(tài)的機器學習算法

    參數(shù)是必須初始化網(wǎng)絡的值,這些值是神經(jīng)網(wǎng)絡在訓練時無法學習到的。例如:在卷積神經(jīng)網(wǎng)絡中,一些超參數(shù)
    的頭像 發(fā)表于 06-11 11:47 ?3411次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡</b>是在許多用例中提供了精確狀態(tài)的機器學習算法

    神經(jīng)網(wǎng)絡如何正確初始化?

    初始化對訓練深度神經(jīng)網(wǎng)絡的收斂性有重要影響。
    的頭像 發(fā)表于 05-17 16:32 ?8593次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡</b>如何正確<b class='flag-5'>初始化</b>?

    教大家怎么選擇神經(jīng)網(wǎng)絡的超參數(shù)

    minibatch 的大小, 輸出神經(jīng)元的編碼方式, 代價函數(shù)的選擇, 權重初始化的方法, 神經(jīng)元激活函數(shù)的種類, 參加訓練模型數(shù)據(jù)的規(guī)模 這些都是可以影響神經(jīng)網(wǎng)絡學習速度和最后分類
    的頭像 發(fā)表于 06-19 14:49 ?4079次閱讀
    教大家怎么選擇<b class='flag-5'>神經(jīng)網(wǎng)絡</b>的超<b class='flag-5'>參數(shù)</b>

    卷積神經(jīng)網(wǎng)絡算法代碼matlab

    )、池層(Pooling Layer)和全連接層(Fully Connected Layer)。卷積神經(jīng)網(wǎng)絡源自對腦神經(jīng)細胞的研究,能夠有效地處理大規(guī)模的視覺和語音數(shù)據(jù)。本文將詳細介
    的頭像 發(fā)表于 08-21 16:50 ?1691次閱讀

    卷積神經(jīng)網(wǎng)絡的優(yōu)點

    傳統(tǒng)的神經(jīng)網(wǎng)絡模型,卷積神經(jīng)網(wǎng)絡具有以下優(yōu)點。 1. 局部連接和權值共享:卷積神經(jīng)網(wǎng)絡通過設置局部連接和權值共享的結構,有效地減少了神經(jīng)網(wǎng)絡
    的頭像 發(fā)表于 12-07 15:37 ?5496次閱讀

    bp神經(jīng)網(wǎng)絡算法的基本流程包括哪些

    。 初始化網(wǎng)絡參數(shù) 在BP神經(jīng)網(wǎng)絡算法中,首先需要初始化網(wǎng)絡
    的頭像 發(fā)表于 07-04 09:47 ?1562次閱讀

    BP神經(jīng)網(wǎng)絡的實現(xiàn)步驟詳解

    BP神經(jīng)網(wǎng)絡的實現(xiàn)步驟主要包括以下幾個階段:網(wǎng)絡初始化、前向傳播、誤差計算、反向傳播和權重更新。以下是對這些步驟的詳細解釋: 一、網(wǎng)絡初始化
    的頭像 發(fā)表于 02-12 15:50 ?939次閱讀