chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深層神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練:過(guò)擬合優(yōu)化

電子設(shè)計(jì) ? 來(lái)源:TOMORROW 星辰 ? 作者:TOMORROW 星辰 ? 2020-12-02 14:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

·過(guò)擬合(Overfitting)

深層神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練過(guò)程,就是尋找一個(gè)模型能夠很好的擬合現(xiàn)有的數(shù)據(jù)(訓(xùn)練集),同時(shí)能夠很好的預(yù)測(cè)未來(lái)的數(shù)據(jù)。

在訓(xùn)練過(guò)程中由于模型建立的不恰當(dāng),往往所訓(xùn)練得到的模型能夠?qū)τ?xùn)練集的數(shù)據(jù)非常好的擬合,但是卻在預(yù)測(cè)未來(lái)的數(shù)據(jù)上表現(xiàn)得非常差,這種情況就叫做過(guò)擬合(Overfitting)。

為了訓(xùn)練出高效可用的深層神經(jīng)網(wǎng)絡(luò)模型,在訓(xùn)練時(shí)必須要避免過(guò)擬合的現(xiàn)象。過(guò)擬合現(xiàn)象的優(yōu)化方法通常有三種,分別是:正則化(Regulation),擴(kuò)增訓(xùn)練集(Data augmentation)以及提前停止迭代(Early stopping)。

·正則化(Regulation)

正則化方法是指在進(jìn)行損失函數(shù)(costfunction)優(yōu)化時(shí),在損失函數(shù)后面加上一個(gè)正則項(xiàng)。

正則化方法中目前常用的有兩種方法:L2 正則化和 Dropout 正則化。

L2 正則

L2 正則是基于 L2 范數(shù),即在函數(shù)后面加上參數(shù)的 L2 范數(shù)的平方,即:

其中J0是原損失函數(shù),m 表示數(shù)據(jù)集的大小。使用下式對(duì)參數(shù)進(jìn)行更新:

其中,因此知道 w 在進(jìn)行權(quán)重衰減。在神經(jīng)網(wǎng)絡(luò)中,當(dāng)一個(gè)神經(jīng)元的權(quán)重越小時(shí),那么該神經(jīng)元在神經(jīng)網(wǎng)絡(luò)中起到的作用就越小,當(dāng)權(quán)重為 0 時(shí),那么該神經(jīng)元就可以被神經(jīng)網(wǎng)絡(luò)剔除。而過(guò)擬合現(xiàn)象出現(xiàn)的原因之一就是,模型復(fù)雜度過(guò)高。那么,也就是說(shuō) L2 正則化后,權(quán)重會(huì)衰減,從而降低了模型的復(fù)雜度,從而一定程度上避免對(duì)數(shù)據(jù)過(guò)擬合。

隨機(jī)失活(Dropout)正則

其實(shí) Dropout 的思路與 L2 的思路是一致的,都是降低模型的復(fù)雜度,從而避免過(guò)擬合。只是實(shí)現(xiàn)的方法有所不同。

Dropout 的做法是,在訓(xùn)練過(guò)程中,按照一定的概率隨機(jī)的忽略掉一些神經(jīng)元,使其失活,從而就降低了模型的復(fù)雜度,提高了泛化的能力,一定程度上避免了過(guò)擬合。

常用的實(shí)現(xiàn)方法是 InvertedDropout。

使用 Dropout 的小技巧

·1、通常丟棄率控制在 20%~50%比較好,可以從 20%開(kāi)始嘗試。如果比例太低則起不到效果,比例太高則會(huì)導(dǎo)致模型的欠學(xué)習(xí)。

·2、在大的網(wǎng)絡(luò)模型上應(yīng)用。當(dāng) dropout 用在較大的網(wǎng)絡(luò)模型時(shí)更有可能得到效果的提升,模型有更多的機(jī)會(huì)學(xué)習(xí)到多種獨(dú)立的表征。

·3、在輸入層(可見(jiàn)層)和隱藏層都使用 dropout。在每層都應(yīng)用 dropout 被證明會(huì)取得好的效果。

·4、增加學(xué)習(xí)率和沖量。把學(xué)習(xí)率擴(kuò)大 10~100 倍,沖量值調(diào)高到 0.9~0.99.

·5、限制網(wǎng)絡(luò)模型的權(quán)重。大的學(xué)習(xí)率往往導(dǎo)致大的權(quán)重值。對(duì)網(wǎng)絡(luò)的權(quán)重值做最大范數(shù)正則化等方法被證明會(huì)提升效果。

·擴(kuò)增訓(xùn)練集(Data augmentation)

“有時(shí)候不是因?yàn)?a target="_blank">算法好贏了,而是因?yàn)閾碛懈嗟臄?shù)據(jù)才贏了?!?/p>

特別在深度學(xué)習(xí)中,更多的訓(xùn)練數(shù)據(jù),意味著可以訓(xùn)練更深的網(wǎng)絡(luò),訓(xùn)練出更好的模型。

然而很多時(shí)候,收集更多的數(shù)據(jù)并不那么容易,要付出很大的代價(jià)。那么,為了得到更多的訓(xùn)練數(shù)據(jù),我們可以在原有的數(shù)據(jù)上做一些改動(dòng)產(chǎn)生新的可用數(shù)據(jù),以圖片數(shù)據(jù)為例,將圖片水平翻轉(zhuǎn),放大或者選擇一個(gè)小角度都可以得到新的圖片數(shù)據(jù)用于訓(xùn)練。

雖然這樣的效果沒(méi)有全新的數(shù)據(jù)更加好,但是付出的代價(jià)卻是接近于零的。所以,很多情況下,這是一個(gè)非常好的數(shù)據(jù)擴(kuò)增方法。

·提前停止迭代(Early stopping)

在訓(xùn)練過(guò)程中繪制訓(xùn)練集誤差函數(shù)的同時(shí)也繪制交叉驗(yàn)證集的誤差。從下面的圖可以看出,訓(xùn)練集誤差隨著迭代次數(shù)增加而不斷降低,而驗(yàn)證集誤差卻是先降低后上升。很明顯,在這個(gè)模型中,我們希望驗(yàn)證集誤差和訓(xùn)練集誤差都盡量的小,那么最優(yōu)點(diǎn)就是在驗(yàn)證集誤差的最低點(diǎn),訓(xùn)練應(yīng)該在該點(diǎn)處停止,也就是選取該點(diǎn)處的權(quán)重值作為神經(jīng)網(wǎng)絡(luò)的參數(shù)。

但是這種優(yōu)化方法有很大的缺點(diǎn)。因?yàn)樘崆巴V褂?xùn)練,也就是停止優(yōu)化訓(xùn)練集的誤差,通常情況下,在驗(yàn)證集誤差達(dá)到最小值時(shí),訓(xùn)練集誤差還未處于一個(gè)足夠小的值。從而使得該模型雖然沒(méi)有出現(xiàn)過(guò)擬合現(xiàn)象,卻是出現(xiàn)了欠擬合的情況。當(dāng)然,這種優(yōu)化方法還是有著表現(xiàn)優(yōu)異的使用場(chǎng)景的。
編輯:hfy

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    無(wú)刷電機(jī)小波神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)子位置檢測(cè)方法的研究

    摘要:論文通過(guò)對(duì)無(wú)刷電機(jī)數(shù)學(xué)模型的推導(dǎo),得出轉(zhuǎn)角:與三相相電壓之間存在映射關(guān)系,因此構(gòu)建了一個(gè)以三相相電壓為輸人,轉(zhuǎn)角為輸出的小波神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)轉(zhuǎn)角預(yù)測(cè),并采用改進(jìn)遺傳算法來(lái)訓(xùn)練網(wǎng)絡(luò)結(jié)
    發(fā)表于 06-25 13:06

    基于FPGA搭建神經(jīng)網(wǎng)絡(luò)的步驟解析

    本文的目的是在一個(gè)神經(jīng)網(wǎng)絡(luò)已經(jīng)通過(guò)python或者M(jìn)ATLAB訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型,將訓(xùn)練好的模型
    的頭像 發(fā)表于 06-03 15:51 ?706次閱讀
    基于FPGA搭建<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的步驟解析

    如何優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率

    優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率是提高模型訓(xùn)練效率和性能的關(guān)鍵步驟。以下是一些優(yōu)化BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率的方
    的頭像 發(fā)表于 02-12 15:51 ?1263次閱讀

    BP神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點(diǎn)分析

    BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network)作為一種常用的機(jī)器學(xué)習(xí)模型,具有顯著的優(yōu)點(diǎn),同時(shí)也存在一些不容忽視的缺點(diǎn)。以下是對(duì)BP神經(jīng)網(wǎng)絡(luò)優(yōu)缺點(diǎn)的分析: 優(yōu)點(diǎn)
    的頭像 發(fā)表于 02-12 15:36 ?1273次閱讀

    什么是BP神經(jīng)網(wǎng)絡(luò)的反向傳播算法

    BP神經(jīng)網(wǎng)絡(luò)的反向傳播算法(Backpropagation Algorithm)是一種用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的有效方法。以下是關(guān)于BP神經(jīng)網(wǎng)絡(luò)的反向傳播算法的介紹: 一、基本概念 反向傳播算
    的頭像 發(fā)表于 02-12 15:18 ?1076次閱讀

    BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系

    ),是一種多層前饋神經(jīng)網(wǎng)絡(luò),它通過(guò)反向傳播算法進(jìn)行訓(xùn)練。BP神經(jīng)網(wǎng)絡(luò)由輸入層、一個(gè)或多個(gè)隱藏層和輸出層組成,通過(guò)逐層遞減的方式調(diào)整網(wǎng)絡(luò)權(quán)重,目的是最小化
    的頭像 發(fā)表于 02-12 15:15 ?1180次閱讀

    如何訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)模型

    BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)是一種經(jīng)典的人工神經(jīng)網(wǎng)絡(luò)模型,其訓(xùn)練過(guò)程主要分為兩個(gè)階段:前向傳播和反向傳播。以下是訓(xùn)練BP
    的頭像 發(fā)表于 02-12 15:10 ?1224次閱讀

    人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法

    擬合的數(shù)學(xué)模型的形式受到大腦中神經(jīng)元的連接和行為的啟發(fā),最初是為了研究大腦功能而設(shè)計(jì)的。然而,數(shù)據(jù)科學(xué)中常用的神經(jīng)網(wǎng)絡(luò)作為大腦模型已經(jīng)過(guò)時(shí)
    的頭像 發(fā)表于 01-09 10:24 ?1785次閱讀
    人工<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的原理和多種<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>架構(gòu)方法

    卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)調(diào)整方法

    卷積神經(jīng)網(wǎng)絡(luò)因其在處理具有空間層次結(jié)構(gòu)的數(shù)據(jù)時(shí)的卓越性能而受到青睞。然而,CNN的成功很大程度上依賴(lài)于其參數(shù)的合理設(shè)置。參數(shù)調(diào)整是一個(gè)復(fù)雜的過(guò)程,涉及到多個(gè)超參數(shù)的選擇和優(yōu)化網(wǎng)絡(luò)架構(gòu)參數(shù) 卷積層
    的頭像 發(fā)表于 11-15 15:10 ?1643次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的比較

    在深度學(xué)習(xí)領(lǐng)域,神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于各種任務(wù),如圖像識(shí)別、自然語(yǔ)言處理和游戲智能等。其中,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)是兩種常見(jiàn)的模型
    的頭像 發(fā)表于 11-15 14:53 ?2249次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)優(yōu)化技巧

    循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,簡(jiǎn)稱(chēng)RNN)是一種用于處理序列數(shù)據(jù)的深度學(xué)習(xí)模型,它能夠捕捉時(shí)間序列中的動(dòng)態(tài)特征。然而,RNN在訓(xùn)練過(guò)程中可能會(huì)遇到梯度消失或梯度
    的頭像 發(fā)表于 11-15 09:51 ?1012次閱讀

    RNN模型與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的區(qū)別

    神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)領(lǐng)域中的一種強(qiáng)大工具,它們能夠模擬人腦處理信息的方式。隨著技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡(luò)的類(lèi)型也在不斷增加,其中循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(如前饋
    的頭像 發(fā)表于 11-15 09:42 ?1797次閱讀

    如何優(yōu)化LSTM神經(jīng)網(wǎng)絡(luò)的性能

    LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),它能夠?qū)W習(xí)長(zhǎng)期依賴(lài)關(guān)系,因此在序列數(shù)據(jù)處理中非常有效。然而,LSTM網(wǎng)絡(luò)訓(xùn)練可能面臨梯度消失或爆炸的問(wèn)題,需要采取特定的策略來(lái)優(yōu)化其性能。
    的頭像 發(fā)表于 11-13 10:09 ?2876次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)準(zhǔn)備方法

    LSTM(Long Short-Term Memory,長(zhǎng)短期記憶)神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)準(zhǔn)備方法是一個(gè)關(guān)鍵步驟,它直接影響到模型的性能和效果。以下是一些關(guān)于LSTM神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 11-13 10:08 ?2618次閱讀

    關(guān)于卷積神經(jīng)網(wǎng)絡(luò),這些概念你厘清了么~

    。 圖2.一個(gè)小型神經(jīng)網(wǎng)絡(luò) 圖3.用CIFAR-10數(shù)據(jù)集訓(xùn)練的CIFAR網(wǎng)絡(luò)模型 CIFAR-10是一個(gè)特定數(shù)據(jù)集,通常用于訓(xùn)練
    發(fā)表于 10-24 13:56