chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一些人會懷疑:難道神經(jīng)網(wǎng)絡(luò)不是最先進(jìn)的技術(shù)?

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-06-30 08:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:在機(jī)器學(xué)習(xí)面前,我們都像一個孩子。當(dāng)剛學(xué)會反向傳播算法時,許多人會不滿足于最基礎(chǔ)的感知器,去嘗試搭建更深、層數(shù)更多的神經(jīng)網(wǎng)絡(luò)。他們欣賞著自己的實(shí)現(xiàn),就像沙灘上的孩子驕傲地看著自己用泥沙堆起來的城堡。但和城堡的徒有其表一樣,這些神經(jīng)網(wǎng)絡(luò)的性能往往也難以令人滿意,它們也許會陷入無休止的訓(xùn)練,也許準(zhǔn)確率永遠(yuǎn)提不上來。這時,一些人就會開始懷疑:難道神經(jīng)網(wǎng)絡(luò)不是最先進(jìn)的技術(shù)?

類似的懷疑,誰都有過——

神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程包括前向傳播和反向傳播兩個部分,如果前向傳播得到的預(yù)測結(jié)果和實(shí)際結(jié)果不符,這就說明網(wǎng)絡(luò)沒有訓(xùn)練好,要用反向傳播去重新調(diào)整各個權(quán)重。這之中涉及各種常見的優(yōu)化算法,以梯度下降為例,它的思路是把當(dāng)前梯度的負(fù)值方向作為搜索方向,通過調(diào)整權(quán)重使目標(biāo)函數(shù)趨近局部最小值,也就是讓代價函數(shù)/損失函數(shù)越來越小。

如上式所述,梯度下降算法用原權(quán)重減去乘上標(biāo)量α(0到1之間)的梯度來更新權(quán)重,并“重復(fù)”這一過程直至收斂。但在實(shí)際操作中,這個“重復(fù)”的迭代次數(shù)是一個人為選定的超參數(shù),這意味著它可能過小,最后收斂效果并不好;它也可能過大,網(wǎng)絡(luò)被訓(xùn)練得“沒完沒了”。因此訓(xùn)練時間和訓(xùn)練效果之間存在“過猶不及”的尷尬情況。

那么這個超參數(shù)是怎么影響收斂的?就像不同人下山速度不同一樣,梯度下降有一個下降步長,迭代時間越短,步長就越大,雖然收斂速度很快,但它容易無法精確收斂到最后的最優(yōu)解;相反地,如果迭代時間過長,步長越小,那在很長一段收斂過程中,可能網(wǎng)絡(luò)的權(quán)重并不會發(fā)生太大改變,而且相對大步長,小步長在規(guī)定迭代次數(shù)內(nèi)接近最小值也更難。

小步長收斂宛如“蝸?!?/p>

大步長收斂效率更高

這還不是唯一的毛病,當(dāng)梯度數(shù)值過小時,它容易被四舍五入為0,也就是下溢出。這時再對這個數(shù)做某些運(yùn)算就會出問題。

看到這里,我們似乎已經(jīng)得到這樣一個事實(shí):小梯度 = 不好。雖然這個結(jié)論看起來有些武斷,但在很多情況下,它并不是危言聳聽,因?yàn)楸疚囊v的梯度消失就是由小梯度引起的。

讓我們回想一下sigmoid函數(shù),這是一個經(jīng)常會在分類問題中遇到的激活函數(shù):

如上圖所示,sigmoid的作用確實(shí)是有目共睹的,它能把任何輸入的閾值都限定在0到1之間,非常適合概率預(yù)測和分類預(yù)測。但這幾年sigmoid與tanh卻一直火不起來,凡是提及激活函數(shù),大家第一個想到的就是ReLU,為什么?

因?yàn)閟igmoid幾乎就是梯度消失的代名詞,我們先對它求導(dǎo):

這看起來就是個很普通的 s(1-s) 算式,好像沒什么問題。讓我們繪制它的圖像:

仔細(xì)看一看,還是沒問題嗎?可以發(fā)現(xiàn),上圖中最大值只有1/4,最小值無限接近0,換言之,這個導(dǎo)數(shù)的閾值是(0, 1/4]。記住這個值,待會兒我們會用到。

現(xiàn)在我們先回頭繼續(xù)討論神經(jīng)網(wǎng)絡(luò)的反向傳播算法,看看梯度對它們會產(chǎn)生什么影響。

這是一個最簡單的神經(jīng)網(wǎng)絡(luò),除了輸入神經(jīng)元,其他神經(jīng)元的act()都來自前一層的神經(jīng)元:先用act()乘上一個權(quán)重,再經(jīng)激活函數(shù)饋送進(jìn)下一層,來自上層的信息就成了一個全新的act()。最后的J歸納了前饋過程中的所有誤差項(xiàng)(error),輸出網(wǎng)絡(luò)整體誤差。這之后,我們再執(zhí)行反向傳播,通過梯度下降修改參數(shù),使J的輸出最小化。

下面是第一項(xiàng)權(quán)重w1的導(dǎo)數(shù):

我們可以利用權(quán)重的導(dǎo)數(shù)來進(jìn)行梯度下降,繼而迭代出全局最優(yōu)點(diǎn),但在那之前,這個派生的乘法運(yùn)算值得關(guān)注:

由于上一層的輸出乘上激活函數(shù)就是下一層的輸入,所以上式其實(shí)還包含sigmoid的導(dǎo)數(shù),如果把信息全部表示完整,從輸出返回到第二層隱藏層的表達(dá)式應(yīng)該是:

同理,從第二層隱藏層到第一層隱藏層則是:

它們都包含sigmoid函數(shù),合起來就是:

之前我們已經(jīng)對sigmoid求過導(dǎo)了,計(jì)算出它的閾值是(0, 1/4]。結(jié)合上式,兩個0到1之間的小數(shù)相乘,積小于任一乘數(shù)。而在典型的神經(jīng)網(wǎng)絡(luò)中,權(quán)重初始化的一般方法是權(quán)重的選擇要服從均值=0,方差=1的正態(tài)分布,因此這些初始權(quán)重的閾值是[-1, 1]。

接下來的事情就很清楚了:

即便不用常規(guī)權(quán)重初始化方法,w2和w3大于1,但它們對兩個sigmoid導(dǎo)數(shù)相乘來說還是杯水車薪,梯度變得太小了。而在實(shí)際操作中,隨機(jī)權(quán)重是很可能小于1的,所以那時它反而是在助紂為虐。

這還只有2個隱藏層,試想一下,如果這是一個工業(yè)級的深層神經(jīng)網(wǎng)絡(luò),那么當(dāng)它在執(zhí)行反向傳播時,這個梯度會變得有多小,小到突然消失也在情理之中。另一方面,如果我們把然激活函數(shù)導(dǎo)數(shù)的絕對值控制在大于1,那這個連乘操作也很嚇人,結(jié)果會無限大,也就是我們常說的“梯度爆炸”。

現(xiàn)在,我們來看一個典型的ANN:

第一項(xiàng)權(quán)重距離誤差項(xiàng)J最遠(yuǎn),因此求導(dǎo)后它的表達(dá)式最長,也包含更多sigmoid函數(shù),計(jì)算結(jié)果更小。所以神經(jīng)網(wǎng)絡(luò)的第一層往往是訓(xùn)練時間最長的一層。它同時也是后面所有層的基礎(chǔ),如果這一層不夠準(zhǔn)確,那就會產(chǎn)生連鎖反應(yīng),直接拉低整個網(wǎng)絡(luò)的性能。

這就也是神經(jīng)網(wǎng)絡(luò),尤其是深層神經(jīng)網(wǎng)絡(luò)一開始并不為行業(yè)所接受的原因。正確訓(xùn)練前幾層是整個網(wǎng)絡(luò)的基礎(chǔ),但激活函數(shù)的缺陷和硬件設(shè)備的算力不足,使當(dāng)時的研究人員連打好基礎(chǔ)都做不到。

看到這里,我們應(yīng)該都已經(jīng)理解sigmoid函數(shù)的缺點(diǎn)了,它的替代方案tanh函數(shù)雖然也曾聲名大噪,但考慮到tanh(x)=2sigmoid(2x)-1,它肯定也存在同樣的問題。那么,現(xiàn)在大家都在用的ReLU好在哪兒?

首先,ReLU是一個分段函數(shù):

它還有另一種寫法:

當(dāng)輸入小于0時,函數(shù)輸出0;當(dāng)輸入大于零時,函數(shù)輸出x。

我們計(jì)算它的導(dǎo)數(shù)來對比sigmoid:

然后是它的圖像,注意一點(diǎn),它在0點(diǎn)不可微,所以當(dāng)x=0時,圖中y軸上應(yīng)該是兩個空心圓。

可以發(fā)現(xiàn),導(dǎo)數(shù)的閾值終于不再是(0, 1)了,它好像可以避免梯度消失,但似乎又有點(diǎn)不對勁?當(dāng)我們把一個負(fù)值輸入到ReLU函數(shù)后,梯度為0,這時這個神經(jīng)元就“壞死”了。換句話說,如果存在負(fù)數(shù)權(quán)重,那某些神經(jīng)元可能永遠(yuǎn)不會被激活,導(dǎo)致相應(yīng)參數(shù)永遠(yuǎn)不會被更新。從某種意義上來說,ReLU還是存在部分梯度消失問題。

那么,我們該怎么選擇呢?不急,這里還有一種激活函數(shù)——Leakly ReLU。

既然ReLU的“梯度消失”源于它的閾值0,那么我們可以把它重設(shè)成一個0到1之間的具體小數(shù)。這之后,當(dāng)輸入為負(fù)時,它還是具有非常小的梯度,這就為網(wǎng)絡(luò)繼續(xù)學(xué)習(xí)提供了機(jī)會。

上式中的ε=0.01,但它最常見的范圍是0.2-0.3。因?yàn)樾甭市。斎胴?fù)值權(quán)重后,它在圖像上是一條非常緩的線:

這里我們要聲明一點(diǎn):雖然Leakly ReLU可以解決ReLU的神經(jīng)元壞死問題,但它的表現(xiàn)并不一定比ReLU更好。比如常數(shù)ε萬一過小,它就很可能會導(dǎo)致新的梯度消失。另一方面,這兩個激活函數(shù)有個共同的缺點(diǎn),即不像tanh和sigmoid一樣輸出有界,如果是在RNN這樣很深的神經(jīng)網(wǎng)絡(luò)里,即便ReLU的導(dǎo)數(shù)是0或1,很小,但除了它我們還有那么多權(quán)重,多項(xiàng)連乘會導(dǎo)致非常大的輸出值,然后梯度就爆炸了。

所以總的來說,ReLU并沒有根治梯度消失這個問題,它只是在一定程度上緩解了矛盾,并產(chǎn)生了另一個新問題。這也是這些激活函數(shù)至今還能共存的原因——CNN用ReLU更常見,而RNN大多用tanh。在“玄學(xué)”的大背景下,這大概是新手入門機(jī)器學(xué)習(xí)后,接觸到的第一起trade off吧。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103669
  • 梯度
    +關(guān)注

    關(guān)注

    0

    文章

    30

    瀏覽量

    10495
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122805

原文標(biāo)題:深度學(xué)習(xí)解密:我的梯度怎么消失了?

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    詳解深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

    在如今的網(wǎng)絡(luò)時代,錯綜復(fù)雜的大數(shù)據(jù)和網(wǎng)絡(luò)環(huán)境,讓傳統(tǒng)信息處理理論、人工智能與人工神經(jīng)網(wǎng)絡(luò)都面臨巨大的挑戰(zhàn)。近些年,深度學(xué)習(xí)逐漸走進(jìn)人們的視線,通過深度學(xué)習(xí)解決若干問題的案例越來越多。一些
    的頭像 發(fā)表于 01-11 10:51 ?2823次閱讀
    詳解深度學(xué)習(xí)、<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>與卷積<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的應(yīng)用

    人工神經(jīng)網(wǎng)絡(luò)原理及下載

    人工神經(jīng)網(wǎng)絡(luò)是根據(jù)的認(rèn)識過程而開發(fā)出的種算法。假如我們現(xiàn)在只有一些輸入和相應(yīng)的輸出,而對如何由輸入得到輸出的機(jī)理并不清楚,那么我們可以把輸入與輸出之間的未知過程看成是
    發(fā)表于 06-19 14:40

    AI知識科普 | 從無人相信到萬追捧的神經(jīng)網(wǎng)絡(luò)

    工智能。幾乎是夜間,神經(jīng)網(wǎng)絡(luò)技術(shù)從無人相信變成了萬追捧。神經(jīng)網(wǎng)絡(luò)之父Hiton1、人工神經(jīng)網(wǎng)絡(luò)是什么?人工
    發(fā)表于 06-05 10:11

    【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

    今天學(xué)習(xí)了兩個神經(jīng)網(wǎng)絡(luò),分別是自適應(yīng)諧振(ART)神經(jīng)網(wǎng)絡(luò)與自組織映射(SOM)神經(jīng)網(wǎng)絡(luò)。整體感覺不是很難,只不過一些最基礎(chǔ)的概念容易理解不
    發(fā)表于 07-21 04:30

    人工神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)方法有哪些?

    人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是種類似生物神經(jīng)網(wǎng)絡(luò)的信息處理結(jié)構(gòu),它的提出是為了解決一些非線性,非平穩(wěn),復(fù)雜的實(shí)際問題。那有哪些辦法能實(shí)現(xiàn)
    發(fā)表于 08-01 08:06

    如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?

    原文鏈接:http://tecdat.cn/?p=5725 神經(jīng)網(wǎng)絡(luò)種基于現(xiàn)有數(shù)據(jù)創(chuàng)建預(yù)測的計(jì)算系統(tǒng)。如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?神經(jīng)網(wǎng)絡(luò)包括:輸入層:根據(jù)現(xiàn)有數(shù)據(jù)獲取輸入的層隱藏層:使用反
    發(fā)表于 07-12 08:02

    神經(jīng)網(wǎng)絡(luò)移植到STM32的方法

    神經(jīng)網(wǎng)絡(luò)移植到STM32最近在做的個項(xiàng)目需要用到網(wǎng)絡(luò)進(jìn)行擬合,并且將擬合得到的結(jié)果用作控制,就在想能不能直接在單片機(jī)上做神經(jīng)網(wǎng)絡(luò)計(jì)算,這樣就可以實(shí)時計(jì)算,不依賴于上位機(jī)。所以要解決
    發(fā)表于 01-11 06:20

    神經(jīng)網(wǎng)絡(luò)到深度學(xué)習(xí)

    微軟研究人員在深度神經(jīng)網(wǎng)絡(luò)(deep neural network)上取得突破, 使其在性能上能趕上目前最先進(jìn)的語音識別技術(shù)。
    發(fā)表于 08-17 11:54 ?47次下載

    【人工神經(jīng)網(wǎng)絡(luò)基礎(chǔ)】為什么神經(jīng)網(wǎng)絡(luò)選擇了“深度”?

    由 Demi 于 星期四, 2018-09-06 09:33 發(fā)表 現(xiàn)在提到“神經(jīng)網(wǎng)絡(luò)”和“深度神經(jīng)網(wǎng)絡(luò)”,覺得兩者沒有什么區(qū)別,神經(jīng)網(wǎng)絡(luò)還能不是
    發(fā)表于 09-06 20:48 ?842次閱讀

    深度神經(jīng)網(wǎng)絡(luò)在識別物體上的能力怎樣

    深度神經(jīng)網(wǎng)絡(luò)非常善于識別物體,但是當(dāng)涉及到他們的相互作用的推理時,即使是最先進(jìn)神經(jīng)網(wǎng)絡(luò)也在努力。
    發(fā)表于 04-14 15:24 ?1019次閱讀

    神經(jīng)網(wǎng)絡(luò)一些人類根本不會犯的錯誤

    的方式也與人類更相近。但是,神經(jīng)網(wǎng)絡(luò)還是一些人類根本不會犯的錯誤,改進(jìn)空間仍很大。 對抗樣本:如果在這張熊貓圖片上添加個不可察覺的噪聲層,
    的頭像 發(fā)表于 01-05 14:10 ?2453次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b><b class='flag-5'>會</b>犯<b class='flag-5'>一些人</b>類根本不會犯的錯誤

    用Python從頭實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)來理解神經(jīng)網(wǎng)絡(luò)的原理3

    有個事情可能讓初學(xué)者驚訝:神經(jīng)網(wǎng)絡(luò)模型并不復(fù)雜!『神經(jīng)網(wǎng)絡(luò)』這個詞讓覺得很高大上,但實(shí)際上神經(jīng)網(wǎng)絡(luò)算法要比人們想象的簡單。 這篇文
    的頭像 發(fā)表于 02-27 15:06 ?1019次閱讀
    用Python從頭實(shí)現(xiàn)<b class='flag-5'>一</b>個<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>來理解<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的原理3

    反向傳播神經(jīng)網(wǎng)絡(luò)和bp神經(jīng)網(wǎng)絡(luò)的區(qū)別

    神經(jīng)網(wǎng)絡(luò)在許多領(lǐng)域都有廣泛的應(yīng)用,如語音識別、圖像識別、自然語言處理等。然而,BP神經(jīng)網(wǎng)絡(luò)也存在一些問題,如容易陷入局部最優(yōu)解、訓(xùn)練時間長、對初始權(quán)重敏感等。為了解決這些問題,研究者們提出了
    的頭像 發(fā)表于 07-03 11:00 ?1313次閱讀

    bp神經(jīng)網(wǎng)絡(luò)和反向傳播神經(jīng)網(wǎng)絡(luò)區(qū)別在哪

    神經(jīng)網(wǎng)絡(luò)在許多領(lǐng)域都有廣泛的應(yīng)用,如語音識別、圖像識別、自然語言處理等。然而,BP神經(jīng)網(wǎng)絡(luò)也存在一些問題,如容易陷入局部最優(yōu)解、訓(xùn)練時間長、對初始權(quán)重敏感等。為了解決這些問題,研究者們提出了
    的頭像 發(fā)表于 07-04 09:51 ?1030次閱讀

    人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法

    在上篇文章中,我們介紹了傳統(tǒng)機(jī)器學(xué)習(xí)的基礎(chǔ)知識和多種算法。在本文中,我們介紹人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法,供各位老師選擇。 01 人工
    的頭像 發(fā)表于 01-09 10:24 ?1212次閱讀
    人工<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的原理和多種<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>架構(gòu)方法