最近,有一篇入門文章引發(fā)了不少關(guān)注。文章中詳細(xì)介紹了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),及其變體長(zhǎng)短期記憶(LSTM)背后的原理。
具體內(nèi)容,從前饋網(wǎng)絡(luò)(Feedforward Networks)開(kāi)始講起,先后講述了循環(huán)神經(jīng)網(wǎng)絡(luò)、時(shí)序反向傳播算法(BPTT)、LSTM等模型的原理與運(yùn)作方式。
這篇文章來(lái)自Skymind,一家推動(dòng)數(shù)據(jù)項(xiàng)目從原型到落地的公司。獲得了YCombinator、騰訊等的投資。
對(duì)于人工智能初學(xué)者來(lái)說(shuō),是一份非常不錯(cuò)的入門資料。
循環(huán)網(wǎng)絡(luò),是一種人工神經(jīng)網(wǎng)絡(luò)(ANN),用來(lái)識(shí)別數(shù)據(jù)序列中的模式。
比如文本、基因組、筆記、口語(yǔ)或來(lái)自傳感器、股票市場(chǎng)和政府機(jī)構(gòu)的時(shí)間序列數(shù)據(jù)。
它的算法考慮了時(shí)間和順序,具有時(shí)間維度。
研究表明,RNN是最強(qiáng)大和最有用的神經(jīng)網(wǎng)絡(luò)之一,它甚至能夠適用于圖像處理。
把圖像分割成一系列的補(bǔ)丁,可以視為一個(gè)序列。
但是,想要理解循環(huán)網(wǎng)絡(luò),首先要必須了解前饋網(wǎng)絡(luò)的基本知識(shí)。
前饋網(wǎng)絡(luò)回顧
前饋網(wǎng)絡(luò)和循環(huán)網(wǎng)絡(luò)的命名,來(lái)自于它們?cè)趥鬟f信息時(shí),在網(wǎng)絡(luò)節(jié)點(diǎn)上執(zhí)行的一系列數(shù)學(xué)運(yùn)算的方式。
前饋網(wǎng)絡(luò)直接向前遞送信息(不會(huì)再次接觸已經(jīng)經(jīng)過(guò)的節(jié)點(diǎn)),而循環(huán)網(wǎng)絡(luò)則是通過(guò)循環(huán)傳遞信息。
前饋網(wǎng)絡(luò)中的樣例,輸入網(wǎng)絡(luò)后被轉(zhuǎn)換成輸出;在監(jiān)督學(xué)習(xí)中,輸出將是一個(gè)標(biāo)簽,一個(gè)應(yīng)用于輸入的名稱。
也就是說(shuō),前饋網(wǎng)絡(luò)將原始數(shù)據(jù)映射到類別,識(shí)別出信號(hào)的模式。例如,輸入圖像應(yīng)該被標(biāo)記為“貓”還是“大象”。
前饋網(wǎng)絡(luò)根據(jù)標(biāo)記的圖像進(jìn)行訓(xùn)練,直到猜測(cè)圖像類別時(shí)產(chǎn)生的錯(cuò)誤最小化。 通過(guò)一組經(jīng)過(guò)訓(xùn)練的參數(shù)(或者稱為權(quán)重,統(tǒng)稱為模型) ,網(wǎng)絡(luò)就可以對(duì)它從未見(jiàn)過(guò)的數(shù)據(jù)進(jìn)行分類了。
一個(gè)訓(xùn)練好的前饋網(wǎng)絡(luò)可以應(yīng)用在任何隨機(jī)的照片數(shù)據(jù)集中,它識(shí)別的第一張照片,并不會(huì)影響它對(duì)第二張照片的預(yù)測(cè)。
看到一只貓的照片之后,不會(huì)導(dǎo)致網(wǎng)絡(luò)預(yù)下一張圖是大象。
也就是說(shuō),前饋網(wǎng)絡(luò)沒(méi)有時(shí)間順序的概念,它考慮的唯一輸入就是它所接觸到的當(dāng)前的輸入樣例。
循環(huán)網(wǎng)絡(luò)
與前饋網(wǎng)絡(luò)相比,循環(huán)網(wǎng)絡(luò)的輸入不僅包括當(dāng)前的輸入樣例,還包括之前的輸入信息。
下面是美國(guó)加州大學(xué)圣地亞哥分校教授Jeffrey Elman提出的一個(gè)早期的簡(jiǎn)單循環(huán)網(wǎng)絡(luò)的示意圖。
圖底部的BTSXPE代表當(dāng)前時(shí)刻的輸入樣例,而CONTEXT UNIT代表前一時(shí)刻的輸出。
循環(huán)網(wǎng)絡(luò)在t-1個(gè)時(shí)間步的判定,會(huì)影響隨后在t時(shí)間步的判定。所以,循環(huán)網(wǎng)絡(luò)有兩個(gè)輸入源,現(xiàn)在和最近的過(guò)去,它們結(jié)合起來(lái)決定對(duì)新數(shù)據(jù)的反應(yīng),就像我們?cè)谏钪幸粯印?/p>
循環(huán)網(wǎng)絡(luò)與前饋網(wǎng)絡(luò)的區(qū)別在于,循環(huán)網(wǎng)絡(luò)的反饋循環(huán)會(huì)連接到它們過(guò)去的判定,將自己的輸出作為輸入。
循環(huán)網(wǎng)絡(luò)是有記憶的。給神經(jīng)網(wǎng)絡(luò)增加記憶的目的在于:序列本身帶有信息,循環(huán)網(wǎng)絡(luò)用它來(lái)執(zhí)行前饋網(wǎng)絡(luò)不能執(zhí)行的任務(wù)。
這些連續(xù)的信息被保存在循環(huán)網(wǎng)絡(luò)的隱藏狀態(tài)中,這種隱藏狀態(tài)管理跨越多個(gè)時(shí)間步,并一層一層地向前傳遞,影響網(wǎng)絡(luò)對(duì)每一個(gè)新樣例的處理。
循環(huán)網(wǎng)絡(luò),需要尋找被許多時(shí)刻分開(kāi)的各種事件之間的相關(guān)性,這些相關(guān)性被稱為“長(zhǎng)距離依賴”,因?yàn)闀r(shí)間下游的事件依賴于之前的一個(gè)或多個(gè)事件,并且是這些事件的函數(shù)。
因此,你可以將RNN理解為是一種跨時(shí)間分享權(quán)重的方式。
正如人類的記憶在身體內(nèi)無(wú)形地循環(huán),影響我們的行為但不暴露全貌一樣,信息也在循環(huán)網(wǎng)絡(luò)的隱藏狀態(tài)中循環(huán)。
用數(shù)學(xué)的方式來(lái)描述記憶傳遞的過(guò)程是這樣的:
t代表時(shí)間步,ht代表第t個(gè)時(shí)間步的隱藏狀態(tài),是同一個(gè)時(shí)間步xt的輸入函數(shù)。W是權(quán)重函數(shù),用于修正xt。
U是隱藏狀態(tài)矩陣,也被稱為轉(zhuǎn)移矩陣,類似于馬爾可夫鏈。ht-1代表t的上一個(gè)時(shí)間步t-1的隱藏狀態(tài)。
權(quán)重矩陣,是決定當(dāng)前輸入和過(guò)去隱藏狀態(tài)的重要程度的過(guò)濾器。 它們產(chǎn)生的誤差會(huì)通過(guò)反向傳播返回,并用于調(diào)整相應(yīng)的權(quán)重,直到誤差不再降低。
權(quán)重輸入(Wxt)和隱藏狀態(tài)(Uht-1)的總和被函數(shù)φ壓縮,可能是邏輯S形函數(shù)或者是雙曲正切(tanh)函數(shù),視情況而定。
這是一個(gè)標(biāo)準(zhǔn)工具,用于將非常大或非常小的值壓縮到邏輯空間中,并使梯度可用于反向傳播。
因?yàn)檫@個(gè)反饋循環(huán)發(fā)生在序列中的每個(gè)時(shí)間步中,每個(gè)隱藏狀態(tài)不僅跟蹤前一個(gè)隱藏狀態(tài),只要記憶能夠持續(xù)存在,它會(huì)還包含h_t-1之前的所有的隱藏狀態(tài)。
給定一系列字母,循環(huán)網(wǎng)絡(luò)將使用第一個(gè)字符來(lái)幫助確定它對(duì)第二個(gè)字符的感知,比如,首字母是q,可能會(huì)導(dǎo)致它推斷下一個(gè)字母是u,而首字母是t,可能會(huì)導(dǎo)致它推斷下一個(gè)字母是h。
由于循環(huán)網(wǎng)絡(luò)跨越時(shí)間,用動(dòng)畫(huà)來(lái)說(shuō)明可能會(huì)更好。(可以將第一個(gè)垂直節(jié)點(diǎn)看作是一個(gè)前饋網(wǎng)絡(luò),隨著時(shí)間的推移,它會(huì)變成循環(huán)網(wǎng)絡(luò))。
在上圖中,每個(gè)x是一個(gè)輸入樣例,w是過(guò)濾輸入的權(quán)重,a是隱藏層的激活(加權(quán)輸入和先前隱藏狀態(tài)的和),b是隱藏層使用修正線性或sigmoid單元轉(zhuǎn)換或壓縮后的輸出。
時(shí)序反向傳播算法(BPTT)
循環(huán)網(wǎng)絡(luò)的目的是準(zhǔn)確地對(duì)序列輸入進(jìn)行分類。主要依靠誤差的反向傳播和梯度下降法來(lái)做到這一點(diǎn)。
前饋網(wǎng)絡(luò)中的反向傳播從最后的誤差開(kāi)始,經(jīng)過(guò)每個(gè)隱藏層的輸出、權(quán)重和輸入反向移動(dòng),將一定比例的誤差分配給每個(gè)權(quán)重,方法是計(jì)算它們的偏導(dǎo)數(shù)?e/?w,或它們之間的變化率之間的關(guān)系。
隨后,這些偏導(dǎo)數(shù)會(huì)被用到梯度下降算法中,來(lái)調(diào)整權(quán)重減少誤差。
而循環(huán)網(wǎng)絡(luò)依賴于反向傳播的一種擴(kuò)展,稱為時(shí)序反向傳播算法,即BPTT。
在這種情況下,時(shí)間通過(guò)一系列定義明確、有序的計(jì)算來(lái)表達(dá),這些計(jì)算將一個(gè)時(shí)間步與下一個(gè)時(shí)間步聯(lián)系起來(lái)。
神經(jīng)網(wǎng)絡(luò),無(wú)論是循環(huán)的還是非循環(huán)的,都是簡(jiǎn)單的嵌套復(fù)合函數(shù),比如f(g(h(x))。添加時(shí)間元素,只是擴(kuò)展了我們用鏈?zhǔn)椒▌t計(jì)算導(dǎo)數(shù)的函數(shù)序列。
截?cái)嗍紹PTT
截?cái)嗍紹PTT(Truncated BPTT)是完整BPTT的近似方法,是處理是長(zhǎng)序列的首選。
在時(shí)間步較多的序列中,完整BPTT的每個(gè)參數(shù)更新的正向/反向運(yùn)算成本變得非常高。
截?cái)嗍紹PTT的缺點(diǎn)是,由于截?cái)?,梯度反向移?dòng)的距離有限,因此網(wǎng)絡(luò)無(wú)法學(xué)習(xí)與完整BPTT一樣長(zhǎng)的依賴。
梯度消失和梯度爆炸
和大多數(shù)神經(jīng)網(wǎng)絡(luò)一樣,循環(huán)網(wǎng)絡(luò)也有了一定的歷史。 到1990年代初,梯度消失問(wèn)題成為影響網(wǎng)絡(luò)性能的主要障礙。
就像直線表示x的變化和y的變化一樣,梯度表示所有權(quán)重隨誤差變化的變化。如果我們不知道梯度,我們就不能在減少誤差的方向上調(diào)整權(quán)重,網(wǎng)絡(luò)也就會(huì)停止學(xué)習(xí)。
循環(huán)網(wǎng)絡(luò),在最終的輸入和之前許多時(shí)間步之間建立聯(lián)系時(shí),也遇到了問(wèn)題。因?yàn)楹茈y知道一個(gè)遠(yuǎn)距離的輸入有多么重要。
就像向前追溯曾曾曾曾曾……祖父母兄弟的數(shù)量一樣,會(huì)越來(lái)越多,越來(lái)越多。
這在一定程度上是因?yàn)椋ㄟ^(guò)神經(jīng)網(wǎng)絡(luò)傳遞的信息要經(jīng)過(guò)多個(gè)乘法階段。
每個(gè)研究過(guò)復(fù)利的人都知道,任何數(shù)量循環(huán)乘以略大于一的量,都會(huì)變得不可估量的大(實(shí)際上,簡(jiǎn)單的數(shù)學(xué)真理支撐著網(wǎng)絡(luò)效應(yīng)和社會(huì)不平等)。
反過(guò)來(lái),乘以小于1的量,也會(huì)變得非常非常小。如果賭徒們每投入一美元,只能贏得97美分,那么他們很快就會(huì)破產(chǎn)。
由于深度神經(jīng)網(wǎng)絡(luò)的層和時(shí)間步通過(guò)乘法相互關(guān)聯(lián),導(dǎo)數(shù)很容易消失或爆炸。
梯度爆炸時(shí),每一個(gè)權(quán)重就像諺語(yǔ)中的蝴蝶一樣,它拍打的翅膀會(huì)引起遠(yuǎn)處的颶風(fēng)。
但是梯度爆炸解決起來(lái)相對(duì)容易,因?yàn)樗鼈兛梢员唤財(cái)嗷驂嚎s。
梯度消失正好相反,是導(dǎo)數(shù)變得非常小,使計(jì)算機(jī)無(wú)法工作,網(wǎng)絡(luò)也無(wú)法學(xué)習(xí)。這是一個(gè)更難解決的問(wèn)題。
下面你可以看到一遍又一遍應(yīng)用S形函數(shù)的效果。 數(shù)據(jù)曲線越來(lái)越平緩,直至在較長(zhǎng)的距離上無(wú)法檢測(cè)到斜率。 這類似于通過(guò)許多層的梯度消失。
長(zhǎng)短期記憶(LSTM)
在90年代中期,德國(guó)研究人員Sepp Hochreiter和Juergen Schmidhuber提出了一種具有長(zhǎng)短期記憶單元( LSTM )的循環(huán)網(wǎng)絡(luò)變體,作為梯度消失問(wèn)題的解決方案。
LSTM有助于保留可以通過(guò)時(shí)間和層進(jìn)行反向傳播的誤差。
通過(guò)保留一個(gè)更為恒定的誤差,它們使循環(huán)網(wǎng)絡(luò)能夠在有許多時(shí)間步(超過(guò)1000步)的情況下繼續(xù)學(xué)習(xí),從而打開(kāi)一個(gè)遠(yuǎn)程鏈接因果關(guān)系的通道。
這是機(jī)器學(xué)習(xí)和人工智能面臨的主要挑戰(zhàn)之一,因?yàn)樗惴ń?jīng)常遇到獎(jiǎng)勵(lì)信號(hào)稀疏和延遲的環(huán)境。
LSTM將信息存放在循環(huán)網(wǎng)絡(luò)正常信息流之外的門控單元中。信息可以像計(jì)算機(jī)內(nèi)存中的數(shù)據(jù)一樣存儲(chǔ)、寫(xiě)入單元,或者從單元中讀取。
單元通過(guò)打開(kāi)和關(guān)閉的門來(lái)決定存儲(chǔ)什么,以及何時(shí)允許讀取、寫(xiě)入和忘記。
但與計(jì)算機(jī)上的數(shù)字存儲(chǔ)器不同,這些門是模擬的,通過(guò)范圍在0~1之間的sigmoid函數(shù)的逐元素相乘來(lái)實(shí)現(xiàn)。
與數(shù)字信號(hào)相比,模擬信號(hào)的優(yōu)勢(shì)是可微分,因此適用于反向傳播。
這些門類似于神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn),會(huì)根據(jù)它們接收到的信號(hào)決定開(kāi)關(guān),它們根據(jù)信息的強(qiáng)度和重要性來(lái)阻止或傳遞信息,然后用它們自己的權(quán)重過(guò)濾這些信息。
這些權(quán)重,就像調(diào)整輸入和隱藏狀態(tài)的權(quán)重一樣,可以在循環(huán)網(wǎng)絡(luò)學(xué)習(xí)過(guò)程中進(jìn)行調(diào)整。
也就是說(shuō),記憶單元學(xué)習(xí)會(huì)通過(guò)猜測(cè)、反向傳播誤差和梯度下降法調(diào)整權(quán)重的迭代過(guò)程,來(lái)決定何時(shí)允許數(shù)據(jù)進(jìn)入、離開(kāi)或刪除。
下圖說(shuō)明了數(shù)據(jù)如何通過(guò)記憶單元,以及門如何控制數(shù)據(jù)流動(dòng)。
如果你剛剛接觸LSTM,不要著急,仔細(xì)研究一下。只需要幾分鐘,就能揭開(kāi)其中的秘密。
從底部開(kāi)始,三個(gè)箭頭顯示,信息由多個(gè)點(diǎn)流入記憶單元。 當(dāng)前輸入和過(guò)去單元狀態(tài)的組合不僅反饋到單元本身,而且反饋到它的三個(gè)門中的每一個(gè),這將決定它們?nèi)绾翁幚磔斎搿?/p>
黑點(diǎn)是門本身,決定是否讓新的輸入進(jìn)入、遺忘當(dāng)前的狀態(tài),還是讓這一狀態(tài)在當(dāng)前時(shí)間步影響網(wǎng)絡(luò)的輸出。
Sc是記憶單元的當(dāng)前狀態(tài),g_y_in是記憶單元的當(dāng)前輸入。
請(qǐng)記住,每個(gè)門都可以打開(kāi)或關(guān)閉,它們會(huì)在每一步重新組合它們的打開(kāi)和關(guān)閉狀態(tài)。記憶單元,在每個(gè)時(shí)間步都可以決定,是否遺忘、寫(xiě)入、讀取它的狀態(tài),這些流都表示出來(lái)了。
大的、加粗的字母,給出了每個(gè)操作的結(jié)果。
下面是另一個(gè)示意圖,對(duì)比了簡(jiǎn)單的循環(huán)網(wǎng)絡(luò)(左)和 LSTM 單元(右)。
值得注意的是,LSTM的記憶單元在輸入轉(zhuǎn)換中賦予加法和乘法不同的角色。
兩個(gè)圖中的中心加號(hào),本質(zhì)上就是 LSTM 的秘密。
雖然這看起來(lái)非常非常簡(jiǎn)單,但當(dāng)必須在深度上反向傳播時(shí),這種變化有助于保持恒定的誤差。
LSTM不是將當(dāng)前狀態(tài)乘以新的輸入來(lái)確定后續(xù)的單元狀態(tài),而是將兩者相加,這就產(chǎn)生了差異。 (用于遺忘的門仍然依賴于乘法。)
不同的權(quán)重集對(duì)輸入信息進(jìn)行篩選,決定是否輸入、輸出或遺忘。
不同的權(quán)重集對(duì)輸入信息進(jìn)行過(guò)濾,決定是否輸出或遺忘。遺忘門被表示為一個(gè)線性恒等式函數(shù),因?yàn)槿绻T是打開(kāi)的,那么記憶單元的當(dāng)前狀態(tài)就會(huì)被簡(jiǎn)單地乘以1,從而向前傳播一個(gè)時(shí)間步。
此外,有一個(gè)簡(jiǎn)單的竅門。將每個(gè)LSTM記憶單元遺忘門的偏差設(shè)定為1,可以提升網(wǎng)絡(luò)性能。(但另一方面,Sutskever建議將偏差設(shè)定為5。)
你可能會(huì)問(wèn),LSTM的目的是將遠(yuǎn)距離事件與最終的輸出聯(lián)系起來(lái),為什么它們會(huì)有一個(gè)遺忘門?
好吧,有時(shí)候遺忘是件好事。
如果分析一個(gè)文本語(yǔ)料庫(kù),在到達(dá)一個(gè)文檔的末尾時(shí),下一個(gè)文檔基本上跟它沒(méi)有關(guān)系,因此,在網(wǎng)絡(luò)攝取下一個(gè)文檔的第一個(gè)元素之前,應(yīng)該將記憶單元設(shè)置為零。
以分析一個(gè)文本語(yǔ)料庫(kù)為例,在到達(dá)文檔的末尾時(shí),你可能會(huì)認(rèn)為下一個(gè)文檔與這個(gè)文檔肯定沒(méi)有任何聯(lián)系,所以記憶單元在開(kāi)始吸收下一個(gè)文檔的第一項(xiàng)元素前應(yīng)當(dāng)先歸零。
在下圖中,你可以看到在工作的門,直線表示關(guān)閉的門,空白圓圈代表打開(kāi)的門。沿著隱藏層水平延伸的線條和圓圈是表示遺忘門。
需要注意的是,前饋網(wǎng)絡(luò)只是一對(duì)一,即將一個(gè)輸入映射到一個(gè)輸出。但循環(huán)網(wǎng)絡(luò)可以一對(duì)多,多對(duì)多,多對(duì)一。
涵蓋不同時(shí)間尺度和遠(yuǎn)距離依賴
你可能還想知道,保護(hù)記憶單元不受新數(shù)據(jù)進(jìn)入的輸入門和防止它影響 RNN 的某些輸出的輸出門的精確值是多少。你可以把 LSTM 看作是,允許一個(gè)神經(jīng)網(wǎng)絡(luò)同時(shí)在不同的時(shí)間尺度上運(yùn)行。
讓我們以一個(gè)人的生命為例,想象一下我們?cè)谝粋€(gè)時(shí)間序列中收到了關(guān)于那個(gè)生命的各種數(shù)據(jù)流。
每個(gè)時(shí)間步的地理位置,對(duì)于下一個(gè)時(shí)間步來(lái)說(shuō)都非常重要,因此時(shí)間尺度總是對(duì)最新信息開(kāi)放的。
也許這個(gè)人是一個(gè)勤奮的公民,每?jī)赡晖镀币淮?。在民主時(shí)代,我們會(huì)特別關(guān)注他們?cè)谶x舉前后的所作所為。我們不想讓地理位置持續(xù)產(chǎn)生噪音影響我們的政治分析。
如果這個(gè)人也是一個(gè)勤奮的女兒,那么也許我們可以構(gòu)建一個(gè)家庭時(shí)間,學(xué)習(xí)每周日定期打電話的模式,每年假期前后,打電話的數(shù)量都會(huì)激增。這與政治周期或地理位置無(wú)關(guān)。
其他的數(shù)據(jù)也是這樣。音樂(lè)是多節(jié)奏的。文本中包含不同時(shí)間間隔的重復(fù)主題。股票市場(chǎng)和經(jīng)濟(jì)會(huì)有更長(zhǎng)的波動(dòng)周期。它們?cè)诓煌臅r(shí)間尺度上同時(shí)運(yùn)行,LSTM可以捕捉到這些時(shí)間尺度。
門控循環(huán)單元(GRU)
門控循環(huán)單元( GRU )基本上是沒(méi)有輸出門的LSTM,因此在每個(gè)時(shí)間步,它都將內(nèi)容從其記憶單元完全寫(xiě)入到較大的網(wǎng)絡(luò)中。
代碼示例
這里示例,是一個(gè)LSTM如何學(xué)習(xí)復(fù)制莎士比亞戲劇的評(píng)論,使用Deeplearning4j實(shí)現(xiàn)。在難以理解的地方,都有相應(yīng)的注釋。
傳送門:
https://github.com/deeplearning4j/dl4j-examples/blob/master/dl4j-examples/src/main/java/org/deeplearning4j/examples/recurrent/character/LSTMCharModellingExample.java
LSTM超參數(shù)調(diào)整
以下是手動(dòng)優(yōu)化RNN超參數(shù)時(shí)需要注意的一些情況:
小心過(guò)擬合,神經(jīng)網(wǎng)絡(luò)基本在“記憶”訓(xùn)練數(shù)據(jù)時(shí),就會(huì)發(fā)生過(guò)擬合。過(guò)擬合意味著你在訓(xùn)練數(shù)據(jù)上有很好的表現(xiàn),在其他數(shù)據(jù)集上基本無(wú)用。
正則化有好處:方法包括 l1、 l2和dropout等。
要有一個(gè)單獨(dú)的測(cè)試集,不要在這個(gè)測(cè)試集上訓(xùn)練網(wǎng)絡(luò)。
網(wǎng)絡(luò)越大,功能就越強(qiáng),但也更容易過(guò)擬合。 不要試圖從10000個(gè)示例中學(xué)習(xí)一百萬(wàn)個(gè)參數(shù),參數(shù)》樣例=麻煩。
數(shù)據(jù)越多越好,因?yàn)樗兄诜乐惯^(guò)度擬合。
訓(xùn)練要經(jīng)過(guò)多個(gè)epoch(算法遍歷訓(xùn)練數(shù)據(jù)集)。
每個(gè)epoch之后,評(píng)估測(cè)試集表現(xiàn),以了解何時(shí)停止(要提前停止)。
學(xué)習(xí)速率是最重要的超參數(shù)。
總體而言,堆疊層會(huì)有幫助。
對(duì)于LSTM,可以使用softsign(而不是softmax)函數(shù)替代雙曲正切函數(shù),它更快,更不容易飽和( 梯度大概為0 )。
更新器:RMSProp、AdaGrad或Nesterovs通常是不錯(cuò)的選擇。AdaGrad也會(huì)降低學(xué)習(xí)率,這有時(shí)會(huì)有所幫助。
記住,要將數(shù)據(jù)標(biāo)準(zhǔn)化、MSE損失函數(shù)+恒等激活函數(shù)用于回歸、Xavier權(quán)重初始化。
評(píng)論