編者按:如果說GAN的發(fā)展史上有什么戲劇性事件,那“LSTM之父”Jürgen Schmidhuber(發(fā)音:You_again Shmidhoobuh)和“GAN之父”Ian Goodfellow之間的恩怨絕對是其中最精彩的一幕。在2016的NIPS大會上,Schmidhuber和Goodfellow就GAN是否借鑒了前者在九十年代發(fā)表的一篇論文展開了激烈爭論,引得滿座震驚。雖然事后學界認可了GAN的原創(chuàng)性,但Schmidhuber似乎對此仍然耿耿于懷。近日,他發(fā)表了一篇小短文,文章的主角還是幾十年前的那個模型——PM。
1990s,無監(jiān)督神經(jīng)網(wǎng)絡在最小值上的博弈 每個網(wǎng)絡最小化由另一個網(wǎng)絡最大化的值函數(shù) 或生成實驗,產(chǎn)生對好奇心的內(nèi)在獎勵
在對人工神經(jīng)網(wǎng)絡(NN)的研究中,研究人員最重要的目標之一是創(chuàng)建能從給定數(shù)據(jù)中學習統(tǒng)計數(shù)據(jù)的算法。為了實現(xiàn)這一目標,我在20世紀90年代曾引入一種新型無監(jiān)督學習機制,它基于極大極小博弈中的梯度下降/上升原理,其中一個NN負責最小化由另一個NN最大化的目標函數(shù)。我把發(fā)生在這兩個無監(jiān)督神經(jīng)網(wǎng)絡之間的對抗稱為“可預測性最小化”(Predictability Minimization)。
首先,PM需要一個自帶初始隨機權(quán)重的編碼器網(wǎng)絡,它通過其輸入節(jié)點(下圖中的白色圓圈)接收數(shù)據(jù)樣本(例如圖像),并在其輸出節(jié)點(下圖中的灰色圓圈,也稱編碼節(jié)點)生成對應編碼。每個編碼節(jié)點都可以在區(qū)間[0,1]內(nèi)被激活。
圖中的黑色圓圈表示一個獨立的預測網(wǎng)絡,經(jīng)過訓練后,給定一部分編碼節(jié)點,它能學習每個編碼節(jié)點的條件期望,從而預測所有未提供的編碼節(jié)點。雖然圖中沒有標出,編碼網(wǎng)絡和預測網(wǎng)絡都有隱藏節(jié)點。
但是,每個編碼節(jié)點都希望自己能變得更不可預測。因此它需要經(jīng)過訓練,最大限度地提高由預測網(wǎng)絡最小化的目標函數(shù)(如均方誤差)。預測器和編碼器相互對抗,以激勵編碼器實現(xiàn)無監(jiān)督學習的“圣杯”——關(guān)于輸入數(shù)據(jù)的理想的、展開的、二元的階乘編碼,其中每個編碼節(jié)點在統(tǒng)計上彼此互相獨立。
理想情況下,NN在經(jīng)過學習后,給定數(shù)據(jù)模式的概率就應該等于其編碼節(jié)點概率的乘積,這個概率也是預測網(wǎng)絡的輸出。
無獨有偶,生成對抗網(wǎng)絡(GAN)也使用無監(jiān)督的極小極大原理來模擬給定數(shù)據(jù)的統(tǒng)計數(shù)據(jù)。相信讀者都熟悉NIPS 2014的那篇GAN論文,雖然那位作者聲稱PM并不是基于值函數(shù)的極大極小博弈,不是一個網(wǎng)絡尋求最大化而另一個尋求最小化,相比GAN那種“網(wǎng)絡之間的對抗是唯一訓練標準,并且足以完成訓練”的方法,PM只能算“一個正則,鼓勵神經(jīng)網(wǎng)絡的隱藏節(jié)點在完成其他任務時在統(tǒng)計上獨立,其對抗性不是主要的訓練方法”。
但是,我覺得PM確實也是個純粹的極大極小博弈,尤其是它也對抗訓練,“網(wǎng)絡之間的對抗是唯一訓練標準,并且足以完成訓練”。
將無監(jiān)督極大極小博弈用于強化學習好奇心
還是20世紀90年代,PM論文發(fā)表后,我曾嘗試過把這個想法擴展到強化學習領(lǐng)域,構(gòu)建具有人工好奇心的智能體。
我構(gòu)建了一個目標是在環(huán)境中生成動作序列的神經(jīng)網(wǎng)絡C,它的動作生成的由一個追求回報最大化的節(jié)點控制。作為參考,我設(shè)計了一個名叫世界模型M的獨立神經(jīng)網(wǎng)絡,它能根據(jù)給定的以往輸入和動作預測未來輸入。動作選擇越合理,網(wǎng)絡得到的回報就越高,因此C所獲得的內(nèi)在回報和M的預測誤差成正比。同時,因為C試圖最大化的正是M試圖最小化的值函數(shù),這意味著C會盡力探索M無法準確預測的新動作。
最近關(guān)于好奇心的強化學習論文有很多,我覺得它們都是基于這個簡單的90年代的原理。尤其是在97年的那篇論文中[UARL3-5],我讓兩個對抗的、追求回報最大化的模塊(左腦和右腦)共同設(shè)計一個實驗:一個能定義如何在環(huán)境中執(zhí)行動作序列、如何通過實現(xiàn)由實驗觸發(fā)的觀察序列的可計算函數(shù)(如二元分類)的指令序列來計算最終實驗結(jié)果的(概率)程序。
兩個模塊都能提前預測實驗結(jié)果,如果它們的預測或假設(shè)不同,那么在動作生成和執(zhí)行完畢后,失敗一方會向這個零和博弈的優(yōu)勝一方提供內(nèi)在回報。這種設(shè)計促使無監(jiān)督的兩個模塊專注于“有趣”的事情,也就是不可預測的空間。同樣的,在沒有外部回報的情況下,每個無監(jiān)督模塊都在試圖最大化由另一個最小化的值函數(shù)。
當時我在論文中提出,如果想把這種方法用于現(xiàn)實世界的某些問題,我們還需要科學家和藝術(shù)家的人為介入,設(shè)置合理的外部回報。而時至今日,很多人也確實正在用它處理數(shù)據(jù)分布建模和人工好奇心等任務。
小結(jié)
看到這里,相信大家都看出來了,Jürgen Schmidhuber還是放不下對GAN的糾結(jié),或者說,是對“對抗”這種方法的執(zhí)念。雖然GAN的原創(chuàng)性已無爭議,但比起抬高/貶低Schmidhuber的為人,我們都不能否認他對深度學習作出的杰出貢獻。2年前,他也正是以一種幾乎“鬧劇”的方式警告所有人,在過去幾十年的研究中,可能存放著許多不為人知的珍寶,它們不是不夠優(yōu)秀,而只是輸給了時代。
正如網(wǎng)友評價的:
作為機器學習的英雄,我們追隨他;作為超越時代的罪人,我們圍攻他。但他都可以接受,因為他不是英雄。他只是一個沉默的守護者,一個警惕的保護者,一個Schmidhuber。
-
編碼器
+關(guān)注
關(guān)注
45文章
3875瀏覽量
140606 -
神經(jīng)網(wǎng)絡
+關(guān)注
關(guān)注
42文章
4819瀏覽量
106132 -
GaN
+關(guān)注
關(guān)注
19文章
2277瀏覽量
78671
原文標題:Jürgen Schmidhuber:無監(jiān)督神經(jīng)網(wǎng)絡在極大極小上的博弈
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
脈沖耦合神經(jīng)網(wǎng)絡在FPGA上的實現(xiàn)誰會?
基于賽靈思FPGA的卷積神經(jīng)網(wǎng)絡實現(xiàn)設(shè)計
卷積神經(jīng)網(wǎng)絡如何使用
【案例分享】基于BP算法的前饋神經(jīng)網(wǎng)絡
【案例分享】ART神經(jīng)網(wǎng)絡與SOM神經(jīng)網(wǎng)絡
如何設(shè)計BP神經(jīng)網(wǎng)絡圖像壓縮算法?
如何用卷積神經(jīng)網(wǎng)絡方法去解決機器監(jiān)督學習下面的分類問題?
如何構(gòu)建神經(jīng)網(wǎng)絡?
在STM32上驗證神經(jīng)網(wǎng)絡模型
卷積神經(jīng)網(wǎng)絡一維卷積的處理過程
卷積神經(jīng)網(wǎng)絡模型發(fā)展及應用
神經(jīng)網(wǎng)絡原理下載-免費
圖靈獎為什么沒頒給LSTM之父Jürgen Schmidhuber?
基于無監(jiān)督淺層神經(jīng)網(wǎng)絡聯(lián)合學習的表示方法

評論