日本筋肉GAY Japan办公室,五月丁香六月综合在线观看

編者按：如果說GAN的發(fā)展史上有什么戲劇性事件，那“LSTM之父”Jürgen Schmidhuber（發(fā)音：You_again Shmidhoobuh）和“GAN之父”Ian Goodfellow之間的恩怨絕對是其中最精彩的一幕。在2016的NIPS大會上，Schmidhuber和Goodfellow就GAN是否借鑒了前者在九十年代發(fā)表的一篇論文展開了激烈爭論，引得滿座震驚。雖然事后學(xué)界認(rèn)可了GAN的原創(chuàng)性，但Schmidhuber似乎對此仍然耿耿于懷。近日，他發(fā)表了一篇小短文，文章的主角還是幾十年前的那個模型——PM。

1990s，無監(jiān)督神經(jīng)網(wǎng)絡(luò)在最小值上的博弈每個網(wǎng)絡(luò)最小化由另一個網(wǎng)絡(luò)最大化的值函數(shù) 或生成實驗，產(chǎn)生對好奇心的內(nèi)在獎勵

在對人工神經(jīng)網(wǎng)絡(luò)（NN）的研究中，研究人員最重要的目標(biāo)之一是創(chuàng)建能從給定數(shù)據(jù)中學(xué)習(xí)統(tǒng)計數(shù)據(jù)的算法。為了實現(xiàn)這一目標(biāo)，我在20世紀(jì)90年代曾引入一種新型無監(jiān)督學(xué)習(xí)機(jī)制，它基于極大極小博弈中的梯度下降/上升原理，其中一個NN負(fù)責(zé)最小化由另一個NN最大化的目標(biāo)函數(shù)。我把發(fā)生在這兩個無監(jiān)督神經(jīng)網(wǎng)絡(luò)之間的對抗稱為“可預(yù)測性最小化”（Predictability Minimization）。

首先，PM需要一個自帶初始隨機(jī)權(quán)重的編碼器網(wǎng)絡(luò)，它通過其輸入節(jié)點（下圖中的白色圓圈）接收數(shù)據(jù)樣本（例如圖像），并在其輸出節(jié)點（下圖中的灰色圓圈，也稱編碼節(jié)點）生成對應(yīng)編碼。每個編碼節(jié)點都可以在區(qū)間[0,1]內(nèi)被激活。

圖中的黑色圓圈表示一個獨立的預(yù)測網(wǎng)絡(luò)，經(jīng)過訓(xùn)練后，給定一部分編碼節(jié)點，它能學(xué)習(xí)每個編碼節(jié)點的條件期望，從而預(yù)測所有未提供的編碼節(jié)點。雖然圖中沒有標(biāo)出，編碼網(wǎng)絡(luò)和預(yù)測網(wǎng)絡(luò)都有隱藏節(jié)點。

但是，每個編碼節(jié)點都希望自己能變得更不可預(yù)測。因此它需要經(jīng)過訓(xùn)練，最大限度地提高由預(yù)測網(wǎng)絡(luò)最小化的目標(biāo)函數(shù)（如均方誤差）。預(yù)測器和編碼器相互對抗，以激勵編碼器實現(xiàn)無監(jiān)督學(xué)習(xí)的“圣杯”——關(guān)于輸入數(shù)據(jù)的理想的、展開的、二元的階乘編碼，其中每個編碼節(jié)點在統(tǒng)計上彼此互相獨立。

理想情況下，NN在經(jīng)過學(xué)習(xí)后，給定數(shù)據(jù)模式的概率就應(yīng)該等于其編碼節(jié)點概率的乘積，這個概率也是預(yù)測網(wǎng)絡(luò)的輸出。

無獨有偶，生成對抗網(wǎng)絡(luò)（GAN）也使用無監(jiān)督的極小極大原理來模擬給定數(shù)據(jù)的統(tǒng)計數(shù)據(jù)。相信讀者都熟悉NIPS 2014的那篇GAN論文，雖然那位作者聲稱PM并不是基于值函數(shù)的極大極小博弈，不是一個網(wǎng)絡(luò)尋求最大化而另一個尋求最小化，相比GAN那種“網(wǎng)絡(luò)之間的對抗是唯一訓(xùn)練標(biāo)準(zhǔn)，并且足以完成訓(xùn)練”的方法，PM只能算“一個正則，鼓勵神經(jīng)網(wǎng)絡(luò)的隱藏節(jié)點在完成其他任務(wù)時在統(tǒng)計上獨立，其對抗性不是主要的訓(xùn)練方法”。

但是，我覺得PM確實也是個純粹的極大極小博弈，尤其是它也對抗訓(xùn)練，“網(wǎng)絡(luò)之間的對抗是唯一訓(xùn)練標(biāo)準(zhǔn)，并且足以完成訓(xùn)練”。

將無監(jiān)督極大極小博弈用于強化學(xué)習(xí)好奇心

還是20世紀(jì)90年代，PM論文發(fā)表后，我曾嘗試過把這個想法擴(kuò)展到強化學(xué)習(xí)領(lǐng)域，構(gòu)建具有人工好奇心的智能體。

我構(gòu)建了一個目標(biāo)是在環(huán)境中生成動作序列的神經(jīng)網(wǎng)絡(luò)C，它的動作生成的由一個追求回報最大化的節(jié)點控制。作為參考，我設(shè)計了一個名叫世界模型M的獨立神經(jīng)網(wǎng)絡(luò)，它能根據(jù)給定的以往輸入和動作預(yù)測未來輸入。動作選擇越合理，網(wǎng)絡(luò)得到的回報就越高，因此C所獲得的內(nèi)在回報和M的預(yù)測誤差成正比。同時，因為C試圖最大化的正是M試圖最小化的值函數(shù)，這意味著C會盡力探索M無法準(zhǔn)確預(yù)測的新動作。

最近關(guān)于好奇心的強化學(xué)習(xí)論文有很多，我覺得它們都是基于這個簡單的90年代的原理。尤其是在97年的那篇論文中[UARL3-5]，我讓兩個對抗的、追求回報最大化的模塊（左腦和右腦）共同設(shè)計一個實驗：一個能定義如何在環(huán)境中執(zhí)行動作序列、如何通過實現(xiàn)由實驗觸發(fā)的觀察序列的可計算函數(shù)（如二元分類）的指令序列來計算最終實驗結(jié)果的（概率）程序。

兩個模塊都能提前預(yù)測實驗結(jié)果，如果它們的預(yù)測或假設(shè)不同，那么在動作生成和執(zhí)行完畢后，失敗一方會向這個零和博弈的優(yōu)勝一方提供內(nèi)在回報。這種設(shè)計促使無監(jiān)督的兩個模塊專注于“有趣”的事情，也就是不可預(yù)測的空間。同樣的，在沒有外部回報的情況下，每個無監(jiān)督模塊都在試圖最大化由另一個最小化的值函數(shù)。

當(dāng)時我在論文中提出，如果想把這種方法用于現(xiàn)實世界的某些問題，我們還需要科學(xué)家和藝術(shù)家的人為介入，設(shè)置合理的外部回報。而時至今日，很多人也確實正在用它處理數(shù)據(jù)分布建模和人工好奇心等任務(wù)。

小結(jié)

看到這里，相信大家都看出來了，Jürgen Schmidhuber還是放不下對GAN的糾結(jié)，或者說，是對“對抗”這種方法的執(zhí)念。雖然GAN的原創(chuàng)性已無爭議，但比起抬高/貶低Schmidhuber的為人，我們都不能否認(rèn)他對深度學(xué)習(xí)作出的杰出貢獻(xiàn)。2年前，他也正是以一種幾乎“鬧劇”的方式警告所有人，在過去幾十年的研究中，可能存放著許多不為人知的珍寶，它們不是不夠優(yōu)秀，而只是輸給了時代。

正如網(wǎng)友評價的：

作為機(jī)器學(xué)習(xí)的英雄，我們追隨他；作為超越時代的罪人，我們圍攻他。但他都可以接受，因為他不是英雄。他只是一個沉默的守護(hù)者，一個警惕的保護(hù)者，一個Schmidhuber。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
3954

瀏覽量
142710
神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4838

瀏覽量
107823
GaN

GaN

+關(guān)注

關(guān)注
21

文章
2367

瀏覽量
82468

原文標(biāo)題：Jürgen Schmidhuber：無監(jiān)督神經(jīng)網(wǎng)絡(luò)在極大極小上的博弈

文章出處：【微信號：jqr_AI，微信公眾號：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

Jürgen Schmidhuber：無監(jiān)督神經(jīng)網(wǎng)絡(luò)在極大極小上的博弈

評論