深度誘導(dǎo)的神經(jīng)網(wǎng)絡(luò)高斯過(guò)程
To explore Gaussian Processes??
目前,核方法和深度神經(jīng)網(wǎng)絡(luò)是兩種引人注目的機(jī)器學(xué)習(xí)方法。近年來(lái),許多理論闡明了他們的聯(lián)系。
筆者曾經(jīng)總結(jié)了目前理解神經(jīng)網(wǎng)絡(luò)的四個(gè)perspectives:決策邊界,特征表示,把神經(jīng)網(wǎng)絡(luò)看成一個(gè)核,以及微分方程。從核的一個(gè)視角看,神經(jīng)網(wǎng)絡(luò)的一個(gè)理論進(jìn)展是,“證明了在網(wǎng)絡(luò)參數(shù)服從相同的隨機(jī)初始化時(shí),無(wú)限寬網(wǎng)絡(luò)等價(jià)于一個(gè)高斯過(guò)程”。盡管這個(gè)理論有效而且優(yōu)雅,我們注意到所有神經(jīng)網(wǎng)絡(luò)導(dǎo)出的高斯過(guò)程本質(zhì)上都是運(yùn)用了無(wú)限寬度這一假設(shè)。然而,身處深度學(xué)習(xí)時(shí)代的我們更加關(guān)心的是神經(jīng)網(wǎng)絡(luò)的深度問(wèn)題,比如,增加深度如何影響網(wǎng)絡(luò)的行為?具體地說(shuō),寬度有限無(wú)限地增加深度可以誘導(dǎo)出來(lái)高斯過(guò)程嗎?這里筆者的一篇論文給出了肯定的答案 [1]。
——[1] Zhang, S. Q., Wang, F., & Fan, F. L. (2022). Neural network gaussian processes by increasing depth.?IEEE Transactions on Neural Networks and Learning Systems
一、高斯過(guò)程
首先,我們來(lái)說(shuō)明什么是高斯過(guò)程。我們對(duì)多元高斯分布很熟悉。多元高斯分布是針對(duì)一個(gè)向量,由一個(gè)平均值向量+一個(gè)協(xié)方差矩陣來(lái)定義。還記得本公眾號(hào)之前的推送里面有一個(gè)高觀(guān)點(diǎn):“函數(shù)是無(wú)限維的向量”(高觀(guān)點(diǎn))。高斯過(guò)程也是高斯分布的這樣一個(gè)拓展,也就是說(shuō),無(wú)限維向量的高斯分布就是一個(gè)高斯過(guò)程,高斯過(guò)程由一個(gè)平均值函數(shù)+一個(gè)協(xié)方差函數(shù)來(lái)決定。
?

?
二、神經(jīng)網(wǎng)絡(luò)高斯過(guò)程
神經(jīng)網(wǎng)絡(luò)是怎么和高斯過(guò)程聯(lián)系在一起的呢?Lee et al. [1] and Neal [2] 指出,隨機(jī)初始化無(wú)限寬網(wǎng)絡(luò)的參數(shù)會(huì)產(chǎn)生一個(gè)高斯過(guò)程,稱(chēng)作神經(jīng)網(wǎng)絡(luò)高斯過(guò)程(neural network Gaussian process, NNGP)。Intuitively,我們可以這么來(lái)理解這件事:給定一個(gè)參數(shù)為 i.i.d 的全連接多層網(wǎng)絡(luò)。由于網(wǎng)絡(luò)隨機(jī)初始化,每個(gè)神經(jīng)元的輸出也是獨(dú)立同分布。因?yàn)楹竺嬉粚拥拿總€(gè)神經(jīng)元的輸出是前一層所有神經(jīng)元的聚合,當(dāng)網(wǎng)絡(luò)寬度無(wú)限大時(shí),根據(jù)中心極限定理,無(wú)限多個(gè)獨(dú)立同分布的變量的平均服從高斯分布。這樣,網(wǎng)絡(luò)表示的輸出函數(shù)本質(zhì)上是一個(gè)高斯過(guò)程,如下動(dòng)態(tài)圖可以很好展示這一觀(guān)點(diǎn)。
[1] Lee, J., Bahri, Y., Novak, R., Schoenholz, S. S., Pennington, J., & Sohl-Dickstein, J. (2017). Deep neural networks as gaussian processes.?ICLR.
[2] Neal, R. M. (1996). Priors for infinite networks. In?Bayesian Learning for Neural Networks?(pp. 29-53). Springer, New York, NY.
?

?
三、 深度誘導(dǎo)的神經(jīng)網(wǎng)絡(luò)高斯過(guò)程
盡管前面的NNGP理論非常優(yōu)雅和有效,但它有一個(gè)重要的限制:不管網(wǎng)絡(luò)中堆疊了多少層,NNGP之所以成功是因?yàn)榫W(wǎng)絡(luò)無(wú)限寬。但是在深度學(xué)習(xí)時(shí)代,因?yàn)樯疃仁菦Q定深度學(xué)習(xí)力量的主要因素,我們更關(guān)心的是深度網(wǎng)絡(luò)的深度以及深度如何影響網(wǎng)絡(luò)的行為。因此,我們非常有必要擴(kuò)大現(xiàn)有NNGP理論的范圍,將深度納入其中。具體來(lái)說(shuō),我們的好奇心是能否通過(guò)增加深度而不是寬度來(lái)推導(dǎo)出 NNGP?如果這個(gè)問(wèn)題得到了肯定的回答,它將是現(xiàn)有理論的一個(gè)有價(jià)值的補(bǔ)充。由于在某種程度上存在寬度和深度之間的對(duì)稱(chēng)性 [1],我們認(rèn)為在某些條件下加深神經(jīng)網(wǎng)絡(luò)也可能導(dǎo)致 NNGP。
我們研究了如下圖所示的網(wǎng)絡(luò)架構(gòu)。這種拓?fù)浣Y(jié)構(gòu)的特點(diǎn)是間隔hbar中間層的輸出在最后一層聚合,產(chǎn)生網(wǎng)絡(luò)輸出。這樣的網(wǎng)絡(luò)輸出會(huì)是一個(gè)高斯過(guò)程嗎?雖然當(dāng)網(wǎng)絡(luò)無(wú)限深的時(shí)候,這個(gè)網(wǎng)絡(luò)的輸出也是可以無(wú)限多個(gè)變量聚合在一起,但是這些變量并不是獨(dú)立的。它們是隱含層的輸出,隱含層之間是有依賴(lài)關(guān)系的,因此我們不能簡(jiǎn)單的用中心極限定理??墒俏覀儼l(fā)現(xiàn),當(dāng)hbar很大的時(shí)候,被聚合的隱含層距離越來(lái)越遠(yuǎn),以致于它們之間的依賴(lài)會(huì)越來(lái)越小,最后這些變量可以滿(mǎn)足弱依賴(lài)的中心極限定理 [2]。結(jié)果也是一樣的,深度誘導(dǎo)的高斯過(guò)程存在!
[1] Fan, F. L., Lai, R., & Wang, G. (2020). Quasi-equivalence of width and depth of neural networks.?arXiv preprint arXiv:2002.02515.
[2] https://en.wikipedia.org/wiki/Central_limit_theorem
?

?
簡(jiǎn)要說(shuō)下證明的思路,弱依賴(lài)?yán)锩嬗幸环N情形叫做beta-mixing,它的含義是說(shuō):一個(gè)變量的獨(dú)立分布的概率和這個(gè)變量相對(duì)于另外一個(gè)變量的概率的差是很小很?。ㄖ笖?shù)級(jí)別)。我們的證明就是創(chuàng)造條件讓beta-mixing成立。為此我們初始化權(quán)重和bias使其norm都不太大,然后我們?cè)龃骽bar至無(wú)窮,由于復(fù)合作用,被聚合的隱含層的輸出之間影響將很小,滿(mǎn)足beta-mixing。證明摘要如下:





編輯:黃飛
電子發(fā)燒友App










評(píng)論