深度誘導(dǎo)的神經(jīng)網(wǎng)絡(luò)高斯過程
To explore Gaussian Processes??
目前,核方法和深度神經(jīng)網(wǎng)絡(luò)是兩種引人注目的機器學(xué)習(xí)方法。近年來,許多理論闡明了他們的聯(lián)系。
筆者曾經(jīng)總結(jié)了目前理解神經(jīng)網(wǎng)絡(luò)的四個perspectives:決策邊界,特征表示,把神經(jīng)網(wǎng)絡(luò)看成一個核,以及微分方程。從核的一個視角看,神經(jīng)網(wǎng)絡(luò)的一個理論進展是,“證明了在網(wǎng)絡(luò)參數(shù)服從相同的隨機初始化時,無限寬網(wǎng)絡(luò)等價于一個高斯過程”。盡管這個理論有效而且優(yōu)雅,我們注意到所有神經(jīng)網(wǎng)絡(luò)導(dǎo)出的高斯過程本質(zhì)上都是運用了無限寬度這一假設(shè)。然而,身處深度學(xué)習(xí)時代的我們更加關(guān)心的是神經(jīng)網(wǎng)絡(luò)的深度問題,比如,增加深度如何影響網(wǎng)絡(luò)的行為?具體地說,寬度有限無限地增加深度可以誘導(dǎo)出來高斯過程嗎?這里筆者的一篇論文給出了肯定的答案 [1]。
——[1] Zhang, S. Q., Wang, F., & Fan, F. L. (2022). Neural network gaussian processes by increasing depth.?IEEE Transactions on Neural Networks and Learning Systems
一、高斯過程
首先,我們來說明什么是高斯過程。我們對多元高斯分布很熟悉。多元高斯分布是針對一個向量,由一個平均值向量+一個協(xié)方差矩陣來定義。還記得本公眾號之前的推送里面有一個高觀點:“函數(shù)是無限維的向量”(高觀點)。高斯過程也是高斯分布的這樣一個拓展,也就是說,無限維向量的高斯分布就是一個高斯過程,高斯過程由一個平均值函數(shù)+一個協(xié)方差函數(shù)來決定。
?

?
二、神經(jīng)網(wǎng)絡(luò)高斯過程
神經(jīng)網(wǎng)絡(luò)是怎么和高斯過程聯(lián)系在一起的呢?Lee et al. [1] and Neal [2] 指出,隨機初始化無限寬網(wǎng)絡(luò)的參數(shù)會產(chǎn)生一個高斯過程,稱作神經(jīng)網(wǎng)絡(luò)高斯過程(neural network Gaussian process, NNGP)。Intuitively,我們可以這么來理解這件事:給定一個參數(shù)為 i.i.d 的全連接多層網(wǎng)絡(luò)。由于網(wǎng)絡(luò)隨機初始化,每個神經(jīng)元的輸出也是獨立同分布。因為后面一層的每個神經(jīng)元的輸出是前一層所有神經(jīng)元的聚合,當網(wǎng)絡(luò)寬度無限大時,根據(jù)中心極限定理,無限多個獨立同分布的變量的平均服從高斯分布。這樣,網(wǎng)絡(luò)表示的輸出函數(shù)本質(zhì)上是一個高斯過程,如下動態(tài)圖可以很好展示這一觀點。
[1] Lee, J., Bahri, Y., Novak, R., Schoenholz, S. S., Pennington, J., & Sohl-Dickstein, J. (2017). Deep neural networks as gaussian processes.?ICLR.
[2] Neal, R. M. (1996). Priors for infinite networks. In?Bayesian Learning for Neural Networks?(pp. 29-53). Springer, New York, NY.
?

?
三、 深度誘導(dǎo)的神經(jīng)網(wǎng)絡(luò)高斯過程
盡管前面的NNGP理論非常優(yōu)雅和有效,但它有一個重要的限制:不管網(wǎng)絡(luò)中堆疊了多少層,NNGP之所以成功是因為網(wǎng)絡(luò)無限寬。但是在深度學(xué)習(xí)時代,因為深度是決定深度學(xué)習(xí)力量的主要因素,我們更關(guān)心的是深度網(wǎng)絡(luò)的深度以及深度如何影響網(wǎng)絡(luò)的行為。因此,我們非常有必要擴大現(xiàn)有NNGP理論的范圍,將深度納入其中。具體來說,我們的好奇心是能否通過增加深度而不是寬度來推導(dǎo)出 NNGP?如果這個問題得到了肯定的回答,它將是現(xiàn)有理論的一個有價值的補充。由于在某種程度上存在寬度和深度之間的對稱性 [1],我們認為在某些條件下加深神經(jīng)網(wǎng)絡(luò)也可能導(dǎo)致 NNGP。
我們研究了如下圖所示的網(wǎng)絡(luò)架構(gòu)。這種拓撲結(jié)構(gòu)的特點是間隔hbar中間層的輸出在最后一層聚合,產(chǎn)生網(wǎng)絡(luò)輸出。這樣的網(wǎng)絡(luò)輸出會是一個高斯過程嗎?雖然當網(wǎng)絡(luò)無限深的時候,這個網(wǎng)絡(luò)的輸出也是可以無限多個變量聚合在一起,但是這些變量并不是獨立的。它們是隱含層的輸出,隱含層之間是有依賴關(guān)系的,因此我們不能簡單的用中心極限定理。可是我們發(fā)現(xiàn),當hbar很大的時候,被聚合的隱含層距離越來越遠,以致于它們之間的依賴會越來越小,最后這些變量可以滿足弱依賴的中心極限定理 [2]。結(jié)果也是一樣的,深度誘導(dǎo)的高斯過程存在!
[1] Fan, F. L., Lai, R., & Wang, G. (2020). Quasi-equivalence of width and depth of neural networks.?arXiv preprint arXiv:2002.02515.
[2] https://en.wikipedia.org/wiki/Central_limit_theorem
?

?
簡要說下證明的思路,弱依賴里面有一種情形叫做beta-mixing,它的含義是說:一個變量的獨立分布的概率和這個變量相對于另外一個變量的概率的差是很小很?。ㄖ笖?shù)級別)。我們的證明就是創(chuàng)造條件讓beta-mixing成立。為此我們初始化權(quán)重和bias使其norm都不太大,然后我們增大hbar至無窮,由于復(fù)合作用,被聚合的隱含層的輸出之間影響將很小,滿足beta-mixing。證明摘要如下:





編輯:黃飛
電子發(fā)燒友App










評論