本文討論了五個主要的先驗假設(shè)以及如何突破這些假設(shè)限制并進一步提升機器學(xué)習(xí)效果的方法。在此基礎(chǔ)上我們提出了機器學(xué)習(xí)自動化的概念以及SLeM框架。SLeM為機器學(xué)習(xí)自動化研究提供了一個形式化/模型化/科學(xué)化的研究框架和途徑?,F(xiàn)有應(yīng)用表明SLeM是一個強大而有效的工具,同時它也處于快速持續(xù)的發(fā)展過程中。
以深度學(xué)習(xí)為代表的人工智能已經(jīng)突破了從“不能用”到“可以用”的技術(shù)拐點,但是從“可以用”到“很好用”,還有很長的路要走。人工智能最核心的技術(shù)是機器學(xué)習(xí),即從給定的數(shù)據(jù)集中總結(jié)規(guī)律或?qū)で蟊碚?,可以概括為圖1所示的公式。

這個模型概括了機器學(xué)習(xí)解決問題的一般步驟:首先我們需要選擇一個較大范圍的、可能包含數(shù)據(jù)規(guī)律或表示函數(shù)的假設(shè)空間,然后指定一個損失度量,在該度量下,我們在假設(shè)空間中找一個函數(shù),它能夠?qū)⒑瘮?shù)在給定數(shù)據(jù)集上的平均損失極小化。極小化數(shù)據(jù)集上的平均損失這一目標(biāo)被稱為“數(shù)據(jù)擬合項”,相應(yīng)的方法即為經(jīng)驗風(fēng)險極小化。然而,僅通過極小化數(shù)據(jù)擬合項來尋找解常常是不適定的,因而必須添加某些額外的約束,新增加的希望滿足的這些約束構(gòu)成“正則項”。極小化數(shù)據(jù)擬合項與正則項之和被稱為“正則化方法”,它構(gòu)成了機器學(xué)習(xí)的最基本模型。
機器學(xué)習(xí)有先驗假設(shè)
使用機器學(xué)習(xí)時,我們總是自覺或不自覺地施加一些假設(shè),例如:
損失度量的獨立性假設(shè)。我們總是習(xí)慣使用像最小二乘或者交叉熵這樣確定的度量作為損失,而不把損失度量的選擇與我們要解決的具體問題關(guān)聯(lián)起來,更沒有依據(jù)面臨的問題自適應(yīng)地確定最優(yōu)的損失度量。
假設(shè)空間的大容量假設(shè)。我們總是自然地認為,我們選擇使用的機器架構(gòu)(例如用一個20層的深度學(xué)習(xí)架構(gòu))已經(jīng)包含我們期望找到的解,或者說,已經(jīng)包含數(shù)據(jù)所蘊含的規(guī)律。這個假設(shè)顯然是保證機器學(xué)習(xí)成功的前提。我們通常都很自信:我們選的架構(gòu)是合理的,是包含所要找的解的。
訓(xùn)練數(shù)據(jù)的完備性假設(shè)。我們使用機器學(xué)習(xí)時,總期望訓(xùn)練機器的數(shù)據(jù)是非常充分的、足夠多的、高質(zhì)量的。這個假定常常是我們選擇機器學(xué)習(xí)方法的前提和原由。
正則子的先驗決定論假設(shè)。為了使機器學(xué)習(xí)產(chǎn)生的決策函數(shù)有期望的性質(zhì),施加一定的正則約束是必須的。例如我們已習(xí)慣于使用L2正則保證光滑性,使用L1正則保證稀疏性,使用TV正則保持圖像邊緣稀疏性,等等。人們一般認為,正則項的形式是由先驗決定的,我們在使用機器學(xué)習(xí)時,能夠根據(jù)先驗事先加以確定。這個假定的本質(zhì)是,我們已經(jīng)能夠?qū)栴}的先驗抽象出知識,而且能夠正確地以“正則子”形式建模。之所以把這一認識叫作假設(shè),是因為我們其實并不知道應(yīng)用中所選擇的正則子是否已經(jīng)正確地對先驗進行了建模。
分析框架的歐氏假設(shè)。當(dāng)我們訓(xùn)練深度網(wǎng)絡(luò)架構(gòu)時,會自然地選擇使用BP或ADAM這樣類型的優(yōu)化算法。為什么?這是因為這些算法都經(jīng)過了嚴(yán)格的理論評判(收斂性、穩(wěn)定性、復(fù)雜性等)。評判算法即把算法放在一個特定的數(shù)學(xué)框架內(nèi)進行分析而得出結(jié)論的活動。我們通常把評判算法放在可使用二范數(shù)、正交性這樣的歐氏框架中。這樣的假設(shè)本質(zhì)上限定了可用算法的類型和可用機器的架構(gòu)(損失函數(shù)、正則項等)。在這樣的假設(shè)下,我們并不能處理和敢于使用更復(fù)雜的非歐氏空間算法和機器學(xué)習(xí)架構(gòu)。
這5個假設(shè)相當(dāng)大程度上決定了機器學(xué)習(xí)的效能。
如何突破機器學(xué)習(xí)的先驗假設(shè)
已有大量工作聚焦于如何突破機器學(xué)習(xí)的這些假設(shè)。以下是筆者團隊近年來在這方面的一些代表性工作。
關(guān)于分析框架歐氏假設(shè)
我們認為,歐氏空間之所以被廣泛使用,根本原因是我們在算法分析中能夠使用歐式架構(gòu)(a+b)2=a2+b2 +2ab,在這樣的架構(gòu)下,任何一個算法的性能(如收斂性)都和目標(biāo)函數(shù)的凸性發(fā)生聯(lián)系。因此,要沖破目標(biāo)函數(shù)的凸性假設(shè),本質(zhì)上就是要沖破歐氏假設(shè)。筆者1989年及1991年的工作打開了用非歐氏架構(gòu)工具研究非歐氏算法的可能性,近年來這些工具得到廣泛應(yīng)用。從這些研究中可看出,沖破歐氏假設(shè)的途徑在于應(yīng)用Banach空間幾何學(xué)。
關(guān)于損失獨立性假設(shè)
損失有兩個功能,一是度量選定的函數(shù)在給定數(shù)據(jù)/數(shù)據(jù)集上的擬合程度,二是度量一個函數(shù)表示的精度。盡管在有導(dǎo)師學(xué)習(xí)和無導(dǎo)師學(xué)習(xí)模式下,它們可能有著不同的表現(xiàn)形式,但它的選擇本質(zhì)上都應(yīng)該是與問題相關(guān)的。事實上,如果我們把問題的標(biāo)簽和特征用式(1)描述的觀察模型來理解,
y=fθ(x)+e????????????????(1)
那么,標(biāo)簽由一個固定的規(guī)律加上一個噪聲得到,這個噪聲就是數(shù)據(jù)獲取的環(huán)境。根據(jù)概率公式,我們很容易看到,最好標(biāo)簽出現(xiàn)的概率完全由它的誤差環(huán)境決定。這給我們一個很重要的啟示:機器學(xué)習(xí)的最佳度量應(yīng)該由誤差決定。我們通過實驗發(fā)現(xiàn),如果假定誤差是白噪聲,那么最優(yōu)的恢復(fù)度量確實是最小二乘。但如果噪聲是其他類型,最優(yōu)恢復(fù)度量就不再是最小二乘了。
給定一個具體的誤差分布形式,我們能確定出一個特定的最佳恢復(fù)度量,這樣的方法稱為誤差建模原理。對于任何機器學(xué)習(xí)問題,通過研究它生成的誤差形式,就能獲得一定意義下最優(yōu)的損失度量,而在該度量下找到機器學(xué)習(xí)的經(jīng)驗函數(shù)才是最好的。筆者團隊已有很多成功應(yīng)用誤差建模原理的案例,最典型的是根據(jù)這一原理成功研發(fā)微劑量CT,實現(xiàn)了將CT幅射劑量降低到微劑量水平。
一般來說,我們并不知道要解決的問題處于一個什么樣的誤差環(huán)境,這種情況下,我們可以運用高斯混合來逼近。事實上,任何一個分式函數(shù)都能以多個高斯分布函數(shù)之和來逼近。據(jù)此,我們證明,不同的高斯混合導(dǎo)致不同加權(quán)的“加權(quán)最小二乘”最優(yōu)度量。這給出一個非常有用的提示:當(dāng)我們不知道誤差的真正形式時,加權(quán)最小二乘是一個不錯的選擇。
關(guān)于假設(shè)空間的大容量假設(shè)
如何設(shè)計一個機器架構(gòu)使希望找到的問題解確在其中?我們提出了一個非?;A(chǔ)的方法:先構(gòu)建一個含大量超參數(shù)的粗糙模型(叫模型族)來刻畫問題解的范圍,然后求解“模型族”構(gòu)成解決問題的“算法族”,再把“算法族”自適應(yīng)化展開成一個深度網(wǎng)絡(luò)架構(gòu),它的參數(shù)包含模型簇和算法簇中的所有參數(shù)并且允許每個迭代步不同;最后應(yīng)用數(shù)據(jù)來訓(xùn)練這樣形成的網(wǎng)絡(luò)產(chǎn)生問題的解。這樣的一般化方法稱為模型驅(qū)動的深度學(xué)習(xí)。模型驅(qū)動的深度學(xué)習(xí)表面上看是解決深度學(xué)習(xí)的架構(gòu)設(shè)計問題,但本質(zhì)上是在深度學(xué)習(xí)過程中逐步設(shè)置包含解的最小假設(shè)空間來突破假設(shè)空間的大容量假設(shè)。這一方法不同于傳統(tǒng)的數(shù)學(xué)建模方法(要求精確建模),前者只要求對問題解的整體范圍進行刻畫;它也不同于傳統(tǒng)的深度學(xué)習(xí)(沒有融入物理機制),模型驅(qū)動的深度學(xué)習(xí)具有明確的物理機制解釋和嚴(yán)密的數(shù)學(xué)基礎(chǔ)。由此回避了深度學(xué)習(xí)架構(gòu)設(shè)計難的問題,從而使機器學(xué)習(xí)架構(gòu)能夠在理論指導(dǎo)及可解釋的意義下進行設(shè)計,如圖2所示。

筆者團隊2018年在《國家科學(xué)評論》(NSR)上正式提出了這一方法。使用這一方法,筆者團隊提出了大家熟知的ADMM CS-Net深度學(xué)習(xí)架構(gòu)。該架構(gòu)是實現(xiàn)壓縮感知的一個普遍有效的深度學(xué)習(xí)模型,已經(jīng)得到普遍應(yīng)用,并被認為是一個開創(chuàng)性的、奠基性的網(wǎng)絡(luò)。它的重要意義是在最優(yōu)化理論和深度學(xué)習(xí)網(wǎng)絡(luò)設(shè)計之間搭建起一座橋梁,尤其是它能夠比傳統(tǒng)的壓縮感知模型、正則化方法更好地處理稀疏性問題。
關(guān)于正則子先驗決定論假設(shè)
突破正則先驗假設(shè)是非常困難的,因為無論怎么選擇, 也很能保證所選的正則項能真實地反映先驗。我們分析認為,問題的困難性出在“正則化方法是在知識層面建模先驗”上,要擺脫困境,出路是直接從數(shù)據(jù)中學(xué)習(xí)先險。為此,我們提出并建立了一個稱為“隱正則化理論”的方法。我們證明:正則化問題的解在一定條件下能夠等價于一個含近點投影算子的不動點方程,從而可自然地迭代求解并展開成一個模型驅(qū)動的深度學(xué)習(xí)網(wǎng)絡(luò),而近點投影算子與正則項是能夠惟一相互決定的。這樣,代替設(shè)置正則項,我們可以通過數(shù)據(jù)學(xué)習(xí)近點投影算子,從而起到與正則化方法一樣的效果。值得注意的是,設(shè)定正則項是利用先驗知識,而隱正則化是從數(shù)據(jù)中抽取知識,融入學(xué)習(xí)過程,因此在原理上具有重要的意義。
關(guān)于數(shù)據(jù)完備性假設(shè)
數(shù)據(jù)的完備性和高質(zhì)量是保證機器學(xué)習(xí)效果的關(guān)鍵。課程學(xué)習(xí)的想法能夠把學(xué)習(xí)過程與人類受教育的過程類比,從而以“先易后難”分步處理的方式應(yīng)對不完備的數(shù)據(jù)(正如小學(xué)生先學(xué)簡單的內(nèi)容再學(xué)更難的內(nèi)容一樣)。過去十余年,筆者團隊完整建立了“課程自步學(xué)習(xí)”的理論與算法體系,將類課程學(xué)習(xí)標(biāo)準(zhǔn)化成一個十分有效的處理不完備數(shù)據(jù)的機器學(xué)習(xí)方法。
總的來說,我們過去多年的工作是發(fā)展一些科學(xué)原理,希望在這些原理指導(dǎo)下,機器學(xué)習(xí)的先驗假設(shè)能得以突破。我們的工作主要是:利用Banach幾何工具來突破分析的歐氏假設(shè),利用誤差建模原理來突破損失的獨立性假設(shè),利用模型驅(qū)動的深度學(xué)習(xí)方式來突破假設(shè)空間的大容量假設(shè),利用隱正則化方法來突破正則先驗假設(shè),利用課程自步學(xué)習(xí)來突破數(shù)據(jù)的完備性假設(shè)(見圖3)。所有這些工作都被證明是很有效的。

機器學(xué)習(xí)要實現(xiàn)自動化
機器學(xué)習(xí)的當(dāng)前發(fā)展基本上仍處于“人工”階段:在數(shù)據(jù)層面,仍需要人工收集數(shù)據(jù)、標(biāo)注數(shù)據(jù),且需要人工決定哪些數(shù)據(jù)用作訓(xùn)練,哪些數(shù)據(jù)用作測試;在模型和算法層面,人們還大都只是從已知的模型和算法中選擇一個架構(gòu)和算法,基本上處于被動選擇狀態(tài);在應(yīng)用層面,我們還是一個任務(wù)一個模型,做不到任務(wù)自切換、環(huán)境自適應(yīng)。顯然,要想把人工智能從“人工化”推向“自主化”,中間必須要邁過一個關(guān)口,即機器學(xué)習(xí)要“自動化”,其過程如圖4所示。

我們認為,機器學(xué)習(xí)自動化首先要至少實現(xiàn)六個方面的自動化。一是數(shù)據(jù)自動化 :實現(xiàn)數(shù)據(jù)的自生成、自選擇。要根據(jù)目標(biāo)任務(wù)需要或少量元數(shù)據(jù)(標(biāo)準(zhǔn)、高質(zhì)量數(shù)據(jù))的引導(dǎo),實現(xiàn)訓(xùn)練數(shù)據(jù)的自動生成,以及從海量非高質(zhì)量數(shù)據(jù)中自動選擇可供學(xué)習(xí)的樣本;二是架構(gòu)/算法自動化 :實現(xiàn)網(wǎng)絡(luò)架構(gòu)自構(gòu)建和訓(xùn)練算法自設(shè)計。要能根據(jù)目標(biāo)任務(wù)自動解析完成任務(wù)所需的“功能塊”,并以最優(yōu)方式加以組裝(以盡可能簡約,甚至極簡的方式)形成所需的深度網(wǎng)絡(luò)架構(gòu);三是應(yīng)用/更新自動化 :要實現(xiàn)損失度量隨問題(數(shù)據(jù))的自適應(yīng)設(shè)定和正則項的自適應(yīng)設(shè)定,實現(xiàn)網(wǎng)絡(luò)訓(xùn)練算法的自適應(yīng)構(gòu)建和選擇;實現(xiàn)任務(wù)自切換和環(huán)境自適應(yīng)。要實現(xiàn)一個架構(gòu)完成多項任務(wù)、自動切換的機器學(xué)習(xí), 要能夠持續(xù)學(xué)習(xí)、自主進化、自適應(yīng)地去完成新任務(wù)。
我們把能實現(xiàn)上述六個“自動化”目標(biāo)的機器學(xué)習(xí)稱為“自動化機器學(xué)習(xí)”。顯然,我們現(xiàn)在仍處于機器學(xué)習(xí)的人工化階段,但正在走向自動化、自主化階段。應(yīng)該高度認識實現(xiàn)機器學(xué)習(xí)自動化的重大意義與價值,筆者認為,它既是實現(xiàn)自主智能的必經(jīng)之路,也是推動人工智能發(fā)展、應(yīng)用的現(xiàn)實需求。
如何實現(xiàn)機器學(xué)習(xí)自動化:SLeM框架
如何實現(xiàn)機器學(xué)習(xí)自動化?表面上看,它涉及機器學(xué)習(xí)的各個要素(例如:假設(shè)空間、損失函數(shù)、正則項、學(xué)習(xí)算法等)的設(shè)計問題,但本質(zhì)上涉及的是學(xué)習(xí)方法論的學(xué)習(xí)問題。這里提出一種模擬學(xué)習(xí)方法論(Simulate Learning Methodology,SLeM)的框架,如圖5所示,并闡述如何通過SLeM來實現(xiàn)機器學(xué)習(xí)自動化。

學(xué)習(xí)方法論是指導(dǎo)、管理學(xué)習(xí)者如何去學(xué)習(xí)的一般原則與方法學(xué)。為建立SLeM框架,我們需要先嚴(yán)格地從數(shù)學(xué)上定義學(xué)習(xí)任務(wù)、學(xué)習(xí)方法、學(xué)習(xí)方法論等概念。
學(xué)習(xí)任務(wù)
學(xué)習(xí)的目的是對可觀測的現(xiàn)實世界規(guī)律作總結(jié)和刻畫。我們認為,一個現(xiàn)實世界的規(guī)律可以用一個隨機變量來描述,或等價地,由一個分布函數(shù)(密度函數(shù))來描述。一個隨機變量(現(xiàn)實世界規(guī)律)在不同時空的抽樣即表現(xiàn)為不同時空反映同一規(guī)律的數(shù)據(jù)(這些構(gòu)成通常機器學(xué)習(xí)研究的對象)。從數(shù)據(jù)中學(xué)習(xí),可以表現(xiàn)為分類、回歸、降維、隱變量識別等具體任務(wù),但本質(zhì)上是學(xué)習(xí)數(shù)據(jù)背后的分布(只要知道了分布,所有具體任務(wù)都能通過分布函數(shù)表示出來)。因此,學(xué)習(xí)任務(wù)宜定義作統(tǒng)計上的“密度估計問題”,即根據(jù)給定的數(shù)據(jù),確定數(shù)據(jù)背后的隨機變量分布(密度函數(shù))問題。學(xué)習(xí)的本質(zhì)是對一個可觀測的現(xiàn)實世界規(guī)律作總結(jié)和刻畫。
學(xué)習(xí)方法
依據(jù)前文對機器學(xué)習(xí)要素的分析,只要指定一組特定的“數(shù)據(jù)產(chǎn)生方法、假設(shè)空間/機器架構(gòu)、損失度量、優(yōu)化算法”,就可以認為定義了一個學(xué)習(xí)方法。由此,我們定義一個學(xué)習(xí)方法是對學(xué)習(xí)空間的一組指定K=(D, f, L, A),其中D是數(shù)據(jù)生成方法,f是機器架構(gòu),L是損失度量,A是一個可用以訓(xùn)練的優(yōu)化算法。這里學(xué)習(xí)空間K自然定義為分布函數(shù)空間、假設(shè)空間、損失函數(shù)空間、優(yōu)化算法空間的乘積,如圖6所示。

學(xué)習(xí)空間K顯然是無窮維的。但如果我們假設(shè):K的每一因子空間都存在可數(shù)基底(應(yīng)用中自然滿足,例如,不同均值與方差的高斯分布構(gòu)成分布函數(shù)空間的可數(shù)基底),則學(xué)習(xí)空間K便可以序列化(即同構(gòu)于序列空間),即對應(yīng)地能用4個無窮序列來描述。這個過程被稱為學(xué)習(xí)空間的超參數(shù)化。如此一來,學(xué)習(xí)方法便可以表示為4個無窮序列,或進而將無窮維序列有限維截斷,近似表示為4個有窮序列。這樣參數(shù)化后,一個學(xué)習(xí)方法便可被描述為4個有限參數(shù)序列。
學(xué)習(xí)方法論
有了以上準(zhǔn)備,我們將學(xué)習(xí)方法論定義為:從任務(wù)空間到學(xué)習(xí)空間的一個映照(可記為LM)。更具體地,給定一個任務(wù)T,LM(T)是在學(xué)習(xí)空間的一個取值,它由4元組描述,對應(yīng)數(shù)據(jù)產(chǎn)生方法、假設(shè)空間/機器架構(gòu)、損失度量和優(yōu)化算法的參數(shù)化表示。這就是學(xué)習(xí)方法論。學(xué)習(xí)方法論本質(zhì)上是函數(shù)空間上的一個映射,是參數(shù)的一個賦值規(guī)則。顯然,SLeM是函數(shù)空間上的函數(shù)逼近問題。
融合SLeM的問題求解過程如圖7所示。

不同于傳統(tǒng)的機器學(xué)習(xí)過程(給定數(shù)據(jù)、機器架構(gòu),選擇一個優(yōu)化算法去求解,得到?jīng)Q策函數(shù)),基于SLeM求解問題,是在傳統(tǒng)的機器學(xué)習(xí)之前增加了一步方法論學(xué)習(xí),然后根據(jù)方法論學(xué)習(xí)機設(shè)計的方法去執(zhí)行機器學(xué)習(xí)任務(wù)。因此,它是從任務(wù)出發(fā),先產(chǎn)生方法,再執(zhí)行任務(wù),是一個典型的兩階段任務(wù)求解過程。
基于元數(shù)據(jù)的SLeM計算模型
SLeM可以描述成函數(shù)空間上的一個標(biāo)準(zhǔn)機器學(xué)習(xí)問題。但這種模型只有理論上的意義。然而,如果我們給出一些假設(shè),就能將這樣的機器學(xué)習(xí)模型變成一個計算機可操作的模型。例如,如果假設(shè)學(xué)習(xí)方法論的好壞可以通過一組元數(shù)據(jù)來評判(類似于通過學(xué)生的考試成績度量老師的教學(xué)表現(xiàn), 這里元數(shù)據(jù)可以類比為檢驗學(xué)生成績的一組標(biāo)準(zhǔn)考題),則SLeM模型可變成一個可操作的兩階段優(yōu)化模型,它們能夠非常方便的用計算機處理。進而,如果把度量方法論優(yōu)劣的元數(shù)據(jù)換成元知識,即基于規(guī)則來評判方法論,則可以獲得另一類型的雙層優(yōu)化SLeM模型,即基于元知識的SLeM模型。總之,基于對方法論的不同評價標(biāo)準(zhǔn),可獲得不同的SLeM計算模型。
SLeM框架與其他框架的比較
基于SLeM的一般問題求解是從任務(wù)出發(fā),根據(jù)任務(wù)產(chǎn)生方法,然后再去完成任務(wù)。整個求解過程可以分為“方法學(xué)習(xí)”和“任務(wù)學(xué)習(xí)”兩個階段。顯然,這和現(xiàn)在的機器學(xué)習(xí)不同,這兩者泛化的目標(biāo)不一樣,輸入、結(jié)構(gòu)、模型也都不一樣。SLeM框架與元學(xué)習(xí)也非常不一樣,元學(xué)習(xí)包括很多演化過程,但總體上都是啟發(fā)式的,還沒有明確的數(shù)學(xué)模型。
SLeM應(yīng)用舉例
遷移學(xué)習(xí)理論
我們首先應(yīng)用SLeM理論解決遷移學(xué)習(xí)的度量問題。我們知道, 人工智能的目標(biāo)是遷移學(xué)習(xí),但是目前的遷移學(xué)習(xí)一直沒有很好的理論支撐。利用SLeM理論,我們可以證明:從完成一些任務(wù)中學(xué)到的知識能不能遷移,取決于三個基本要素。一是我們過去是否見過這個任務(wù),即任務(wù)的相關(guān)性。二是任務(wù)機和學(xué)習(xí)機的空間復(fù)雜性。三是我們用于度量方法論的元數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的一致性。這三條要素的發(fā)現(xiàn)說明了遷移學(xué)習(xí)理論構(gòu)建的可能性。
機器學(xué)習(xí)自動化
接下來展示如何用SLeM理論解決機器學(xué)習(xí)自動化的問題。首先要考慮數(shù)據(jù)自動化:通過給每一個數(shù)據(jù)賦權(quán)的方法來參數(shù)化,運用SLeM模型自動地從大量數(shù)據(jù)中選擇適用于網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)(即數(shù)據(jù)自選擇)。我們提出了一個名為Class-aware Meta-Weight-Net的方法論學(xué)習(xí)機。應(yīng)用展示,基于SLeM選擇后的數(shù)據(jù)學(xué)習(xí)效果遠遠優(yōu)于不選擇、人工選擇或隨機選擇數(shù)據(jù)集的學(xué)習(xí)效果,并且基于SLeM的方法對非均衡、高噪音數(shù)據(jù)集可用。該方法在粵港澳大灣區(qū)算法大賽(2022)中獲得冠軍。SLeM也被用來做標(biāo)簽的自矯正,即對標(biāo)記錯誤的數(shù)據(jù)進行自動校正,從而解決半監(jiān)督學(xué)習(xí)所得的標(biāo)簽的校正問題。關(guān)于網(wǎng)絡(luò)自動化方面,我們嘗試了在深度學(xué)習(xí)中自動嵌入變換問題,取得到非常好的效果。利用SLeM理論也可以進行度量自動化學(xué)習(xí),換句話說,就是自適應(yīng)設(shè)定與任務(wù)相關(guān)的損失度量。我們提出了一個Meta Loss Adjuster方法論學(xué)習(xí)網(wǎng)絡(luò),取得了不錯的學(xué)習(xí)效果。最后我們將SLeM用于算法自動化,特別地,應(yīng)用SLeM學(xué)習(xí)如何自動設(shè)置BP算法的學(xué)習(xí)率。為此,我們設(shè)計了一個稱作Meta-LR-Schedule-Net的方法論網(wǎng)絡(luò)。測試表明,耦合Meta-LR-Schedule-Net的深度學(xué)習(xí)平均提高深度學(xué)習(xí)泛化性能4%左右。
總的來說,通過構(gòu)建SLeM方法機,可以學(xué)習(xí)具有明確物理意義的超參賦值學(xué)習(xí)方法,實現(xiàn)面向不同任務(wù)的機器學(xué)習(xí)自動化任務(wù)。筆者團隊已將所有研究成果公開在開源平臺上,參見https://github.com/xjtushujun/Auto-6ML。
總結(jié)與展望
人工智能的當(dāng)前應(yīng)用仍以“帶先驗假設(shè)的機器學(xué)習(xí)”和人工化為特征,下一步發(fā)展必然會以“實現(xiàn)機器學(xué)習(xí)自動化”為追求,這是機器學(xué)習(xí)發(fā)展的根本問題。實現(xiàn)機器學(xué)習(xí)自動化要求對數(shù)據(jù)、網(wǎng)絡(luò)、損失、算法、任務(wù)等要素進行設(shè)計和調(diào)控。實現(xiàn)這一目標(biāo)要求“任務(wù)到方法的映射”,即學(xué)習(xí)方法論的學(xué)習(xí)(SLeM),現(xiàn)有研究/方法尚不能支持這一目標(biāo)的實現(xiàn)。筆者團隊提出了SLeM的數(shù)學(xué)框架、嚴(yán)格定義、數(shù)學(xué)模型、一般算法,展示了如何用SLeM方法解決機器學(xué)習(xí)自動化問題。SLeM為機器學(xué)習(xí)自動化研究提供了一個形式化/模型化/科學(xué)化的研究框架和途徑。已有應(yīng)用表明SLeM是一個強大而有效的工具。應(yīng)用SLeM的關(guān)鍵在學(xué)習(xí)空間的超參數(shù)化方案和方法學(xué)習(xí)機的設(shè)計上。另外,元數(shù)據(jù)集的選擇是決定SLeM效果的關(guān)鍵要素。SLeM正在快速發(fā)展中,我們期待它的持續(xù)深化、拓廣和工具化。
(本文根據(jù)CNCC2022特邀報告整理而成)
作者:

徐宗本
西安交通大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院教授。中國科學(xué)院院士。主要研究方向為智能信息處理、機器學(xué)習(xí)、數(shù)據(jù)建?;A(chǔ)理論。
zbxu@mail.xjtu.edu.cn
整理:
劉克彬?
CCF專業(yè)會員。清華大學(xué)副研究員。主要研究方向為物聯(lián)網(wǎng)和普適計算。
kebinliu2021@mail.tsinghua.edu.cn
朱追
CCF學(xué)生會員。清華大學(xué)自動化系博士研究生。主要研究方向為邊緣智能與物聯(lián)網(wǎng)。
z-zhu22@mails.tsinghua.edu.cn
編輯:黃飛
?
電子發(fā)燒友App




評論