本文討論了五個(gè)主要的先驗(yàn)假設(shè)以及如何突破這些假設(shè)限制并進(jìn)一步提升機(jī)器學(xué)習(xí)效果的方法。在此基礎(chǔ)上我們提出了機(jī)器學(xué)習(xí)自動(dòng)化的概念以及SLeM框架。SLeM為機(jī)器學(xué)習(xí)自動(dòng)化研究提供了一個(gè)形式化/模型化/科學(xué)化的研究框架和途徑。現(xiàn)有應(yīng)用表明SLeM是一個(gè)強(qiáng)大而有效的工具,同時(shí)它也處于快速持續(xù)的發(fā)展過(guò)程中。
以深度學(xué)習(xí)為代表的人工智能已經(jīng)突破了從“不能用”到“可以用”的技術(shù)拐點(diǎn),但是從“可以用”到“很好用”,還有很長(zhǎng)的路要走。人工智能最核心的技術(shù)是機(jī)器學(xué)習(xí),即從給定的數(shù)據(jù)集中總結(jié)規(guī)律或?qū)で蟊碚鳎梢愿爬閳D1所示的公式。
這個(gè)模型概括了機(jī)器學(xué)習(xí)解決問(wèn)題的一般步驟:首先我們需要選擇一個(gè)較大范圍的、可能包含數(shù)據(jù)規(guī)律或表示函數(shù)的假設(shè)空間,然后指定一個(gè)損失度量,在該度量下,我們?cè)诩僭O(shè)空間中找一個(gè)函數(shù),它能夠?qū)⒑瘮?shù)在給定數(shù)據(jù)集上的平均損失極小化。極小化數(shù)據(jù)集上的平均損失這一目標(biāo)被稱為“數(shù)據(jù)擬合項(xiàng)”,相應(yīng)的方法即為經(jīng)驗(yàn)風(fēng)險(xiǎn)極小化。然而,僅通過(guò)極小化數(shù)據(jù)擬合項(xiàng)來(lái)尋找解常常是不適定的,因而必須添加某些額外的約束,新增加的希望滿足的這些約束構(gòu)成“正則項(xiàng)”。極小化數(shù)據(jù)擬合項(xiàng)與正則項(xiàng)之和被稱為“正則化方法”,它構(gòu)成了機(jī)器學(xué)習(xí)的最基本模型。
機(jī)器學(xué)習(xí)有先驗(yàn)假設(shè)
使用機(jī)器學(xué)習(xí)時(shí),我們總是自覺(jué)或不自覺(jué)地施加一些假設(shè),例如:
損失度量的獨(dú)立性假設(shè)。我們總是習(xí)慣使用像最小二乘或者交叉熵這樣確定的度量作為損失,而不把損失度量的選擇與我們要解決的具體問(wèn)題關(guān)聯(lián)起來(lái),更沒(méi)有依據(jù)面臨的問(wèn)題自適應(yīng)地確定最優(yōu)的損失度量。
假設(shè)空間的大容量假設(shè)。我們總是自然地認(rèn)為,我們選擇使用的機(jī)器架構(gòu)(例如用一個(gè)20層的深度學(xué)習(xí)架構(gòu))已經(jīng)包含我們期望找到的解,或者說(shuō),已經(jīng)包含數(shù)據(jù)所蘊(yùn)含的規(guī)律。這個(gè)假設(shè)顯然是保證機(jī)器學(xué)習(xí)成功的前提。我們通常都很自信:我們選的架構(gòu)是合理的,是包含所要找的解的。
訓(xùn)練數(shù)據(jù)的完備性假設(shè)。我們使用機(jī)器學(xué)習(xí)時(shí),總期望訓(xùn)練機(jī)器的數(shù)據(jù)是非常充分的、足夠多的、高質(zhì)量的。這個(gè)假定常常是我們選擇機(jī)器學(xué)習(xí)方法的前提和原由。
正則子的先驗(yàn)決定論假設(shè)。為了使機(jī)器學(xué)習(xí)產(chǎn)生的決策函數(shù)有期望的性質(zhì),施加一定的正則約束是必須的。例如我們已習(xí)慣于使用L2正則保證光滑性,使用L1正則保證稀疏性,使用TV正則保持圖像邊緣稀疏性,等等。人們一般認(rèn)為,正則項(xiàng)的形式是由先驗(yàn)決定的,我們?cè)谑褂脵C(jī)器學(xué)習(xí)時(shí),能夠根據(jù)先驗(yàn)事先加以確定。這個(gè)假定的本質(zhì)是,我們已經(jīng)能夠?qū)?wèn)題的先驗(yàn)抽象出知識(shí),而且能夠正確地以“正則子”形式建模。之所以把這一認(rèn)識(shí)叫作假設(shè),是因?yàn)槲覀兤鋵?shí)并不知道應(yīng)用中所選擇的正則子是否已經(jīng)正確地對(duì)先驗(yàn)進(jìn)行了建模。
分析框架的歐氏假設(shè)。當(dāng)我們訓(xùn)練深度網(wǎng)絡(luò)架構(gòu)時(shí),會(huì)自然地選擇使用BP或ADAM這樣類型的優(yōu)化算法。為什么?這是因?yàn)檫@些算法都經(jīng)過(guò)了嚴(yán)格的理論評(píng)判(收斂性、穩(wěn)定性、復(fù)雜性等)。評(píng)判算法即把算法放在一個(gè)特定的數(shù)學(xué)框架內(nèi)進(jìn)行分析而得出結(jié)論的活動(dòng)。我們通常把評(píng)判算法放在可使用二范數(shù)、正交性這樣的歐氏框架中。這樣的假設(shè)本質(zhì)上限定了可用算法的類型和可用機(jī)器的架構(gòu)(損失函數(shù)、正則項(xiàng)等)。在這樣的假設(shè)下,我們并不能處理和敢于使用更復(fù)雜的非歐氏空間算法和機(jī)器學(xué)習(xí)架構(gòu)。
這5個(gè)假設(shè)相當(dāng)大程度上決定了機(jī)器學(xué)習(xí)的效能。
如何突破機(jī)器學(xué)習(xí)的先驗(yàn)假設(shè)
已有大量工作聚焦于如何突破機(jī)器學(xué)習(xí)的這些假設(shè)。以下是筆者團(tuán)隊(duì)近年來(lái)在這方面的一些代表性工作。
關(guān)于分析框架歐氏假設(shè)
我們認(rèn)為,歐氏空間之所以被廣泛使用,根本原因是我們?cè)谒惴ǚ治鲋心軌蚴褂脷W式架構(gòu)(a+b)2=a2+b2 +2ab,在這樣的架構(gòu)下,任何一個(gè)算法的性能(如收斂性)都和目標(biāo)函數(shù)的凸性發(fā)生聯(lián)系。因此,要沖破目標(biāo)函數(shù)的凸性假設(shè),本質(zhì)上就是要沖破歐氏假設(shè)。筆者1989年及1991年的工作打開了用非歐氏架構(gòu)工具研究非歐氏算法的可能性,近年來(lái)這些工具得到廣泛應(yīng)用。從這些研究中可看出,沖破歐氏假設(shè)的途徑在于應(yīng)用Banach空間幾何學(xué)。
關(guān)于損失獨(dú)立性假設(shè)
損失有兩個(gè)功能,一是度量選定的函數(shù)在給定數(shù)據(jù)/數(shù)據(jù)集上的擬合程度,二是度量一個(gè)函數(shù)表示的精度。盡管在有導(dǎo)師學(xué)習(xí)和無(wú)導(dǎo)師學(xué)習(xí)模式下,它們可能有著不同的表現(xiàn)形式,但它的選擇本質(zhì)上都應(yīng)該是與問(wèn)題相關(guān)的。事實(shí)上,如果我們把問(wèn)題的標(biāo)簽和特征用式(1)描述的觀察模型來(lái)理解,
y=fθ(x)+e????????????????(1)
那么,標(biāo)簽由一個(gè)固定的規(guī)律加上一個(gè)噪聲得到,這個(gè)噪聲就是數(shù)據(jù)獲取的環(huán)境。根據(jù)概率公式,我們很容易看到,最好標(biāo)簽出現(xiàn)的概率完全由它的誤差環(huán)境決定。這給我們一個(gè)很重要的啟示:機(jī)器學(xué)習(xí)的最佳度量應(yīng)該由誤差決定。我們通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),如果假定誤差是白噪聲,那么最優(yōu)的恢復(fù)度量確實(shí)是最小二乘。但如果噪聲是其他類型,最優(yōu)恢復(fù)度量就不再是最小二乘了。
給定一個(gè)具體的誤差分布形式,我們能確定出一個(gè)特定的最佳恢復(fù)度量,這樣的方法稱為誤差建模原理。對(duì)于任何機(jī)器學(xué)習(xí)問(wèn)題,通過(guò)研究它生成的誤差形式,就能獲得一定意義下最優(yōu)的損失度量,而在該度量下找到機(jī)器學(xué)習(xí)的經(jīng)驗(yàn)函數(shù)才是最好的。筆者團(tuán)隊(duì)已有很多成功應(yīng)用誤差建模原理的案例,最典型的是根據(jù)這一原理成功研發(fā)微劑量CT,實(shí)現(xiàn)了將CT幅射劑量降低到微劑量水平。
一般來(lái)說(shuō),我們并不知道要解決的問(wèn)題處于一個(gè)什么樣的誤差環(huán)境,這種情況下,我們可以運(yùn)用高斯混合來(lái)逼近。事實(shí)上,任何一個(gè)分式函數(shù)都能以多個(gè)高斯分布函數(shù)之和來(lái)逼近。據(jù)此,我們證明,不同的高斯混合導(dǎo)致不同加權(quán)的“加權(quán)最小二乘”最優(yōu)度量。這給出一個(gè)非常有用的提示:當(dāng)我們不知道誤差的真正形式時(shí),加權(quán)最小二乘是一個(gè)不錯(cuò)的選擇。
關(guān)于假設(shè)空間的大容量假設(shè)
如何設(shè)計(jì)一個(gè)機(jī)器架構(gòu)使希望找到的問(wèn)題解確在其中?我們提出了一個(gè)非?;A(chǔ)的方法:先構(gòu)建一個(gè)含大量超參數(shù)的粗糙模型(叫模型族)來(lái)刻畫問(wèn)題解的范圍,然后求解“模型族”構(gòu)成解決問(wèn)題的“算法族”,再把“算法族”自適應(yīng)化展開成一個(gè)深度網(wǎng)絡(luò)架構(gòu),它的參數(shù)包含模型簇和算法簇中的所有參數(shù)并且允許每個(gè)迭代步不同;最后應(yīng)用數(shù)據(jù)來(lái)訓(xùn)練這樣形成的網(wǎng)絡(luò)產(chǎn)生問(wèn)題的解。這樣的一般化方法稱為模型驅(qū)動(dòng)的深度學(xué)習(xí)。模型驅(qū)動(dòng)的深度學(xué)習(xí)表面上看是解決深度學(xué)習(xí)的架構(gòu)設(shè)計(jì)問(wèn)題,但本質(zhì)上是在深度學(xué)習(xí)過(guò)程中逐步設(shè)置包含解的最小假設(shè)空間來(lái)突破假設(shè)空間的大容量假設(shè)。這一方法不同于傳統(tǒng)的數(shù)學(xué)建模方法(要求精確建模),前者只要求對(duì)問(wèn)題解的整體范圍進(jìn)行刻畫;它也不同于傳統(tǒng)的深度學(xué)習(xí)(沒(méi)有融入物理機(jī)制),模型驅(qū)動(dòng)的深度學(xué)習(xí)具有明確的物理機(jī)制解釋和嚴(yán)密的數(shù)學(xué)基礎(chǔ)。由此回避了深度學(xué)習(xí)架構(gòu)設(shè)計(jì)難的問(wèn)題,從而使機(jī)器學(xué)習(xí)架構(gòu)能夠在理論指導(dǎo)及可解釋的意義下進(jìn)行設(shè)計(jì),如圖2所示。
筆者團(tuán)隊(duì)2018年在《國(guó)家科學(xué)評(píng)論》(NSR)上正式提出了這一方法。使用這一方法,筆者團(tuán)隊(duì)提出了大家熟知的ADMM CS-Net深度學(xué)習(xí)架構(gòu)。該架構(gòu)是實(shí)現(xiàn)壓縮感知的一個(gè)普遍有效的深度學(xué)習(xí)模型,已經(jīng)得到普遍應(yīng)用,并被認(rèn)為是一個(gè)開創(chuàng)性的、奠基性的網(wǎng)絡(luò)。它的重要意義是在最優(yōu)化理論和深度學(xué)習(xí)網(wǎng)絡(luò)設(shè)計(jì)之間搭建起一座橋梁,尤其是它能夠比傳統(tǒng)的壓縮感知模型、正則化方法更好地處理稀疏性問(wèn)題。
關(guān)于正則子先驗(yàn)決定論假設(shè)
突破正則先驗(yàn)假設(shè)是非常困難的,因?yàn)闊o(wú)論怎么選擇, 也很能保證所選的正則項(xiàng)能真實(shí)地反映先驗(yàn)。我們分析認(rèn)為,問(wèn)題的困難性出在“正則化方法是在知識(shí)層面建模先驗(yàn)”上,要擺脫困境,出路是直接從數(shù)據(jù)中學(xué)習(xí)先險(xiǎn)。為此,我們提出并建立了一個(gè)稱為“隱正則化理論”的方法。我們證明:正則化問(wèn)題的解在一定條件下能夠等價(jià)于一個(gè)含近點(diǎn)投影算子的不動(dòng)點(diǎn)方程,從而可自然地迭代求解并展開成一個(gè)模型驅(qū)動(dòng)的深度學(xué)習(xí)網(wǎng)絡(luò),而近點(diǎn)投影算子與正則項(xiàng)是能夠惟一相互決定的。這樣,代替設(shè)置正則項(xiàng),我們可以通過(guò)數(shù)據(jù)學(xué)習(xí)近點(diǎn)投影算子,從而起到與正則化方法一樣的效果。值得注意的是,設(shè)定正則項(xiàng)是利用先驗(yàn)知識(shí),而隱正則化是從數(shù)據(jù)中抽取知識(shí),融入學(xué)習(xí)過(guò)程,因此在原理上具有重要的意義。
關(guān)于數(shù)據(jù)完備性假設(shè)
數(shù)據(jù)的完備性和高質(zhì)量是保證機(jī)器學(xué)習(xí)效果的關(guān)鍵。課程學(xué)習(xí)的想法能夠把學(xué)習(xí)過(guò)程與人類受教育的過(guò)程類比,從而以“先易后難”分步處理的方式應(yīng)對(duì)不完備的數(shù)據(jù)(正如小學(xué)生先學(xué)簡(jiǎn)單的內(nèi)容再學(xué)更難的內(nèi)容一樣)。過(guò)去十余年,筆者團(tuán)隊(duì)完整建立了“課程自步學(xué)習(xí)”的理論與算法體系,將類課程學(xué)習(xí)標(biāo)準(zhǔn)化成一個(gè)十分有效的處理不完備數(shù)據(jù)的機(jī)器學(xué)習(xí)方法。
總的來(lái)說(shuō),我們過(guò)去多年的工作是發(fā)展一些科學(xué)原理,希望在這些原理指導(dǎo)下,機(jī)器學(xué)習(xí)的先驗(yàn)假設(shè)能得以突破。我們的工作主要是:利用Banach幾何工具來(lái)突破分析的歐氏假設(shè),利用誤差建模原理來(lái)突破損失的獨(dú)立性假設(shè),利用模型驅(qū)動(dòng)的深度學(xué)習(xí)方式來(lái)突破假設(shè)空間的大容量假設(shè),利用隱正則化方法來(lái)突破正則先驗(yàn)假設(shè),利用課程自步學(xué)習(xí)來(lái)突破數(shù)據(jù)的完備性假設(shè)(見(jiàn)圖3)。所有這些工作都被證明是很有效的。
機(jī)器學(xué)習(xí)要實(shí)現(xiàn)自動(dòng)化
機(jī)器學(xué)習(xí)的當(dāng)前發(fā)展基本上仍處于“人工”階段:在數(shù)據(jù)層面,仍需要人工收集數(shù)據(jù)、標(biāo)注數(shù)據(jù),且需要人工決定哪些數(shù)據(jù)用作訓(xùn)練,哪些數(shù)據(jù)用作測(cè)試;在模型和算法層面,人們還大都只是從已知的模型和算法中選擇一個(gè)架構(gòu)和算法,基本上處于被動(dòng)選擇狀態(tài);在應(yīng)用層面,我們還是一個(gè)任務(wù)一個(gè)模型,做不到任務(wù)自切換、環(huán)境自適應(yīng)。顯然,要想把人工智能從“人工化”推向“自主化”,中間必須要邁過(guò)一個(gè)關(guān)口,即機(jī)器學(xué)習(xí)要“自動(dòng)化”,其過(guò)程如圖4所示。
我們認(rèn)為,機(jī)器學(xué)習(xí)自動(dòng)化首先要至少實(shí)現(xiàn)六個(gè)方面的自動(dòng)化。一是數(shù)據(jù)自動(dòng)化 :實(shí)現(xiàn)數(shù)據(jù)的自生成、自選擇。要根據(jù)目標(biāo)任務(wù)需要或少量元數(shù)據(jù)(標(biāo)準(zhǔn)、高質(zhì)量數(shù)據(jù))的引導(dǎo),實(shí)現(xiàn)訓(xùn)練數(shù)據(jù)的自動(dòng)生成,以及從海量非高質(zhì)量數(shù)據(jù)中自動(dòng)選擇可供學(xué)習(xí)的樣本;二是架構(gòu)/算法自動(dòng)化 :實(shí)現(xiàn)網(wǎng)絡(luò)架構(gòu)自構(gòu)建和訓(xùn)練算法自設(shè)計(jì)。要能根據(jù)目標(biāo)任務(wù)自動(dòng)解析完成任務(wù)所需的“功能塊”,并以最優(yōu)方式加以組裝(以盡可能簡(jiǎn)約,甚至極簡(jiǎn)的方式)形成所需的深度網(wǎng)絡(luò)架構(gòu);三是應(yīng)用/更新自動(dòng)化 :要實(shí)現(xiàn)損失度量隨問(wèn)題(數(shù)據(jù))的自適應(yīng)設(shè)定和正則項(xiàng)的自適應(yīng)設(shè)定,實(shí)現(xiàn)網(wǎng)絡(luò)訓(xùn)練算法的自適應(yīng)構(gòu)建和選擇;實(shí)現(xiàn)任務(wù)自切換和環(huán)境自適應(yīng)。要實(shí)現(xiàn)一個(gè)架構(gòu)完成多項(xiàng)任務(wù)、自動(dòng)切換的機(jī)器學(xué)習(xí), 要能夠持續(xù)學(xué)習(xí)、自主進(jìn)化、自適應(yīng)地去完成新任務(wù)。
我們把能實(shí)現(xiàn)上述六個(gè)“自動(dòng)化”目標(biāo)的機(jī)器學(xué)習(xí)稱為“自動(dòng)化機(jī)器學(xué)習(xí)”。顯然,我們現(xiàn)在仍處于機(jī)器學(xué)習(xí)的人工化階段,但正在走向自動(dòng)化、自主化階段。應(yīng)該高度認(rèn)識(shí)實(shí)現(xiàn)機(jī)器學(xué)習(xí)自動(dòng)化的重大意義與價(jià)值,筆者認(rèn)為,它既是實(shí)現(xiàn)自主智能的必經(jīng)之路,也是推動(dòng)人工智能發(fā)展、應(yīng)用的現(xiàn)實(shí)需求。
如何實(shí)現(xiàn)機(jī)器學(xué)習(xí)自動(dòng)化:SLeM框架
如何實(shí)現(xiàn)機(jī)器學(xué)習(xí)自動(dòng)化?表面上看,它涉及機(jī)器學(xué)習(xí)的各個(gè)要素(例如:假設(shè)空間、損失函數(shù)、正則項(xiàng)、學(xué)習(xí)算法等)的設(shè)計(jì)問(wèn)題,但本質(zhì)上涉及的是學(xué)習(xí)方法論的學(xué)習(xí)問(wèn)題。這里提出一種模擬學(xué)習(xí)方法論(Simulate Learning Methodology,SLeM)的框架,如圖5所示,并闡述如何通過(guò)SLeM來(lái)實(shí)現(xiàn)機(jī)器學(xué)習(xí)自動(dòng)化。
學(xué)習(xí)方法論是指導(dǎo)、管理學(xué)習(xí)者如何去學(xué)習(xí)的一般原則與方法學(xué)。為建立SLeM框架,我們需要先嚴(yán)格地從數(shù)學(xué)上定義學(xué)習(xí)任務(wù)、學(xué)習(xí)方法、學(xué)習(xí)方法論等概念。
學(xué)習(xí)任務(wù)
學(xué)習(xí)的目的是對(duì)可觀測(cè)的現(xiàn)實(shí)世界規(guī)律作總結(jié)和刻畫。我們認(rèn)為,一個(gè)現(xiàn)實(shí)世界的規(guī)律可以用一個(gè)隨機(jī)變量來(lái)描述,或等價(jià)地,由一個(gè)分布函數(shù)(密度函數(shù))來(lái)描述。一個(gè)隨機(jī)變量(現(xiàn)實(shí)世界規(guī)律)在不同時(shí)空的抽樣即表現(xiàn)為不同時(shí)空反映同一規(guī)律的數(shù)據(jù)(這些構(gòu)成通常機(jī)器學(xué)習(xí)研究的對(duì)象)。從數(shù)據(jù)中學(xué)習(xí),可以表現(xiàn)為分類、回歸、降維、隱變量識(shí)別等具體任務(wù),但本質(zhì)上是學(xué)習(xí)數(shù)據(jù)背后的分布(只要知道了分布,所有具體任務(wù)都能通過(guò)分布函數(shù)表示出來(lái))。因此,學(xué)習(xí)任務(wù)宜定義作統(tǒng)計(jì)上的“密度估計(jì)問(wèn)題”,即根據(jù)給定的數(shù)據(jù),確定數(shù)據(jù)背后的隨機(jī)變量分布(密度函數(shù))問(wèn)題。學(xué)習(xí)的本質(zhì)是對(duì)一個(gè)可觀測(cè)的現(xiàn)實(shí)世界規(guī)律作總結(jié)和刻畫。
學(xué)習(xí)方法
依據(jù)前文對(duì)機(jī)器學(xué)習(xí)要素的分析,只要指定一組特定的“數(shù)據(jù)產(chǎn)生方法、假設(shè)空間/機(jī)器架構(gòu)、損失度量、優(yōu)化算法”,就可以認(rèn)為定義了一個(gè)學(xué)習(xí)方法。由此,我們定義一個(gè)學(xué)習(xí)方法是對(duì)學(xué)習(xí)空間的一組指定K=(D, f, L, A),其中D是數(shù)據(jù)生成方法,f是機(jī)器架構(gòu),L是損失度量,A是一個(gè)可用以訓(xùn)練的優(yōu)化算法。這里學(xué)習(xí)空間K自然定義為分布函數(shù)空間、假設(shè)空間、損失函數(shù)空間、優(yōu)化算法空間的乘積,如圖6所示。
學(xué)習(xí)空間K顯然是無(wú)窮維的。但如果我們假設(shè):K的每一因子空間都存在可數(shù)基底(應(yīng)用中自然滿足,例如,不同均值與方差的高斯分布構(gòu)成分布函數(shù)空間的可數(shù)基底),則學(xué)習(xí)空間K便可以序列化(即同構(gòu)于序列空間),即對(duì)應(yīng)地能用4個(gè)無(wú)窮序列來(lái)描述。這個(gè)過(guò)程被稱為學(xué)習(xí)空間的超參數(shù)化。如此一來(lái),學(xué)習(xí)方法便可以表示為4個(gè)無(wú)窮序列,或進(jìn)而將無(wú)窮維序列有限維截?cái)?,近似表示?個(gè)有窮序列。這樣參數(shù)化后,一個(gè)學(xué)習(xí)方法便可被描述為4個(gè)有限參數(shù)序列。
學(xué)習(xí)方法論
有了以上準(zhǔn)備,我們將學(xué)習(xí)方法論定義為:從任務(wù)空間到學(xué)習(xí)空間的一個(gè)映照(可記為L(zhǎng)M)。更具體地,給定一個(gè)任務(wù)T,LM(T)是在學(xué)習(xí)空間的一個(gè)取值,它由4元組描述,對(duì)應(yīng)數(shù)據(jù)產(chǎn)生方法、假設(shè)空間/機(jī)器架構(gòu)、損失度量和優(yōu)化算法的參數(shù)化表示。這就是學(xué)習(xí)方法論。學(xué)習(xí)方法論本質(zhì)上是函數(shù)空間上的一個(gè)映射,是參數(shù)的一個(gè)賦值規(guī)則。顯然,SLeM是函數(shù)空間上的函數(shù)逼近問(wèn)題。
融合SLeM的問(wèn)題求解過(guò)程如圖7所示。
不同于傳統(tǒng)的機(jī)器學(xué)習(xí)過(guò)程(給定數(shù)據(jù)、機(jī)器架構(gòu),選擇一個(gè)優(yōu)化算法去求解,得到?jīng)Q策函數(shù)),基于SLeM求解問(wèn)題,是在傳統(tǒng)的機(jī)器學(xué)習(xí)之前增加了一步方法論學(xué)習(xí),然后根據(jù)方法論學(xué)習(xí)機(jī)設(shè)計(jì)的方法去執(zhí)行機(jī)器學(xué)習(xí)任務(wù)。因此,它是從任務(wù)出發(fā),先產(chǎn)生方法,再執(zhí)行任務(wù),是一個(gè)典型的兩階段任務(wù)求解過(guò)程。
基于元數(shù)據(jù)的SLeM計(jì)算模型
SLeM可以描述成函數(shù)空間上的一個(gè)標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)問(wèn)題。但這種模型只有理論上的意義。然而,如果我們給出一些假設(shè),就能將這樣的機(jī)器學(xué)習(xí)模型變成一個(gè)計(jì)算機(jī)可操作的模型。例如,如果假設(shè)學(xué)習(xí)方法論的好壞可以通過(guò)一組元數(shù)據(jù)來(lái)評(píng)判(類似于通過(guò)學(xué)生的考試成績(jī)度量老師的教學(xué)表現(xiàn), 這里元數(shù)據(jù)可以類比為檢驗(yàn)學(xué)生成績(jī)的一組標(biāo)準(zhǔn)考題),則SLeM模型可變成一個(gè)可操作的兩階段優(yōu)化模型,它們能夠非常方便的用計(jì)算機(jī)處理。進(jìn)而,如果把度量方法論優(yōu)劣的元數(shù)據(jù)換成元知識(shí),即基于規(guī)則來(lái)評(píng)判方法論,則可以獲得另一類型的雙層優(yōu)化SLeM模型,即基于元知識(shí)的SLeM模型。總之,基于對(duì)方法論的不同評(píng)價(jià)標(biāo)準(zhǔn),可獲得不同的SLeM計(jì)算模型。
SLeM框架與其他框架的比較
基于SLeM的一般問(wèn)題求解是從任務(wù)出發(fā),根據(jù)任務(wù)產(chǎn)生方法,然后再去完成任務(wù)。整個(gè)求解過(guò)程可以分為“方法學(xué)習(xí)”和“任務(wù)學(xué)習(xí)”兩個(gè)階段。顯然,這和現(xiàn)在的機(jī)器學(xué)習(xí)不同,這兩者泛化的目標(biāo)不一樣,輸入、結(jié)構(gòu)、模型也都不一樣。SLeM框架與元學(xué)習(xí)也非常不一樣,元學(xué)習(xí)包括很多演化過(guò)程,但總體上都是啟發(fā)式的,還沒(méi)有明確的數(shù)學(xué)模型。
SLeM應(yīng)用舉例
遷移學(xué)習(xí)理論
我們首先應(yīng)用SLeM理論解決遷移學(xué)習(xí)的度量問(wèn)題。我們知道, 人工智能的目標(biāo)是遷移學(xué)習(xí),但是目前的遷移學(xué)習(xí)一直沒(méi)有很好的理論支撐。利用SLeM理論,我們可以證明:從完成一些任務(wù)中學(xué)到的知識(shí)能不能遷移,取決于三個(gè)基本要素。一是我們過(guò)去是否見(jiàn)過(guò)這個(gè)任務(wù),即任務(wù)的相關(guān)性。二是任務(wù)機(jī)和學(xué)習(xí)機(jī)的空間復(fù)雜性。三是我們用于度量方法論的元數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的一致性。這三條要素的發(fā)現(xiàn)說(shuō)明了遷移學(xué)習(xí)理論構(gòu)建的可能性。
機(jī)器學(xué)習(xí)自動(dòng)化
接下來(lái)展示如何用SLeM理論解決機(jī)器學(xué)習(xí)自動(dòng)化的問(wèn)題。首先要考慮數(shù)據(jù)自動(dòng)化:通過(guò)給每一個(gè)數(shù)據(jù)賦權(quán)的方法來(lái)參數(shù)化,運(yùn)用SLeM模型自動(dòng)地從大量數(shù)據(jù)中選擇適用于網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)(即數(shù)據(jù)自選擇)。我們提出了一個(gè)名為Class-aware Meta-Weight-Net的方法論學(xué)習(xí)機(jī)。應(yīng)用展示,基于SLeM選擇后的數(shù)據(jù)學(xué)習(xí)效果遠(yuǎn)遠(yuǎn)優(yōu)于不選擇、人工選擇或隨機(jī)選擇數(shù)據(jù)集的學(xué)習(xí)效果,并且基于SLeM的方法對(duì)非均衡、高噪音數(shù)據(jù)集可用。該方法在粵港澳大灣區(qū)算法大賽(2022)中獲得冠軍。SLeM也被用來(lái)做標(biāo)簽的自矯正,即對(duì)標(biāo)記錯(cuò)誤的數(shù)據(jù)進(jìn)行自動(dòng)校正,從而解決半監(jiān)督學(xué)習(xí)所得的標(biāo)簽的校正問(wèn)題。關(guān)于網(wǎng)絡(luò)自動(dòng)化方面,我們嘗試了在深度學(xué)習(xí)中自動(dòng)嵌入變換問(wèn)題,取得到非常好的效果。利用SLeM理論也可以進(jìn)行度量自動(dòng)化學(xué)習(xí),換句話說(shuō),就是自適應(yīng)設(shè)定與任務(wù)相關(guān)的損失度量。我們提出了一個(gè)Meta Loss Adjuster方法論學(xué)習(xí)網(wǎng)絡(luò),取得了不錯(cuò)的學(xué)習(xí)效果。最后我們將SLeM用于算法自動(dòng)化,特別地,應(yīng)用SLeM學(xué)習(xí)如何自動(dòng)設(shè)置BP算法的學(xué)習(xí)率。為此,我們?cè)O(shè)計(jì)了一個(gè)稱作Meta-LR-Schedule-Net的方法論網(wǎng)絡(luò)。測(cè)試表明,耦合Meta-LR-Schedule-Net的深度學(xué)習(xí)平均提高深度學(xué)習(xí)泛化性能4%左右。
總的來(lái)說(shuō),通過(guò)構(gòu)建SLeM方法機(jī),可以學(xué)習(xí)具有明確物理意義的超參賦值學(xué)習(xí)方法,實(shí)現(xiàn)面向不同任務(wù)的機(jī)器學(xué)習(xí)自動(dòng)化任務(wù)。筆者團(tuán)隊(duì)已將所有研究成果公開在開源平臺(tái)上,參見(jiàn)https://github.com/xjtushujun/Auto-6ML。
總結(jié)與展望
人工智能的當(dāng)前應(yīng)用仍以“帶先驗(yàn)假設(shè)的機(jī)器學(xué)習(xí)”和人工化為特征,下一步發(fā)展必然會(huì)以“實(shí)現(xiàn)機(jī)器學(xué)習(xí)自動(dòng)化”為追求,這是機(jī)器學(xué)習(xí)發(fā)展的根本問(wèn)題。實(shí)現(xiàn)機(jī)器學(xué)習(xí)自動(dòng)化要求對(duì)數(shù)據(jù)、網(wǎng)絡(luò)、損失、算法、任務(wù)等要素進(jìn)行設(shè)計(jì)和調(diào)控。實(shí)現(xiàn)這一目標(biāo)要求“任務(wù)到方法的映射”,即學(xué)習(xí)方法論的學(xué)習(xí)(SLeM),現(xiàn)有研究/方法尚不能支持這一目標(biāo)的實(shí)現(xiàn)。筆者團(tuán)隊(duì)提出了SLeM的數(shù)學(xué)框架、嚴(yán)格定義、數(shù)學(xué)模型、一般算法,展示了如何用SLeM方法解決機(jī)器學(xué)習(xí)自動(dòng)化問(wèn)題。SLeM為機(jī)器學(xué)習(xí)自動(dòng)化研究提供了一個(gè)形式化/模型化/科學(xué)化的研究框架和途徑。已有應(yīng)用表明SLeM是一個(gè)強(qiáng)大而有效的工具。應(yīng)用SLeM的關(guān)鍵在學(xué)習(xí)空間的超參數(shù)化方案和方法學(xué)習(xí)機(jī)的設(shè)計(jì)上。另外,元數(shù)據(jù)集的選擇是決定SLeM效果的關(guān)鍵要素。SLeM正在快速發(fā)展中,我們期待它的持續(xù)深化、拓廣和工具化。
(本文根據(jù)CNCC2022特邀報(bào)告整理而成)
作者:
徐宗本
西安交通大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院教授。中國(guó)科學(xué)院院士。主要研究方向?yàn)?a target="_blank">智能信息處理、機(jī)器學(xué)習(xí)、數(shù)據(jù)建模基礎(chǔ)理論。
zbxu@mail.xjtu.edu.cn
整理:
劉克彬?
CCF專業(yè)會(huì)員。清華大學(xué)副研究員。主要研究方向?yàn)?a target="_blank">物聯(lián)網(wǎng)和普適計(jì)算。
kebinliu2021@mail.tsinghua.edu.cn
朱追
CCF學(xué)生會(huì)員。清華大學(xué)自動(dòng)化系博士研究生。主要研究方向?yàn)檫吘壷悄芘c物聯(lián)網(wǎng)。
z-zhu22@mails.tsinghua.edu.cn
編輯:黃飛
?
評(píng)論