聚焦 ICML—— Deep Mind 今天在 ICML 大會上發(fā)表了他們的最新研究,從人類的 IQ 測試里用來衡量抽象推理的方法中獲得靈感,探索深層神經(jīng)網(wǎng)絡(luò)的抽象推理和概括的能力。一開始看到文章的前半部分的 IQ 測試題數(shù)據(jù)集,我在凌晨十二點花了一些時間把幾個測試題做完了,但是并不是以預(yù)期中的飛速完成,然后回想體會了一下我“是如何理解題目,進而做出這些題目得到結(jié)果的”。我就很好奇這將會是如何開展的一個研究;隨著歲月的流逝,我們會不斷地遺忘知識,漸漸地還給老師了,但是我們學習新知識的能力,推理思維力也不如以前, 那這個研究的成果又會是如何呢?今天人工智能頭條也為大家介紹一下 Deep Mind 的這項最新研究:測量神經(jīng)網(wǎng)絡(luò)的抽象推理能力??吹阶詈笥X得需要練練的怕是我吧~~
神經(jīng)網(wǎng)絡(luò)是否可以學習抽象推理,還是僅僅淺顯地學習統(tǒng)計數(shù)據(jù)學習,是最近學術(shù)界辯論的主題。在本文中,受到一個著名 IQ 測試的靈感啟發(fā),我們提出一個抽象推理挑戰(zhàn)及其相應(yīng)的數(shù)據(jù)集。為了成功應(yīng)對這一挑戰(zhàn),模型必須應(yīng)對訓練和測試階段不同數(shù)據(jù)方法情況下的各種泛化情況,我們展示了即使是在訓練集和測試集的差別很小的情況下,像 ResNet 這樣的模型也難以取得很好的泛化表現(xiàn)。
為了解決這個問題,我們設(shè)計了一種用于抽象推理的新穎結(jié)構(gòu),當訓練數(shù)據(jù)和測試數(shù)據(jù)不同時,我們發(fā)現(xiàn)該模型能夠精通某些特定形式的泛化,但在其他方面能力較弱。進一步地,當訓練時模型能夠?qū)Υ鸢高M行解釋性的預(yù)測,那么我們模型的泛化能力將會得到明顯的改善。總的來說,我們介紹并探索兩種方法用于測量和促使神經(jīng)網(wǎng)絡(luò)擁有更強的抽象推理能力,而我們公開的抽象推理數(shù)據(jù)集也將促進在該領(lǐng)域進一步的研究進展。
在機器學習問題上,基于神經(jīng)網(wǎng)絡(luò)的模型已經(jīng)取得了長足而又令人印象深刻的成果,但同時其對抽象概念的推理能力的研究也是一大難題。先前的研究主要集中于解決通用學習系統(tǒng)的重要特征,而我們的最新論文提出了一種在學習機器的過程中測量抽象推理的方法,并揭示了關(guān)于泛化本質(zhì)問題的一些重要見解。
要理解為什么抽象推理對于通用人工智能如此得重要,首先了解阿基米德提出的 “famous Eureka” :即物體的體積等于所取代的水體積,他從概念層面理解體積,因此能夠推斷出其他不規(guī)則形狀物體的體積。
我們希望AI 也擁有這樣類似的能力。盡管當前的人工智能系統(tǒng)可以在復雜的戰(zhàn)略游戲中擊敗人類的世界冠軍,但它們經(jīng)常掙扎于其他一些看似簡單的任務(wù),特別是在新環(huán)境中需要發(fā)現(xiàn)并重復應(yīng)用抽象概念。例如,如果專門訓練我們系統(tǒng)只學習計算三角形,那么即便是當前最好的AI 系統(tǒng)也無法計算方形或其他先前未見過的對象。
因此,要構(gòu)建更好、更智能的系統(tǒng),了解當前神經(jīng)網(wǎng)絡(luò)處理抽象概念的方式并尋求改進的地方是非常重要的。為了實現(xiàn)這一目標,我們從人類智商測試中汲取用于測量抽象推理的靈感。
▌創(chuàng)建抽象推理數(shù)據(jù)庫
標準的人類 IQ 測試 (如上圖),通常要求測試者通過應(yīng)用他們?nèi)粘=?jīng)驗學習到的原則來解釋一些簡單感知上的視覺場景。例如,人類測試者可以通過觀察植物或建筑物的增長,或通過數(shù)學課上學習的加法運算,或通過跟蹤銀行余額帶來的累積利息,來了解 “progressions” 這個概念 (表示屬性增加、遞增的概念)。然后,他們可以在謎題中應(yīng)用這一概念,來推斷形狀的數(shù)量,大小,甚至它們的顏色強度將沿著序列增加的情況。
我們還沒有辦法能讓機器學習智能體學習到這樣的“日常體驗”,我們就無法輕易的去衡量如何它們將知識從現(xiàn)實世界轉(zhuǎn)化成視覺推理測試的能力。盡管如此,我們?nèi)匀豢梢詣?chuàng)建一個實驗設(shè)置,以便能夠充分利用人類視覺推理測試。我們要研究的是從一組受控的視覺推理問題到另一組問題上的知識轉(zhuǎn)移,而不是研究從日常生活到視覺推理問題的知識轉(zhuǎn)移 (如人類測試中那樣)。
為了實現(xiàn)這個目標,我們構(gòu)建了一個用于創(chuàng)建矩陣問題的生成器,稱之為“程序生成矩陣數(shù)據(jù)集” (Proceduralyly Generated Matrices, PGM),用于抽象推理的模型試驗。、該數(shù)據(jù)集涉及一組抽象因素并通過原始數(shù)據(jù)隨機采樣得到,這些抽象因素包括“漸進 (progressions)” 之類的關(guān)系、以及顏色大小等屬性數(shù)據(jù)。雖然該問題生成器只使用了一小部分的潛在因素,但它仍然會產(chǎn)生大量獨特的問題,以構(gòu)成豐富的矩陣數(shù)據(jù)集。
關(guān)系類型數(shù)據(jù)集 (R,元素是 r):包括 progression,XOR,OR,AND,consistent union關(guān)系等。
目標類型數(shù)據(jù)集 (O,元素是 o):包括 shape,line 類型等。
屬性類型數(shù)據(jù)集 (A,元素是 a):包括 type,color,position,number 等屬性。
接著,我們對生成器可用的因素或組合進行了約束,使生成器能夠創(chuàng)建用于模型訓練和測試的不同問題數(shù)據(jù)集,以便我們進一步測量模型推廣到測試集的泛化能力。例如,我們創(chuàng)建了一組謎題訓練集,其中只有當應(yīng)用線條顏色時才會遇到漸進 (progressions) 關(guān)系,而測試集中的情況是當應(yīng)用形狀大小時才會發(fā)現(xiàn)該關(guān)系。如果模型在該測試集上表現(xiàn)良好,即使是訓練時從未見過的數(shù)據(jù)情況下也是如此,就證明了我們的模型具有推斷和應(yīng)用抽象概念的能力。
▌抽象推理模型
在機器學習評估中所應(yīng)用的典型的泛化方案中,訓練和測試數(shù)據(jù)是服從相同的基礎(chǔ)分布采樣的,所測試的所有網(wǎng)絡(luò)都表現(xiàn)出良好的泛化誤差,其中有一些絕對性能甚至超過75%,實現(xiàn)了令人印象深刻的結(jié)果。對于性能最佳的網(wǎng)絡(luò),它不僅能夠明確地計算不同圖像面板之間的關(guān)系,還能并行地評估了每個潛在答案的適合性。我們將此網(wǎng)絡(luò)架構(gòu)稱為—— Wild Relation Network (WReN),其模型結(jié)構(gòu)示意圖如下:
WReN模型結(jié)構(gòu)
其中,每個 CNN 能夠獨立處理每個上下文面板 (panel),而每個上下文面板將用于返回一個單獨的答案并生成9個嵌入矢量。隨后,將這組得到的嵌入向量傳遞給 RN,其輸出的是單個 sigmoid 單元,用于對問題答案的關(guān)聯(lián)得分進行編碼。 通過這樣的網(wǎng)絡(luò)傳遞過程,得到8個問題的答案及其相應(yīng)的得分,最終通過一個 softmax 函數(shù)得分來確定模型的預(yù)測答案。
▌實驗分析
為了驗證抽象推理模型,我們在 PGM 數(shù)據(jù)集上進行了大量的實驗測試,并對比分析了不同模型的表現(xiàn),不同類型問題模型的表現(xiàn),模型的泛化表現(xiàn),輔助訓練對模型表現(xiàn)的影響。
總的說來,當需要在先前見過的屬性值之間進行屬性值“內(nèi)插值(interpolated)”時,以及在不熟悉的因素組合中應(yīng)用已知抽象關(guān)系進行推理時,模型表現(xiàn)出非常好的泛化能力。然而,同樣的網(wǎng)絡(luò)在“外推 (extrapolation)”方案中卻表現(xiàn)的更差。在這種情況下,測試集中的屬性值與訓練集中的屬性值不在同一范圍內(nèi)。例如,對于訓練期間包含深色物體而在測試期間包含淺色物體的謎題,就會出現(xiàn)這種情況。此外,當模型訓練時將先前學習到的關(guān)系 (如形狀數(shù)量的遞增關(guān)系) 應(yīng)用于新的屬性 (如大小) 時,其泛化性能也會表現(xiàn)的更糟糕。
最后,我們觀察到當訓練的模型不僅能夠預(yù)測正確的答案,還能推理出正確答案 (即能夠考慮解決這個難題的特定關(guān)系和屬性) 時,我們模型的泛化性能得到了改進。更有趣的是,模型的準確性與其矩陣潛在的正確推理能力密切相關(guān):當推理解釋正確時,模型的準確性將達到87%;而當其推理解釋錯誤時,這種準確性表現(xiàn)將下降到只有32%。這表明當模型能夠正確推斷出任務(wù)背后的抽象概念時,它們可以獲得更好的性能。
▌總結(jié)
最近的研究主要集中探索用于解決機器學習問題的神經(jīng)網(wǎng)絡(luò)模型方法的優(yōu)點和缺點,通常是基于模型的能力或泛化能力的研究。我們的研究結(jié)果表明,關(guān)于泛化能力的一般結(jié)論可能是無益的:我們的神經(jīng)網(wǎng)絡(luò)在某些泛化方案測試中表現(xiàn)良好,而在其他測試中表現(xiàn)很差。其中的成功取決于一系列因素,包括所用模型的架構(gòu)以及模型是否經(jīng)過訓練來為其答案選擇提供可解釋的推理等。在幾乎所有的情況下,在超出模型經(jīng)驗范圍的外推輸入或用于解決完全不熟悉的屬性問題時,模型都會表現(xiàn)不佳。因此,這也為這個關(guān)鍵而又重要的研究領(lǐng)域未來的工作提供了一個明確的焦點。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4819瀏覽量
106068 -
人工智能
+關(guān)注
關(guān)注
1811文章
49498瀏覽量
258220
原文標題:天啊,你要的智商已下線——用我們的IQ測試題研究測量神經(jīng)網(wǎng)絡(luò)的抽象推理能力
文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論