在認知心理學和神經(jīng)科學中豐富的視覺推理和記憶傳統(tǒng)的啟發(fā)下,我們開發(fā)了一個人工的、可配置的視覺問題和答案數(shù)據(jù)集(COG),用于在人類和動物中進行平行實驗。COG比視頻分析的一般問題要簡單得多,但它解決了許多與視覺、邏輯推理和記憶有關的問題——這些問題對現(xiàn)代的深度學習架構(gòu)來說仍然具有挑戰(zhàn)性。
可以這樣說,人工智能中一個令人煩惱的問題是對發(fā)生在復雜的、不斷變化的視覺刺激中的事件進行推理,比如視頻分析或游戲。在認知心理學和神經(jīng)科學中豐富的視覺推理和記憶傳統(tǒng)的啟發(fā)下,我們開發(fā)了一個人工的、可配置的視覺問題和答案數(shù)據(jù)集(COG),用于在人類和動物中進行平行實驗。COG比視頻分析的一般問題要簡單得多,但它解決了許多與視覺、邏輯推理和記憶有關的問題——這些問題對現(xiàn)代的深度學習架構(gòu)來說仍然具有挑戰(zhàn)性。此外,我們還提出了一個深度學習架構(gòu),它在其他診斷VQA數(shù)據(jù)集(例如CLEVR)和COG數(shù)據(jù)集的簡單設置上表現(xiàn)得非常出色。然而,一些COG的設置會導致數(shù)據(jù)集變得越來越難以進行學習。訓練結(jié)束后,該網(wǎng)絡可以零次泛化到許多新任務中。對在COG上訓練的網(wǎng)絡架構(gòu)的初步分析表明,該網(wǎng)絡以一種人類可解釋的方式完成了任務。
圖1:來自COG數(shù)據(jù)集的圖像和指令樣本序列。COG數(shù)據(jù)集中的任務對目標識別、關系理解以及記憶的操作和調(diào)整以解決問題。每個任務都可以涉及當前圖像和之前圖像中所顯示的目標。 需要注意的是,在最后一個樣本中,指令涉及的是“l(fā)ast”,而不是“l(fā)ast b”。前者排除圖像中當前的“b”。(白色箭頭)顯示了每個圖像的目標指示響應。為了清晰起見,使用高分辨率圖像和適當?shù)挠⒄Z表示。
人工智能的一個主要目標是建立一個能夠強大且靈活地推理出感官環(huán)境的系統(tǒng)。視覺提供了一個非常豐富和高度適用的領域,用以鍛煉我們建立一個能夠?qū)碗s刺激物形成邏輯推理的系統(tǒng)的能力。研究視覺推理的一個途徑是視覺問題回答(VQA)數(shù)據(jù)集,其中,模型學習該如何正確回答關于靜態(tài)圖像的具有挑戰(zhàn)性的自然語言問題。雖然在這些多模態(tài)數(shù)據(jù)集的研究上取得了非常顯著的成果,但這些數(shù)據(jù)集突出顯示了當前方法所存在的若干局限性。首先,在VQA數(shù)據(jù)集上進行訓練的模型的訓練程度無法確定,僅僅是遵循圖像中固有的統(tǒng)計信息,而不是對問題的邏輯組成部分進行推理。其次,這些數(shù)據(jù)集避免了時間和記憶的復雜性,而這兩個因素在智能體設計、視頻的分析和總結(jié)中具有至關重要的作用。
圖2:組合型COG數(shù)據(jù)集的生成。COG數(shù)據(jù)集基于一組操作符(A),它們被組合以形成各種任務圖形(B)。(C)通過指定圖形中所有運算符的屬性來對任務進行實例化。任務實例用于生成圖像序列和語義任務指令。(D)正向執(zhí)行圖形和圖像序列以執(zhí)行常規(guī)任務。(E)生成一致的、具有最小偏差的圖像序列需要以逆向拓撲順序反向通過圖形,并按逆時間順序通過圖像序列。
為了解決VQA數(shù)據(jù)集中有關空間關系的邏輯推理所存在的不足,Johnson及其同事最近提出使用CLEVR直接對基本視覺推理模型進行測試,以便與其他VQA數(shù)據(jù)集一起使用。CLEVR數(shù)據(jù)集提供了人工的、靜態(tài)的圖像以及有關這些圖像的自然語言問題,從而鍛煉模型執(zhí)行邏輯和視覺推理的能力。最近的研究結(jié)果表明,網(wǎng)絡以接近完美的精確度取得了令人印象深刻的性能表現(xiàn)成績。
在這項研究中,我們解決了視覺推理中關于時間和記憶的第二個局限性問題。推理智能體必須記住其視覺歷史的相關部分,忽略不相關的細節(jié),根據(jù)新的信息更新和操作記憶,并在接下來的時間里利用此記憶做出決策。我們的方法是創(chuàng)建一個人工數(shù)據(jù)集,它具有時間變化數(shù)據(jù)中所存在的許多復雜性,同時也避免了在處理視頻時所遇到的許多視覺復雜性和技術難度性問題(例如,視頻解碼、跨時間平滑幀的冗余)。特別是,我們從認知心理學(cognitive psychology)和現(xiàn)代系統(tǒng)神經(jīng)科學(modern systems neuroscience)的幾十年研究中獲得靈感,在這些領域中,長期以來都是將視覺推理解剖為基于空間和邏輯推理、記憶組合性和語義理解的核心組件。為了實現(xiàn)這一目標,我們建立了一個人工數(shù)據(jù)集—COG,能夠執(zhí)行與人類認知實驗同時進行的視覺推理。
圖3:所提出網(wǎng)絡的架構(gòu)圖
COG數(shù)據(jù)集基于一種編程語言,該語言構(gòu)建一系列任務三元組:一個圖像序列、一個語言指令和一系列正確的答案。這些隨機生成的三元組在大量任務中進行視覺推理,并需要文本的語義理解、序列中每個圖像的視覺感知以及工作記憶,從而確定隨時間不同變化的答案(如圖1所示)。我們對編程語言中的若干個參數(shù)進行了強調(diào),從而使研究人員能夠?qū)栴}難度按照從容易到具有挑戰(zhàn)性進行設置調(diào)整。
最后,我們引入了一個多模態(tài)循環(huán)體系結(jié)構(gòu),用于進行記憶視覺推理。該網(wǎng)絡將語義和視覺模塊與狀態(tài)控制器相結(jié)合,對視覺注意力和記憶進行調(diào)節(jié),以便正確執(zhí)行視覺任務。經(jīng)過一系列的研究,我們證明這個模型在CLEVR數(shù)據(jù)集上達到了近乎最先進的性能表現(xiàn)。此外,該網(wǎng)絡提供了一個強大的基線,可以在一系列設置中的COG數(shù)據(jù)集上實現(xiàn)良好的性能表現(xiàn)。通過消融研究和網(wǎng)絡動力學分析,我們發(fā)現(xiàn)該網(wǎng)絡采用的是人類可解釋的注意力機制來解決這些視覺推理任務的。我們希望COG數(shù)據(jù)集、相應的體系結(jié)構(gòu)以及相關的基線能夠為隨時間變化的視覺刺激推理的研究提供有用的基準。
圖4:通過單個CLEVR樣本的注意力和輸出,對提出網(wǎng)絡的思考過程進行可視化。(A)來自CLEVR驗證集的樣本問題和圖像。(B)每個思考步驟的有效特征注意力圖。(C)相對空間注意力圖。(D)語義注意力。(E)前五名的語言輸出。紅色和藍色分別表示更強和更弱。在同時關注到“小金屬球體”的特征注意力和“紅色橡膠物體后面”的空間注意力之后,在語言輸出中反應了有關物體的顏色(黃色)。后來在思考過程中,網(wǎng)絡關注了“大啞光球”的特征注意力,而同時語言輸出中出現(xiàn)了正確答案(yes)。
在該項研究中,我們建立了一個合成的、組合型數(shù)據(jù)集,該數(shù)據(jù)集需要一個系統(tǒng)能夠基于英語指令對圖像序列執(zhí)行各種任務。我們COG數(shù)據(jù)集中包含的任務,測試了一系列認知推理技能,尤為重要的是,這需要對過去的目標有顯式記憶(explicit memory)。該數(shù)據(jù)集擁有最小偏差和高度可配置性,旨在通過大量的指定性任務生成豐富的性能指標。
我們還構(gòu)建了一個循環(huán)神行網(wǎng)絡模型,該模型利用注意力機制和門控機制,以一種自然的,且具有人性化的方式處理COG數(shù)據(jù)集。除此之外,該模型還在另一個名為CLEVR的視覺推理數(shù)據(jù)集上實現(xiàn)了近乎最先進的性能表現(xiàn)。該模型使用循環(huán)控制器來關注圖像和指令的不同部分,并以一種迭代的方式生成語言輸出。這些迭代注意力信號為模型的逐步思考過程提供了多個窗口,并為模型該如何將復雜的指令分解為更小的計算提供了線索。最后,該網(wǎng)絡可以即刻泛化到完全未經(jīng)訓練的任務上,從而展現(xiàn)出對新任務的零次學習(zero-shot)能力。
-
編程語言
+關注
關注
10文章
1956瀏覽量
36659 -
人工智能
+關注
關注
1807文章
49028瀏覽量
249551 -
數(shù)據(jù)集
+關注
關注
4文章
1224瀏覽量
25448
原文標題:紐約大學聯(lián)合谷歌大腦提出「COG」數(shù)據(jù)集,可提高系統(tǒng)的「視覺推理」能力
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
C語言編程技巧程序集

評論