亚洲AV中文AⅤ无码AV不卡,疯狂而刺激3p视频,国产农村AA不卡片免费播放器

DeepMind今天在Science發(fā)表論文，提出生成查詢網(wǎng)絡（Generative Query Network，GQN），能夠在無監(jiān)督的情況下，抽象地描述場景元素，并通過“想象”渲染出場景中沒有見到的部分。這項工作展示了沒有人類標簽或領域知識的表示學習，為機器自動學習并理解周圍世界鋪平了道路。

DeepMind又有大動作，早上起來便看到Hassabis的推文：

一直以來，我對大腦是如何在腦海中構建圖像的過程深感著迷。我們最新發(fā)表在Science的論文提出了生成查詢網(wǎng)絡（GQN）：這個模型能從一個場景的少量2D照片中重新生成3D表示，并且能從新的攝像頭視角將它渲染出來。

Hassabis在接受《金融時報》采訪時表示，GQN能夠從任何角度想象和呈現(xiàn)場景，是一個通用的系統(tǒng)，具有廣泛的應用潛力。

如果說新智元昨天介紹的DeepMind那篇有關圖網(wǎng)絡的論文重磅，那么這篇最新的Science更顯分量。

“此前我們不知道神經(jīng)網(wǎng)絡能否能學會以如此精確和可控的方式來創(chuàng)建圖像，”DeepMind的研究員、論文的第一作者Ali Eslami表示：“但是，這次我們發(fā)現(xiàn)具有足夠深度的網(wǎng)絡，可以在沒有任何人類工程干預的情況下，學習透視和光線。這是一個非常驚人的發(fā)現(xiàn)?！?/p>

DeepMind最新發(fā)表在Science上的論文《神經(jīng)場景表示和渲染》。包括老板Demis Hassabis在內(nèi)，一共22名作者。本著開源共享的精神，文章以公開獲取的形式在Science發(fā)表。

這篇文章的意義在于，提出了一種無監(jiān)督的方法，不依賴帶標記的數(shù)據(jù)，而且能夠推廣到各種不同的場景中。過去的計算機視覺識別任務，通常是建立在大量有標記的數(shù)據(jù)基礎上，不僅標記這些數(shù)據(jù)麻煩，標記好的數(shù)據(jù)還可能帶有偏見，最重要的是，已經(jīng)有越來越多的研究者意識到，由于測試集過擬合的問題，很多分類器的魯棒性亟待提高。

DeepMind的這套視覺系統(tǒng)，也即生成查詢網(wǎng)絡（GQN），使用從不同視角收集到的某個場景的圖像，然后生成關于這個場景的抽象描述，通過一個無監(jiān)督的表示學習過程，學習到了場景的本質(zhì)。之后，在學到的這種表示的基礎上，網(wǎng)絡會預測從其他新的視角看這個場景將會是什么樣子。這一過程非常類似人腦中對某個場景的想象。而理解一個場景中的視覺元素是典型的智能行為。

雖然還有諸多局限，但DeepMind的這項工作，在此前許許多多相關研究的基礎上更進一步，展示了我們在讓機器“理解世界”的道路上，邁出了堅實一步。

下面是DeepMind今天發(fā)表的官方博文，論文的聯(lián)合第一作者S. M. Ali Eslami和Danilo Jimenez Rezende對這項工作進行了解讀。

《神經(jīng)場景表示和渲染》的研究背景

當談到我們?nèi)祟惾绾卫斫庖粋€視覺場景時，涉及的不僅僅是視覺：我們的大腦利用先驗知識進行推理，并做出遠遠超出光線的模式的推斷。例如，當你第一次進入一個房間時，你能夠立即識別出房間里的物品以及它們的位置。如果你看到一張桌子的三條腿，你會推斷，可能存在第四條桌子腿從你的視線中隱藏了，它的顏色和形狀應該與其他三條腿相同。即使你看不到房間里的所有東西，你也很可能勾畫出它的布局，或者從另一個角度想象它的樣子。

這些視覺和認知任務對人類來說似乎毫不費力，但它們對我們的AI系統(tǒng)來說是一個重大挑戰(zhàn)。今天，最先進的視覺識別系統(tǒng)都是用人類產(chǎn)生的帶注釋圖像的大型數(shù)據(jù)集訓練的。獲取這些數(shù)據(jù)是一個昂貴而且耗時的過程，需要有人對數(shù)據(jù)集中每個場景的每個對象進行標記。因此，通常只能捕獲整體場景的一小部分內(nèi)容，這限制了用這些數(shù)據(jù)進行訓練的人工視覺系統(tǒng)。

當我們開發(fā)出在現(xiàn)實世界運行的更復雜的機器時，我們希望機器能充分了解它們所處的環(huán)境：可以坐的最近的表面在哪里？沙發(fā)是什么料子的？所有的陰影都是哪些光源產(chǎn)生的？電燈的開關可能在哪里？

論文一作S. M. Ali Eslami解讀

在這篇發(fā)表于《科學》（Science）的最新論文中，我們提出生成查詢網(wǎng)絡（Generative Query Network，GQN）。在這個框架中，機器學習只使用它們在場景中移動時所獲得的數(shù)據(jù)進行訓練，從而感知周圍的環(huán)境。

就像嬰兒和動物一樣，GQN通過嘗試理解它對周圍世界的觀察來學習。在這樣做的過程中，GQN了解了似乎合理的場景及其幾何屬性，而沒有任何人類來對場景內(nèi)容進行標注。

GQN：僅使用從場景中感知到的數(shù)據(jù)做訓練

GQN模型由兩個部分組成：表示網(wǎng)絡（representation network）和生成網(wǎng)絡（generation network）。表示網(wǎng)絡將agent的觀察結果作為輸入，并生成一個描述基礎場景的表示（向量）。然后，生成網(wǎng)絡從先前未觀察到的角度來預測（“想象”）場景。

Agent從不同視角觀察訓練場景

表示網(wǎng)絡不知道生成網(wǎng)絡被要求預測哪些視點，所以它必須找到一種有效的方式來盡可能準確地描述場景的真實布局。為了實現(xiàn)這個目的，表示網(wǎng)絡以一種簡潔的分布式表示來捕獲最重要的元素（如對象位置、顏色和房間布局）。

在訓練過程中，生成器學習環(huán)境中的典型對象、特征、關系和規(guī)則。這種共享的“概念”集合使表示網(wǎng)絡能夠以高度壓縮、抽象的方式描述場景，讓生成網(wǎng)絡在必要時填充細節(jié)。

例如，表示網(wǎng)絡會簡潔地將“藍色立方體”表示為一組數(shù)字，而生成網(wǎng)絡將會知道如何以特定的視點將其顯示為像素。

四大重要特性：能夠“想象出”沒有觀察過的場景

我們在模擬的3D世界的一系列程序生成環(huán)境中，對GQN進行了受控實驗。這些環(huán)境包含多個物體，它們的位置、顏色、形狀和紋理都是隨機的，光源也是隨機的，而且會被嚴重遮擋。

在這些環(huán)境中進行訓練后，我們使用GQN的表示網(wǎng)絡來形成新的、以前未觀察到的場景的表示。我們的實驗表明，GQN具有以下幾個重要特性:

GQN的生成網(wǎng)絡能夠以非常精確的方式從新的視角“想象”先前未觀察到的場景。當給定一個場景表示和新的攝像機視點時，它會生成清晰的圖像，而不需要事先說明透視、遮擋或燈光的規(guī)范。因此，生成網(wǎng)絡是一種從數(shù)據(jù)中學習的近似渲染器（approximate renderer）:

GQN的表示網(wǎng)絡可以學會對對象進行計數(shù)、定位和分類，無需任何對象級標簽。盡管GQN的表示可能非常小，但是它在查詢視點（query viewpoints）上的預測是高度準確的，與ground-truth幾乎無法區(qū)分。這意味著表示網(wǎng)絡能夠準確地感知，例如識別構成以下場景的塊的精確配置:

GQN可以表示、測量和減少不確定性。即使內(nèi)容不完全可見，它也能對場景的不確定性進行解釋，并且可以將場景的多個局部視圖組合成一個連貫的整體視圖。如下圖所示，這是由其第一人稱（first-person）和自上而下的預測（top-down predictions）顯示的。模型通過其預測的可變性來表示不確定性，不確定性隨著其在迷宮中移動而逐漸減?。ɑ疑淖刁w指示觀察位置，黃色椎體指示查詢位置）：

GQN的表示允許穩(wěn)健的、數(shù)據(jù)有效（data-efficient）的強化學習。當給定GQN的緊湊表示時，與無模型基線agent相比， state-of-the-art的深度強化學習agent能夠以更高的數(shù)據(jù)效率方式完成任務，如下圖所示。對于這些agent，生成網(wǎng)絡中編碼的信息可以被看作是對環(huán)境的“先天”知識：

圖：使用GQN，我們觀察到數(shù)據(jù)效率更高的策略學習（policy learning），與使用原始像素的標準方法相比，其獲得收斂級性能的交互減少了約4倍。

未來方向

GQN建立在此前大量相關工作的基礎上，包括多視圖幾何、生成建模、無監(jiān)督學習和預測學習，我們在論文中有詳細討論。

GQN演示了一種學習緊湊的、基礎的物理場景表示的新方法。關鍵的是，我們提出的方法不需要專用領域工程（domain-specific engineering）或耗時的場景內(nèi)容標記，從而允許將相同的模型應用于各種不同的環(huán)境。GQN還學會了一個強大的神經(jīng)渲染器，能夠從新的視角生成精確的場景圖像。

與更傳統(tǒng)的計算機視覺技術相比，我們的方法仍然有許多限制，目前只有接受過合成場景的訓練。然而，隨著獲得更多新的數(shù)據(jù)源，以及硬件功能的進展，我們期望能夠探索GQN框架在更高分辨率的真實場景圖像中的應用。在未來的工作中，我們將探索GQN在場景理解的更廣泛方面的應用，例如通過查詢跨空間和時間學習物理和運動的常識概念，以及虛擬和增強現(xiàn)實中的應用。

盡管在我們的方法在投入實用前還有很多研究需要完成，但我們相信這項工作是邁向完全自主場景理解的一大步。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴