国产馆欧美馆在线,强制深喉口爆在线视频

人們經(jīng)常通過觀察周圍的環(huán)境和遵循指令在未知的環(huán)境中進行導(dǎo)航。而這些指導(dǎo)指令主要由地標(biāo)和方向指示性指令以及其他常用詞語組成。最近，Google將類似于人類的指令遵循應(yīng)用到機器人在二維工作空間中的導(dǎo)航任務(wù)，為智能體提供指令，并對其進行訓(xùn)練以遵循指令。為了進行有效導(dǎo)航，Google提出了FollowNet，它是一個用于學(xué)習(xí)多模態(tài)導(dǎo)航策略的端到端的可微神經(jīng)架構(gòu)?？商岣咧悄荏w在環(huán)境中的導(dǎo)航能力。

理解和遵循由人類提供的指令可以使機器人在未知的情況下進行有效的導(dǎo)航。我們提供了FollowNet，它是一個用于學(xué)習(xí)多模態(tài)導(dǎo)航策略的端到端可微的神經(jīng)架構(gòu)。FollowNet將自然語言指令以及視覺的深度輸入映射到運動原語（locomotion primitive）。FollowNet在執(zhí)行導(dǎo)航任務(wù)時使用注意力機制來處理指令，該機制以其視覺的深度輸入為條件，以集中于命令的相關(guān)部分。深度強化學(xué)習(xí)（deep reinforcement learning，DRL）的稀疏獎勵要同時學(xué)習(xí)狀態(tài)表征、注意力函數(shù)和控制策略。我們在一個復(fù)雜的自然語言指令的數(shù)據(jù)集上評估我們的智能體，以通過一個豐富、真實的模擬家庭數(shù)據(jù)集來指導(dǎo)智能體。我們指出，F(xiàn)ollowNet智能體學(xué)習(xí)執(zhí)行以前不可見的用類似詞匯描述的指令，并成功地沿著在訓(xùn)練期間未遇到的路徑進行導(dǎo)航。在沒有注意力機制的情況下，智能體與基線模型相比顯示出30%的改進，在新指令下的成功率為52%。

圖1：用于從自然語言指令學(xué)習(xí)導(dǎo)航的房屋的三維渲染。

人們經(jīng)常通過觀察周圍的環(huán)境和遵循指令在未知的環(huán)境中導(dǎo)航。這些指令主要由地標(biāo)和方向性指令以及其他常用詞語組成。例如，人們可以在一個他們以前沒有去過的家中找到廚房，通過遵循以下的指令：“在餐桌處右轉(zhuǎn)，然后再左轉(zhuǎn)（Turn right at the dining table, then take the second left）”。這個過程需要視覺上的觀察，例如在視野范圍內(nèi)的餐桌或關(guān)于典型門廳的知識，并執(zhí)行在這個方向上的動作：向左轉(zhuǎn)。這里的復(fù)雜性有多個維度：有限的視野，像“second”這樣的修飾詞，像“take”和“turn”這樣的同義詞，理解“take left left”指的是門，等等。

圖2：將視覺和語言輸入映射到導(dǎo)航動作的神經(jīng)模型。左圖：一個示例任務(wù)，其中機器人從藍(lán)色三角形指定的位置和方向開始，并且必須到達(dá)由紅色圓圈指定的目標(biāo)位置。機器人會收到一條自然語言指令，以便沿著圖像下方列出的標(biāo)有紅色的路徑行進。右圖：FollowNet架構(gòu)。

在本文中，我們將類似于人類的指令遵循應(yīng)用到機器人在二維工作空間中的導(dǎo)航（圖1）。我們給機器人提供了與上述機器人類似的示例指令，并訓(xùn)練了一個深度強化學(xué)習(xí)（DRL）智能體以遵循指令。當(dāng)從不同的位置出發(fā)時，該智能體會被測試它遵循新指令的程度。我們通過一個新的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)FollowNet（圖2）完成了這項工作，該架構(gòu)是使用Deep Q-Network （DQN）來進行訓(xùn)練的。觀察空間由自然語言指令和從機器人的有利位置（vantage point）得到的視覺深度觀察組成（圖4b）。策略的輸出是下一個要執(zhí)行的運動原語（motion primitive）。機器人沿著無障礙的網(wǎng)格（obstacle-free grid）移動，但是指令要求機器人移動超過可變數(shù)量的節(jié)點以到達(dá)目的地。我們使用的指令（表I）包含隱式編碼的房間（implicitly encoded room）、地標(biāo)和運動原語。在上面的例子中，“廚房”是目標(biāo)位置的房間。“餐桌”是一個地標(biāo)示例，在這個點上，智能體可能會改變方向。在沒有智能體的知識的情況下，房間和地標(biāo)都被映射到成群的網(wǎng)格點。我們使用的是稀疏獎勵，只有當(dāng)智能體到達(dá)一個路標(biāo)的時候才會給它一個獎勵。

表1：在訓(xùn)練過程中所使用的指令樣本。

可以這樣說，F(xiàn)ollowNet架構(gòu)的新穎之處在于一種語言指令注意機制（language instruction attention mechanism），它是以智能體的感官觀察為基礎(chǔ)條件的。這使得智能體能夠做兩件事。首先，它追蹤指令命令，并在探索環(huán)境時關(guān)注不同的部分。其次，它將運動原語（motion primitives）、感官觀察和指令的各個部分與收到的獎勵相關(guān)聯(lián)，從而使智能體能夠泛化到新的指令中。

我們評估智能體在新指令和新運動計劃中的泛化程度。首先，我們評估一下，在智能體所熟悉的房屋中，它對先前不可見的兩步指示的遵循執(zhí)行程度。結(jié)果表明，該智能體能夠完全遵循52％的指令，局部性遵循61％的指令，比基線增加30％。其次，相同的指令對一組不同的起始位置來說是有效的。例如，“離開房間”這一指令對于房間內(nèi)的任何起始位置來說都是有效的，但機器人為完成任務(wù)而需要執(zhí)行的運動計劃可能會非常不同。為了了解運動計劃泛化到新的起始位置的程度，我們評估智能體對一個它已經(jīng)在其經(jīng)過訓(xùn)練的指令（最多五步的方向）的遵循執(zhí)行情況，但是現(xiàn)在是從新的起始位置開始的。智能體能夠局部性地完成70％的指令，完全性地完成54％的指令。從這個角度來看，多步驟的指令對于人們來說也是具有一定的挑戰(zhàn)性的。

圖3：環(huán)境中的地標(biāo)和網(wǎng)格。

端到端的導(dǎo)航方法（End-to-end navigation methods）使用深度強化學(xué)習(xí)機器人的感官觀察和相對目標(biāo)位置。在這項研究中，我們提供的是自然語言指令而不是明確的目標(biāo)，因此智能體必須學(xué)會對指令加以解釋從而完成目標(biāo)。將強化學(xué)習(xí)應(yīng)用于機器人的一個挑戰(zhàn)是狀態(tài)空間表征。大的狀態(tài)空間減慢了學(xué)習(xí)速度，因此經(jīng)常使用不同的近似技術(shù)。這些例子包括概率路線圖（PRM）和簡單的空間離散化。在這里，我們對二維工作空間進行離散化，并允許智能體通過網(wǎng)格從節(jié)點移動到節(jié)點。本質(zhì)上，我們假設(shè)機器人可以通過執(zhí)行與動作相對應(yīng)的運動原語來避開障礙物并在兩個網(wǎng)格點之間安全地進行移動。

深度學(xué)習(xí)在學(xué)習(xí)自然語言和視覺，甚至在結(jié)合視覺和語言學(xué)習(xí)方面取得了巨大成功。要想應(yīng)用于機器人運動規(guī)劃和導(dǎo)航，語言學(xué)習(xí)通常需要一定程度的解析，其中包括正式的表述、語義分析、概率圖模型、編碼和對齊或基礎(chǔ)任務(wù)語言。然而，通過自然語言學(xué)習(xí)目標(biāo)標(biāo)記，主要是通過學(xué)習(xí)將自然語言指令解析為一種層次結(jié)構(gòu)，用于機器人動作規(guī)劃和執(zhí)行以及主動學(xué)習(xí)過程。這里，與P. Anderson等人于2017年發(fā)表一篇文論相類似，我們的目標(biāo)是隱式學(xué)習(xí)地標(biāo)（目標(biāo)）和運動原語的標(biāo)簽，以及它們對視覺觀察的解釋。與之不同的是，我們在FollowNet上使用DQN來學(xué)習(xí)導(dǎo)航策略。其他研究使用課程（curriculum）來完成一個環(huán)境中的多項任務(wù)。

圖4：FollowNet智能體的語義分割圖觀察。顏色對應(yīng)于物體類型（智能體不知道），并且在房屋和有利位置之間保持一致。沙發(fā)為綠色（a和c），餐桌為黃色（b和c）。

另一項結(jié)合3D導(dǎo)航、視覺和自然語言的研究工作是學(xué)習(xí)回答問題。這些問題源于一組指定的問題，其中，某些關(guān)鍵詞被替換。在我們的研究工作中，提供給智能體的語言指令是由四名人員獨立創(chuàng)建的，并且在未經(jīng)任何處理的情況下就提交至智能體。有幾種方法從未過濾的語言和視覺輸入中學(xué)習(xí)。在這些方法中，視覺輸入是整個規(guī)劃環(huán)境的圖像。相反，F(xiàn)ollowNet僅接收部分環(huán)境觀測。

本文介紹了FollowNet體系結(jié)構(gòu)，該體系結(jié)構(gòu)使用注意力機制來處理基于多模式感官觀察的自然語言指令，以作為DQN中的動作值函數(shù)逼近器。經(jīng)過訓(xùn)練的模型只使用視覺和深度信息來學(xué)習(xí)自然語言指令。結(jié)果表明，我們可以同時學(xué)習(xí)方向性指令的泛化和標(biāo)志識別。智能體在大多數(shù)時間（在幼兒階段）成功地遵循了新的兩步指令（novel two-step directions），比基線水平提高了30%。在今后的研究工作中，我們的目標(biāo)是在一個更大的數(shù)據(jù)集上訓(xùn)練智能體，跨多個領(lǐng)域開展更為深入的分析和經(jīng)驗評估工作，并探索跨不同環(huán)境的泛化能力。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴