圖源:谷歌機(jī)器人團(tuán)隊(duì)論文「Interactive Language: Talking to Robots in Real Time」。
UC 伯克利 Dynalang 研究的關(guān)鍵思想是,我們可以將語(yǔ)言看作是幫助我們更好地對(duì)世界進(jìn)行預(yù)測(cè)的工具,比如「我們的牛奶喝完了」→打開(kāi)冰箱時(shí)沒(méi)有牛奶;「扳手可以用來(lái)擰緊螺母」→使用工具時(shí)螺母會(huì)旋轉(zhuǎn)。Dynalang 在一個(gè)模型中結(jié)合了語(yǔ)言模型(LM)和世界模型(WM),使得這種范式變成多模態(tài)。研究者認(rèn)為,將語(yǔ)言生成和行動(dòng)統(tǒng)一在一個(gè)智能體架構(gòu)中是未來(lái)研究的一個(gè)令人興奮的方向。
論文概覽 人工智能長(zhǎng)期以來(lái)的目標(biāo)是開(kāi)發(fā)能夠在物理世界中與人類(lèi)自然交互的智能體。當(dāng)前的具身智能體可以遵循簡(jiǎn)單的低層指令,比如「拿一塊藍(lán)色的積木」或者「經(jīng)過(guò)電梯,然后向右轉(zhuǎn)」。 然而,要實(shí)現(xiàn)自由交流的互動(dòng)智能體,就需要理解人們?cè)凇复藭r(shí)此地」之外使用語(yǔ)言的完整方式,包括:傳遞知識(shí),比如「左上角的按鈕是關(guān)掉電視的」;提供情境信息,如「我們的牛奶喝完了」;以及協(xié)同,比如跟別人說(shuō)「我已經(jīng)吸過(guò)客廳了」。我們?cè)谖谋局虚喿x的很多內(nèi)容或者從他人口中聽(tīng)到的信息都在傳遞有關(guān)世界的知識(shí),無(wú)論是關(guān)于世界如何運(yùn)行還是關(guān)于當(dāng)前世界狀態(tài)的知識(shí)。 我們?nèi)绾问怪悄荏w能夠使用多樣化的語(yǔ)言呢?一種訓(xùn)練基于語(yǔ)言的智能體解決任務(wù)的方法是強(qiáng)化學(xué)習(xí)(RL)。然而,目前的基于語(yǔ)言的 RL 方法主要是學(xué)習(xí)從特定任務(wù)指令生成行動(dòng),例如將目標(biāo)描述「拿起藍(lán)色的積木」作為輸入,輸出一系列運(yùn)動(dòng)控制。 然而,當(dāng)考慮到自然語(yǔ)言在現(xiàn)實(shí)世界中所服務(wù)的多樣功能時(shí),直接將語(yǔ)言映射到最優(yōu)行動(dòng)是一個(gè)具有挑戰(zhàn)性的學(xué)習(xí)問(wèn)題。以「我把碗放好了」為例:如果任務(wù)是清洗,智能體應(yīng)該繼續(xù)進(jìn)行下一個(gè)清洗步驟;而如果是晚餐服務(wù),智能體應(yīng)該去取碗。當(dāng)語(yǔ)言不涉及任務(wù)時(shí),它只與智能體應(yīng)該采取的最優(yōu)行動(dòng)弱相關(guān)。將語(yǔ)言映射到行動(dòng),尤其是僅使用任務(wù)獎(jiǎng)勵(lì),對(duì)于學(xué)會(huì)使用多樣化語(yǔ)言輸入完成任務(wù)來(lái)說(shuō)是一個(gè)弱學(xué)習(xí)信號(hào)。 不同的是,UC 伯克利的研究者提出,智能體使用語(yǔ)言的一種統(tǒng)一方法是幫助它們預(yù)測(cè)未來(lái)。前面提到的語(yǔ)句「我把碗放好了」有助于智能體更好地預(yù)測(cè)未來(lái)的觀(guān)察結(jié)果(即,如果它采取行動(dòng)打開(kāi)櫥柜,它將在那里看到碗)。 我們遇到的很多語(yǔ)言可以通過(guò)這種方式與視覺(jué)體驗(yàn)聯(lián)系起來(lái)。先前的知識(shí),比如「扳手可以用來(lái)擰緊螺母」,幫助智能體預(yù)測(cè)環(huán)境變化。諸如「包裹在外面」的陳述有助于智能體預(yù)測(cè)未來(lái)的觀(guān)察結(jié)果。這個(gè)框架還將標(biāo)準(zhǔn)指令遵循歸入預(yù)測(cè)范疇:指令幫助智能體預(yù)測(cè)自己將如何受到獎(jiǎng)勵(lì)。類(lèi)似于下一個(gè) token 預(yù)測(cè)允許語(yǔ)言模型形成關(guān)于世界知識(shí)的內(nèi)部表示,研究者假設(shè)預(yù)測(cè)未來(lái)的表示為智能體理解語(yǔ)言以及它與世界的關(guān)系提供了豐富的學(xué)習(xí)信號(hào)。





Correction:提供了基于智能體當(dāng)前行為的交互式反饋,比如「轉(zhuǎn)身」。









原文標(biāo)題:用語(yǔ)言建模世界:UC伯克利多模態(tài)世界模型利用語(yǔ)言預(yù)測(cè)未來(lái)
文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2931文章
46251瀏覽量
392722
原文標(biāo)題:用語(yǔ)言建模世界:UC伯克利多模態(tài)世界模型利用語(yǔ)言預(yù)測(cè)未來(lái)
文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
自動(dòng)駕駛中常提的世界模型是個(gè)啥?

世界模型:多模態(tài)融合+因果推理,解鎖AI認(rèn)知邊界
Matter 智能家居的通用語(yǔ)言
商湯“日日新”融合大模型登頂大語(yǔ)言與多模態(tài)雙榜單
?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

FPGA+AI王炸組合如何重塑未來(lái)世界:看看DeepSeek東方神秘力量如何預(yù)測(cè)......
語(yǔ)言模型管理的作用
大語(yǔ)言模型開(kāi)發(fā)框架是什么
大語(yǔ)言模型開(kāi)發(fā)語(yǔ)言是什么
一文理解多模態(tài)大語(yǔ)言模型——下

一文理解多模態(tài)大語(yǔ)言模型——上

評(píng)論