chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機器人接入大模型直接聽懂人話,日常操作輕松完成!

CVer ? 來源:量子位(QbitAI) ? 2023-07-11 14:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

李飛飛團(tuán)隊具身智能最新成果來了:

大模型接入機器人,把復(fù)雜指令轉(zhuǎn)化成具體行動規(guī)劃,無需額外數(shù)據(jù)和訓(xùn)練。

42ef34d6-1fa9-11ee-962d-dac502259ad0.png

從此,人類可以很隨意地用自然語言給機器人下達(dá)指令,如:

打開上面的抽屜,小心花瓶!

430c81c6-1fa9-11ee-962d-dac502259ad0.gif

大語言模型+視覺語言模型就能從3D空間中分析出目標(biāo)和需要繞過的障礙,幫助機器人做行動規(guī)劃。

480c09b2-1fa9-11ee-962d-dac502259ad0.gif

然后重點來了,真實世界中的機器人在未經(jīng)“訓(xùn)練”的情況下,就能直接執(zhí)行這個任務(wù)。

4b43432a-1fa9-11ee-962d-dac502259ad0.gif

新方法實現(xiàn)了零樣本的日常操作任務(wù)軌跡合成,也就是機器人從沒見過的任務(wù)也能一次執(zhí)行,連給他做個示范都不需要。

可操作的物體也是開放的,不用事先劃定范圍,開瓶子、按開關(guān)、拔充電線都能完成。

4e6515ec-1fa9-11ee-962d-dac502259ad0.gif

目前項目主頁和論文都已上線,代碼即將推出,并且已經(jīng)引起學(xué)術(shù)界廣泛興趣。

4fd5cbba-1fa9-11ee-962d-dac502259ad0.png

論文地址:
https://voxposer.github.io/voxposer.pdf
項目主頁:
https://voxposer.github.io/

一位前微軟研究員評價到:這項研究走在了人工智能系統(tǒng)最重要和最復(fù)雜的前沿。

4ffd5dba-1fa9-11ee-962d-dac502259ad0.png

具體到機器人研究界也有同行表示:給運動規(guī)劃領(lǐng)域開辟了新世界。

5009c104-1fa9-11ee-962d-dac502259ad0.png

還有本來沒看到AI危險性的人,因為這項AI結(jié)合機器人的研究而改變看法。

501ed6de-1fa9-11ee-962d-dac502259ad0.png

機器人如何直接聽懂人話?

李飛飛團(tuán)隊將該系統(tǒng)命名為VoxPoser,如下圖所示,它的原理非常簡單。

502fe406-1fa9-11ee-962d-dac502259ad0.png

首先,給定環(huán)境信息(用相機采集RGB-D圖像)和我們要執(zhí)行的自然語言指令。

接著,LLM(大語言模型)根據(jù)這些內(nèi)容編寫代碼,所生成代碼與VLM(視覺語言模型)進(jìn)行交互,指導(dǎo)系統(tǒng)生成相應(yīng)的操作指示地圖,即3D Value Map。

5072ff8e-1fa9-11ee-962d-dac502259ad0.png

所謂3D Value Map,它是Affordance Map和Constraint Map的總稱,既標(biāo)記了“在哪里行動”,也標(biāo)記了“如何行動”。

509f2276-1fa9-11ee-962d-dac502259ad0.png

如此一來,再搬出動作規(guī)劃器,將生成的3D地圖作為其目標(biāo)函數(shù),便能夠合成最終要執(zhí)行的操作軌跡了。

而從這個過程我們可以看到,相比傳統(tǒng)方法需要進(jìn)行額外的預(yù)訓(xùn)練,這個方法用大模型指導(dǎo)機器人如何與環(huán)境進(jìn)行交互,所以直接解決了機器人訓(xùn)練數(shù)據(jù)稀缺的問題。

更進(jìn)一步,正是由于這個特點,它也實現(xiàn)了零樣本能力,只要掌握了以上基本流程,就能hold任何給定任務(wù)。

在具體實現(xiàn)中,作者將VoxPoser的思路轉(zhuǎn)化為一個優(yōu)化問題,即下面這樣一個復(fù)雜的公式:

50f7ae78-1fa9-11ee-962d-dac502259ad0.png

它考慮到了人類下達(dá)的指令可能范圍很大,并且需要上下文理解,于是將指令拆解成很多子任務(wù),比如開頭第一個示例就由“抓住抽屜把手”和“拉開抽屜”組成。

VoxPoser要實現(xiàn)的就是優(yōu)化每一個子任務(wù),獲得一系列機器人軌跡,最終最小化總的工作量和工作時間。

而在用LLM和VLM將語言指令映射為3D地圖的過程中,系統(tǒng)考慮到語言可以傳達(dá)豐富的語義空間,便利用“感興趣的實體(entity of interest)”來引導(dǎo)機器人進(jìn)行操作,也就是通過3DValue Map中標(biāo)記的值來反應(yīng)哪個物體是對它具有“吸引力”的,那些物體是具有“排斥性”。

510f2ba2-1fa9-11ee-962d-dac502259ad0.png

還是以開頭的例子舉,抽屜就是“吸引”的,花瓶是“排斥”的。

當(dāng)然,這些值如何生成,就靠大語言模型的理解能力了。

而在最后的軌跡合成過程中,由于語言模型的輸出在整個任務(wù)中保持不變,所以我們可以通過緩存其輸出,并使用閉環(huán)視覺反饋重新評估生成的代碼,從而在遇到干擾時快速進(jìn)行重新規(guī)劃。

因此,VoxPoser有著很強的抗干擾能力。

?

51468480-1fa9-11ee-962d-dac502259ad0.gif

?△ 將廢紙放進(jìn)藍(lán)色托盤

以下分別是VoxPoser在真實和模擬環(huán)境中的表現(xiàn)(衡量指標(biāo)為平均成功率):

575ebaae-1fa9-11ee-962d-dac502259ad0.png

可以看到,無論是哪種環(huán)境哪種情況(有無干擾、指令是否可見),它都顯著高于基于原語的基線任務(wù)。

最后,作者還驚喜地發(fā)現(xiàn),VoxPoser產(chǎn)生了4個“涌現(xiàn)能力”:

(1)評估物理特性,比如給定兩個質(zhì)量未知的方塊,讓機器人使用工具進(jìn)行物理實驗,確定哪個塊更重;

(2)行為常識推理,比如在擺餐具的任務(wù)中,告訴機器人“我是左撇子”,它就能通過上下文理解其含義;

(3)細(xì)粒度校正,比如執(zhí)行“給茶壺蓋上蓋子”這種精度要求較高的任務(wù)時,我們可以向機器人發(fā)出“你偏離了1厘米”等精確指令來校正它的操作;

(4)基于視覺的多步操作,比如叫機器人將抽屜精準(zhǔn)地打開成一半,由于沒有對象模型導(dǎo)致的信息不足可能讓機器人無法執(zhí)行這樣的任務(wù),但VoxPoser可以根據(jù)視覺反饋提出多步操作策略,即首先完全打開抽屜同時記錄手柄位移,然后將其推回至中點就可以滿足要求了。

578669e6-1fa9-11ee-962d-dac502259ad0.png

李飛飛:計算機視覺的3顆北極星

大約一年前,李飛飛在美國文理學(xué)會會刊上撰文,指出計算機視覺發(fā)展的三個方向:

具身智能(Embodied AI)

視覺推理(Visual Reasoning)

場景理解(Scene Understanding)

57ab97ac-1fa9-11ee-962d-dac502259ad0.png

李飛飛認(rèn)為,具身智能不單指人形機器人,任何能在空間中移動的有形智能機器都是人工智能的一種形式。

正如ImageNet旨在表示廣泛且多樣化的現(xiàn)實世界圖像一樣,具身智能研究也需要解決復(fù)雜多樣的人類任務(wù),從疊衣服到探索新城市。

遵循指令執(zhí)行這些任務(wù)需要視覺,但需要的不僅僅是視覺,也需要視覺推理理解場景中的三維關(guān)系。

最后機器還要做到理解場景中的人,包括人類意圖和社會關(guān)系。比如看到一個人打開冰箱能判斷出他餓了,或者看到一個小孩坐在大人腿上能判斷出他們是親子關(guān)系。

機器人結(jié)合大模型可能正是解決這些問題的一個途徑。

57bf5a6c-1fa9-11ee-962d-dac502259ad0.png

除李飛飛外,參與本次研究的還有清華姚班校友吳佳俊,博士畢業(yè)于MIT,現(xiàn)為斯坦福大學(xué)助理教授。

論文一作Wenlong Huang現(xiàn)為斯坦福博士生,在谷歌實習(xí)期間參與了PaLM-E研究。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    213

    文章

    30600

    瀏覽量

    219651
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    570

    瀏覽量

    11255
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3446

    瀏覽量

    4970

原文標(biāo)題:李飛飛團(tuán)隊「具身智能」新成果!機器人接入大模型直接聽懂人話,日常操作輕松完成!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    機器人看點:智元機器人公司完成股改 湃特納機器人完成數(shù)千萬元A輪融資

    給大家?guī)硪恍?b class='flag-5'>機器人行業(yè)的消息: 智元機器人公司完成股改 智元機器人上市在即?據(jù)企查查APP信息顯示智元機器人公司已
    的頭像 發(fā)表于 11-10 14:28 ?1006次閱讀

    RK3576機器人核心:三屏異顯+八路攝像頭,重塑機器人交互與感知

    ?!?多屏顯示:顯示配送狀態(tài)、路徑信息及簡單的觸摸操作界面,方便工作人員監(jiān)控與交互。 開啟您的下一代機器人項目綜上所述,瑞芯微RK3576憑借其卓越的多屏支持、強大的多攝像頭接入能力和高效的低功耗表現(xiàn)
    發(fā)表于 10-29 16:41

    小蘿卜機器人的故事

    經(jīng)過我的申請, 馬老師發(fā)放了, 小蘿卜機器人的, 開發(fā)權(quán)限, 原來的小蘿卜公司, 因為經(jīng)營不善倒閉, 作為科研產(chǎn)品, 幾個技術(shù)對此惋惜, 自掏腰包, 要讓小蘿卜機器人, 再生, 每次聽到小蘿卜說
    發(fā)表于 10-23 05:24

    工業(yè)機器人的特點

    生產(chǎn)可以提高產(chǎn)品品質(zhì)。通過設(shè)定相同的程序,機器人可實現(xiàn)重復(fù)操作,保證了產(chǎn)品的標(biāo)準(zhǔn)化;在精細(xì)化生產(chǎn)方面,工業(yè)機器人可實現(xiàn)低于0.1毫米的運動精度,可以完成精細(xì)的雕刻工作。提高產(chǎn)出 由于
    發(fā)表于 07-26 11:22

    RDK × 腿臂機器人:這只 “機械汪” 竟會說人話、走花路!

    ,基于RDKX3平臺進(jìn)行AI大模型算法開發(fā),提出了一種融合AI大模型的創(chuàng)新性解決方案,提升腿臂機器人的綜合性能。-項目首先強化了機器人的多模態(tài)感知能力,利用雷達(dá)、攝像
    的頭像 發(fā)表于 07-01 20:27 ?996次閱讀
    RDK × 腿臂<b class='flag-5'>機器人</b>:這只 “機械汪” 竟會說<b class='flag-5'>人話</b>、走花路!

    盤點#機器人開發(fā)平臺

    地瓜機器人RDK X5開發(fā)套件地瓜機器人RDK X5開發(fā)套件產(chǎn)品介紹 旭日5芯片10TOPs算力-電子發(fā)燒友網(wǎng)機器人開發(fā)套件 Kria KR260機器人開發(fā)套件 Kria KR260-
    發(fā)表于 05-13 15:02

    【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】視覺實現(xiàn)的基礎(chǔ)算法的應(yīng)用

    的cv_bridge庫,可以輕松實現(xiàn)ROS圖像消息與OpenCV格式的轉(zhuǎn)換,這在實際開發(fā)中極為便利。 視覺巡線與二維碼識別的應(yīng)用 視覺巡線是機器人自主導(dǎo)航的經(jīng)典案例,書中從仿真到真實機器人
    發(fā)表于 05-03 19:41

    【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】機器人入門的引路書

    ROS的全稱:Robot Operating System 機器人操作系統(tǒng) ROS的 目的 :ROS支持通用庫,是通信總線,協(xié)調(diào)多個傳感器 為了解決機器人里各廠商模塊不通用的問題,讓機器人
    發(fā)表于 04-30 01:05

    大象機器人攜手進(jìn)迭時空推出 RISC-V 全棧開源六軸機械臂產(chǎn)品

    識別聯(lián)調(diào)。 進(jìn)迭時空致力于為智能機器人提供完整全棧優(yōu)化的RISC-V AI軟硬件解決方案,第一代RISC-V AI CPU芯片K1已完成AI視覺感知、AI語音處理、自動避障、路徑規(guī)劃、運動控制等
    發(fā)表于 04-25 17:59

    智能機器人加速進(jìn)化:AI大模型與傳感器的雙重buff加成

    發(fā)布的追覓S50系列掃地機器人也成為市面上首批搭載DeepSeek-R1的智能清潔類產(chǎn)品。 對于普通消費者而言,AI大模型不再只是聊天機器人、內(nèi)容生成的工具,而是逐漸升級為日常生活中可
    的頭像 發(fā)表于 03-07 17:58 ?716次閱讀
    智能<b class='flag-5'>機器人</b>加速進(jìn)化:AI大<b class='flag-5'>模型</b>與傳感器的雙重buff加成

    普渡機器人接入DeepSeek滿血版模型

    自2月20日起,普渡機器人正式接入DeepSeek滿血版模型,機器人智能語音交互能力迎來智能化升級里程碑!此次升級中,首批搭載該模型的貝拉P
    的頭像 發(fā)表于 02-20 16:50 ?1338次閱讀

    【「具身智能機器人系統(tǒng)」閱讀體驗】2.具身智能機器人的基礎(chǔ)模塊

    非常重要的地位。 先說這個自主機器人的計算系統(tǒng)。計算系統(tǒng)是自主機器人的關(guān)鍵部件。自主機器人通過智能計算系統(tǒng)與物理世界交互,自主地完成任務(wù)。通常會包括幾個關(guān)鍵的模塊,分別是傳感模塊,感知
    發(fā)表于 01-04 19:22

    【「具身智能機器人系統(tǒng)」閱讀體驗】2.具身智能機器人模型

    、醫(yī)療、服務(wù)等領(lǐng)域的應(yīng)用前景更加廣闊,也使得人類能夠更輕松地借助機器完成復(fù)雜工作。我深刻認(rèn)識到,大模型技術(shù)正在從根本上改變我們對機器人能力的
    發(fā)表于 12-29 23:04

    【「具身智能機器人系統(tǒng)」閱讀體驗】1.初步理解具身智能

    與未來,涵蓋如基于行為的人工智能、生物啟發(fā)的進(jìn)化人工智能及認(rèn)知機器人技術(shù)的發(fā)展。這一歷史背景為隨后的大模型驅(qū)動的具身智能討論奠定了基礎(chǔ),隨著人工智能模型復(fù)雜性和能力的不斷提升,這一主題也變得愈加
    發(fā)表于 12-28 21:12

    《具身智能機器人系統(tǒng)》第7-9章閱讀心得之具身智能機器人與大模型

    研讀《具身智能機器人系統(tǒng)》第7-9章,我被書中對大模型機器人技術(shù)融合的深入分析所吸引。第7章詳細(xì)闡述了ChatGPT for Robotics的核心技術(shù)創(chuàng)新:它摒棄了傳統(tǒng)的分層控制架構(gòu),創(chuàng)造性地
    發(fā)表于 12-24 15:03