chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

字節(jié)發(fā)布機(jī)器人領(lǐng)域首個(gè)開源視覺-語言操作大模型,激發(fā)開源VLMs更大潛能

新機(jī)器視覺 ? 來源:機(jī)器之心 ? 2024-01-23 16:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

還在苦苦尋找開源的機(jī)器人大模型?試試RoboFlamingo!

近年來,大模型的研究正在加速推進(jìn),它逐漸在各類任務(wù)上展現(xiàn)出多模態(tài)的理解和時(shí)間空間上的推理能力。機(jī)器人的各類具身操作任務(wù)天然就對語言指令理解、場景感知和時(shí)空規(guī)劃等能力有著很高的要求,這自然引申出一個(gè)問題:能不能充分利用大模型能力,將其遷移到機(jī)器人領(lǐng)域,直接規(guī)劃底層動(dòng)作序列呢?

對此,ByteDance Research 基于開源的多模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機(jī)器人操作模型,只用單機(jī)就可以訓(xùn)練。使用簡單、少量的微調(diào)就可以把 VLM 變成 Robotics VLM,從而適用于語言交互的機(jī)器人操作任務(wù)。

OpenFlamingo 在機(jī)器人操作數(shù)據(jù)集 CALVIN 上進(jìn)行了驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,RoboFlamingo 只利用了 1% 的帶語言標(biāo)注的數(shù)據(jù)即在一系列機(jī)器人操作任務(wù)上取得了 SOTA 的性能。

隨著 RT-X 數(shù)據(jù)集開放,采用開源數(shù)據(jù)預(yù)訓(xùn)練 RoboFlamingo 并 finetune 到不同機(jī)器人平臺(tái),將有希望成為一個(gè)簡單有效的機(jī)器人大模型 pipeline。論文還測試了各種不同 policy head、不同訓(xùn)練范式和不同 Flamingo 結(jié)構(gòu)的 VLM 在 Robotics 任務(wù)上微調(diào)的表現(xiàn),得到了一些有意思的結(jié)論。

807bea80-b9b7-11ee-8b88-92fbcf53809c.png

項(xiàng)目主頁:https://roboflamingo.github.io/

代碼鏈接:

https://github.com/RoboFlamingo/RoboFlamingo

論文鏈接:

https://arxiv.org/abs/2311.01378

研究背景

80a369fc-b9b7-11ee-8b88-92fbcf53809c.png

基于語言的機(jī)器人操作是具身智能領(lǐng)域的一個(gè)重要應(yīng)用,它涉及到多模態(tài)數(shù)據(jù)的理解和處理,包括視覺、語言和控制等。近年來,視覺語言基礎(chǔ)模型(VLMs)已經(jīng)在多個(gè)領(lǐng)域取得了顯著的進(jìn)展,包括圖像描述、視覺問答和圖像生成等。然而,將這些模型應(yīng)用于機(jī)器人操作仍然存在一些挑戰(zhàn),例如如何將視覺和語言信息結(jié)合起來,如何處理機(jī)器人操作的時(shí)序性等。

為了解決這些問題,ByteDance Research 的機(jī)器人研究團(tuán)隊(duì)利用現(xiàn)有的開源 VLM,OpenFlamingo,設(shè)計(jì)了一套新的視覺語言操作框架,RoboFlamingo。其中 VLM 可以進(jìn)行單步視覺語言理解,而額外的 policy head 模組被用來處理歷史信息。只需要簡單的微調(diào)方法就能讓 RoboFlamingo 適應(yīng)于基于語言的機(jī)器人操作任務(wù)。

RoboFlamingo 在基于語言的機(jī)器人操作數(shù)據(jù)集 CALVIN 上進(jìn)行了驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,RoboFlamingo 只利用了 1% 的帶語言標(biāo)注的數(shù)據(jù)即在一系列機(jī)器人操作任務(wù)上取得了 SOTA 的性能(多任務(wù)學(xué)習(xí)的 task sequence 成功率為 66%,平均任務(wù)完成數(shù)量為 4.09,基線方法為 38%,平均任務(wù)完成數(shù)量為 3.06;zero-shot 任務(wù)的成功率為 24%,平均任務(wù)完成數(shù)量為 2.48,基線方法為 1%,平均任務(wù)完成數(shù)量是 0.67),并且能夠通過開環(huán)控制實(shí)現(xiàn)實(shí)時(shí)響應(yīng),可以靈活部署在較低性能的平臺(tái)上。

這些結(jié)果表明,RoboFlamingo 是一種有效的機(jī)器人操作方法,可以為未來的機(jī)器人應(yīng)用提供有用的參考。

方法

80abd52e-b9b7-11ee-8b88-92fbcf53809c.png

本工作利用已有的基于圖像 - 文本對的視覺語言基礎(chǔ)模型,通過訓(xùn)練端到端的方式生成機(jī)器人每一步的 relative action。模型的主要模塊包含了 vision encoder,feature fusion decoder 和 policy head 三個(gè)模塊。

Vision encoder 模塊先將當(dāng)前視覺觀測輸入到 ViT 中,并通過 resampler 對 ViT 輸出的 token 進(jìn)行 down sample。

Feature fusion decoder 將 text token 作為輸入,并在每個(gè) layer 中先將 vision encoder 的 output 作為 query 進(jìn)行 cross attention,之后進(jìn)行 self attention 以完成視覺與語言特征的融合。

最后,對 feature fusion decoder 進(jìn)行 max pooling 后將其送入 policy head 中,policy head 根據(jù) feature fusion decoder 輸出的當(dāng)前和歷史 token 序列直接輸出當(dāng)前的 7 DoF relative action,包括了 6-dim 的機(jī)械臂末端位姿和 1-dim 的 gripper open/close。

在訓(xùn)練過程中,RoboFlamingo 利用預(yù)訓(xùn)練的 ViT、LLM 和 Cross Attention 參數(shù),并只微調(diào) resampler、cross attention 和 policy head 的參數(shù)。

實(shí)驗(yàn)結(jié)果

數(shù)據(jù)集:

80ba71c4-b9b7-11ee-8b88-92fbcf53809c.png

CALVIN(Composing Actions from Language and Vision)是一個(gè)開源的模擬基準(zhǔn)測試,用于學(xué)習(xí)基于語言的 long-horizon 操作任務(wù)。與現(xiàn)有的視覺 - 語言任務(wù)數(shù)據(jù)集相比,CALVIN 的任務(wù)在序列長度、動(dòng)作空間和語言上都更為復(fù)雜,并支持靈活地指定傳感器輸入。CALVIN 分為 ABCD 四個(gè) split,每個(gè) split 對應(yīng)了不同的 context 和 layout。

定量分析:

80bff658-b9b7-11ee-8b88-92fbcf53809c.png

RoboFlamingo 在各設(shè)置和指標(biāo)上的性能均為最佳,說明了其具有很強(qiáng)的模仿能力、視覺泛化能力以及語言泛化能力。Full 和 Lang 表示模型是否使用未配對的視覺數(shù)據(jù)進(jìn)行訓(xùn)練(即沒有語言配對的視覺數(shù)據(jù));Freeze-emb 指的是凍結(jié)融合解碼器的嵌入層;Enriched 表示使用 GPT-4 增強(qiáng)的指令。

消融實(shí)驗(yàn):

80c5b0ca-b9b7-11ee-8b88-92fbcf53809c.png

不同的 policy head:

實(shí)驗(yàn)考察了四種不同的策略頭部:MLP w/o hist、MLP w hist、GPT 和 LSTM。其中,MLP w/o hist 直接根據(jù)當(dāng)前觀測預(yù)測歷史,其性能最差,MLP w hist 將歷史觀測在 vision encoder 端進(jìn)行融合后預(yù)測 action,性能有所提升;GPT 和 LSTM 在 policy head 處分別顯式、隱式地維護(hù)歷史信息,其表現(xiàn)最好,說明了通過 policy head 進(jìn)行歷史信息融合的有效性。

視覺-語言預(yù)訓(xùn)練的影響:

預(yù)訓(xùn)練對于 RoboFlamingo 的性能提升起到了關(guān)鍵作用。實(shí)驗(yàn)顯示,通過預(yù)先在大型視覺-語言數(shù)據(jù)集上進(jìn)行訓(xùn)練,RoboFlamingo 在機(jī)器人任務(wù)中表現(xiàn)得更好。

模型大小與性能:

雖然通常更大的模型會(huì)帶來更好的性能,但實(shí)驗(yàn)結(jié)果表明,即使是較小的模型,也能在某些任務(wù)上與大型模型媲美。

指令微調(diào)的影響:

指令微調(diào)是一個(gè)強(qiáng)大的技巧,實(shí)驗(yàn)結(jié)果表明,它可以進(jìn)一步提高模型的性能。

80d22774-b9b7-11ee-8b88-92fbcf53809c.gif

80fdc46a-b9b7-11ee-8b88-92fbcf53809c.gif

8125b150-b9b7-11ee-8b88-92fbcf53809c.gif

81bf1228-b9b7-11ee-8b88-92fbcf53809c.gif

82717f44-b9b7-11ee-8b88-92fbcf53809c.gif

82f82f94-b9b7-11ee-8b88-92fbcf53809c.gif

定性結(jié)果相較于基線方法,RoboFlamingo 不但完整執(zhí)行了 5 個(gè)連續(xù)的子任務(wù),且對于基線頁執(zhí)行成功的前兩個(gè)子任務(wù),RoboFlamingo 所用的步數(shù)也明顯更少。

8378a886-b9b7-11ee-8b88-92fbcf53809c.png

總結(jié)本工作為語言交互的機(jī)器人操作策略提供了一個(gè)新穎的基于現(xiàn)有開源 VLMs 的框架,使用簡單微調(diào)就能實(shí)現(xiàn)出色的效果。RoboFlamingo 為機(jī)器人技術(shù)研究者提供了一個(gè)強(qiáng)大的開源框架,能夠更容易地發(fā)揮開源 VLMs 的潛能。工作中豐富的實(shí)驗(yàn)結(jié)果或許可以為機(jī)器人技術(shù)的實(shí)際應(yīng)用提供寶貴的經(jīng)驗(yàn)和數(shù)據(jù),有助于未來的研究和技術(shù)發(fā)展。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    30249

    瀏覽量

    217775
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3875

    瀏覽量

    45208
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3348

    瀏覽量

    4711

原文標(biāo)題:字節(jié)發(fā)布機(jī)器人領(lǐng)域首個(gè)開源視覺-語言操作大模型,激發(fā)開源VLMs更大潛能

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    Al大模型機(jī)器人

    金航標(biāo)kinghelm薩科微slkor總經(jīng)理宋仕強(qiáng)介紹說,薩科微Al大模型機(jī)器人有哪些的優(yōu)勢?薩科微AI大模型機(jī)器人由清華大學(xué)畢業(yè)的天才少年N博士和王博士團(tuán)隊(duì)開發(fā),與同行相比具有許多優(yōu)
    發(fā)表于 07-05 08:52

    ROS讓機(jī)器人開發(fā)更便捷,基于RK3568J+Debian系統(tǒng)發(fā)布

    本帖最后由 Tronlong創(chuàng)龍科技 于 2024-7-19 17:18 編輯 ROS系統(tǒng)是什么 ROS(Robot Operating System)是一個(gè)適用于機(jī)器人開源的元操作系統(tǒng)。它
    發(fā)表于 07-09 11:38

    大象機(jī)器人攜手進(jìn)迭時(shí)空推出 RISC-V 全棧開源六軸機(jī)械臂產(chǎn)品

    全球80多個(gè)國家和地區(qū)。 近日,大象機(jī)器人聯(lián)合進(jìn)迭時(shí)空推出全球首款RISC-V全棧開源六軸機(jī)器臂“myCobot 280 RISC-V”,為開發(fā)者打造全新的機(jī)器人
    發(fā)表于 04-25 17:59

    ColorSky雙足機(jī)器人開源項(xiàng)目

    本帖最后由 colorsky 于 2016-4-21 14:05 編輯 大家好,我是ColorSky。這是我的雙足機(jī)器人開源項(xiàng)目。先發(fā)出視頻給大家看看,后面陸續(xù)會(huì)把技術(shù)資料上傳。機(jī)器人鞠躬?jiǎng)幼?/div>
    發(fā)表于 04-21 10:51

    ROS讓機(jī)器人開發(fā)更便捷,基于RK3568J+Debian系統(tǒng)發(fā)布!

    ROS系統(tǒng)是什么 ROS(Robot Operating System)是一個(gè)適用于機(jī)器人開源的元操作系統(tǒng)。它提供了操作系統(tǒng)應(yīng)有的服務(wù),包括硬件抽象,底層設(shè)備控制,常用函數(shù)的實(shí)現(xiàn),進(jìn)
    發(fā)表于 11-30 16:01

    機(jī)器人開源案例

    電子發(fā)燒友網(wǎng)站提供《機(jī)器人開源案例.zip》資料免費(fèi)下載
    發(fā)表于 12-07 15:12 ?2次下載
    <b class='flag-5'>機(jī)器人</b><b class='flag-5'>開源</b>案例

    英雄機(jī)器人開源

    電子發(fā)燒友網(wǎng)站提供《英雄機(jī)器人開源.zip》資料免費(fèi)下載
    發(fā)表于 12-14 11:39 ?0次下載
    英雄<b class='flag-5'>機(jī)器人</b><b class='flag-5'>開源</b>

    國內(nèi)首個(gè)!北京人形機(jī)器人創(chuàng)新中心成立

    據(jù)悉,北京人形機(jī)器人創(chuàng)新中心將面向未來打造世界首個(gè)通用人形機(jī)器人“硬件主控平臺(tái)”、首個(gè)模型+開源
    的頭像 發(fā)表于 11-09 10:41 ?2064次閱讀

    機(jī)器人基于開源的多模態(tài)語言視覺模型

    ByteDance Research 基于開源的多模態(tài)語言視覺模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo
    發(fā)表于 01-19 11:43 ?842次閱讀
    <b class='flag-5'>機(jī)器人</b>基于<b class='flag-5'>開源</b>的多模態(tài)<b class='flag-5'>語言</b><b class='flag-5'>視覺</b>大<b class='flag-5'>模型</b>

    英偉達(dá)GROOT N1 全球首個(gè)開源人形機(jī)器人基礎(chǔ)模型

    英偉達(dá)GROOT N1 全球首個(gè)開源人形機(jī)器人基礎(chǔ)大模型
    的頭像 發(fā)表于 03-20 11:05 ?1554次閱讀

    NVIDIA發(fā)布全球首個(gè)開源人形機(jī)器人基礎(chǔ)模型Isaac GR00T N1

    NVIDIA 宣布推出一系列全新技術(shù),助力人形機(jī)器人開發(fā)。其中包括全球首個(gè)開源且完全可定制的基礎(chǔ)模型NVIDIA Isaac GR00T N1,該
    的頭像 發(fā)表于 03-20 14:34 ?1044次閱讀

    NVIDIA Isaac GR00T N1開源人形機(jī)器人基礎(chǔ)模型+開源物理引擎Newton加速機(jī)器人開發(fā)

    NVIDIA Isaac GR00T N1開源人形機(jī)器人基礎(chǔ)模型+開源物理引擎Newton加速機(jī)器人開發(fā)
    的頭像 發(fā)表于 03-20 16:56 ?1116次閱讀

    全國首個(gè)基于開源鴻蒙的機(jī)器人操作系統(tǒng)M-Robots OS正式發(fā)布,中國機(jī)器人產(chǎn)業(yè)進(jìn)入“群體智能”新時(shí)代

    2025年4月9日,深開鴻在廣東省人工智能與機(jī)器人產(chǎn)業(yè)創(chuàng)新產(chǎn)品與服務(wù)新聞發(fā)布會(huì)上正式發(fā)布全國首個(gè)基于開源鴻蒙的分布式異構(gòu)多機(jī)協(xié)同
    的頭像 發(fā)表于 04-09 13:00 ?1006次閱讀
    全國<b class='flag-5'>首個(gè)</b>基于<b class='flag-5'>開源</b>鴻蒙的<b class='flag-5'>機(jī)器人</b><b class='flag-5'>操作</b>系統(tǒng)M-Robots OS正式<b class='flag-5'>發(fā)布</b>,中國<b class='flag-5'>機(jī)器人</b>產(chǎn)業(yè)進(jìn)入“群體智能”新時(shí)代

    開源鴻蒙助力人形機(jī)器人產(chǎn)業(yè)發(fā)展

    在近日舉辦的全球首個(gè)人形機(jī)器人半程馬拉松的賽場上,搭載開放原子開源基金會(huì)旗下開源鴻蒙操作系統(tǒng)的“夸父”人形
    的頭像 發(fā)表于 04-23 17:35 ?864次閱讀

    全國首個(gè)開源鴻蒙機(jī)器人操作系統(tǒng) M-Robots OS 正式開源

    機(jī)器人操作系統(tǒng)M-RobotsOS,推動(dòng)機(jī)器人行業(yè)生態(tài)融合、能力復(fù)用、智能協(xié)同。構(gòu)建機(jī)器人共通語言解決產(chǎn)業(yè)協(xié)同難題
    的頭像 發(fā)表于 07-24 10:56 ?653次閱讀
    全國<b class='flag-5'>首個(gè)</b><b class='flag-5'>開源</b>鴻蒙<b class='flag-5'>機(jī)器人</b><b class='flag-5'>操作</b>系統(tǒng) M-Robots OS 正式<b class='flag-5'>開源</b>