
當(dāng)前機(jī)器人行業(yè)呈現(xiàn)兩極分化態(tài)勢(shì)。一邊是競(jìng)技賽事的火熱,如2025年世界人形機(jī)器人運(yùn)動(dòng)會(huì)吸引了全球16個(gè)國(guó)家280支隊(duì)伍參與,另一邊卻是現(xiàn)實(shí)核心技術(shù)仍然面臨瓶頸,某企業(yè)人形機(jī)器人因末端執(zhí)行器精度不足,導(dǎo)致工業(yè)場(chǎng)景中的精密作業(yè)效率甚至比不上人工。
這種理想與現(xiàn)實(shí)的落差,在資本層面表現(xiàn)得更為明顯。今年前七個(gè)月,具身智能與機(jī)器人領(lǐng)域融資金額已突破240億元,遠(yuǎn)超去年全年總和。面對(duì)層出不窮的機(jī)器人公司和產(chǎn)品,投資者卻陷入困惑:如何判斷哪些企業(yè)真正掌握核心技術(shù)?哪些產(chǎn)品具備長(zhǎng)期落地的潛力?
行業(yè)缺乏的,正是一個(gè)能夠客觀衡量機(jī)器人能力的標(biāo)尺。
對(duì)此,由Dexmal原力靈機(jī)聯(lián)合Huggingface共同發(fā)起的全球首個(gè)大規(guī)模真機(jī)基準(zhǔn)測(cè)試集RoboChallenge,為具身智能真機(jī)評(píng)測(cè)提供了有效標(biāo)準(zhǔn)。

那么,為什么具身智能行業(yè)急需一個(gè)統(tǒng)一測(cè)評(píng)標(biāo)準(zhǔn)?RoboChallenge真機(jī)基準(zhǔn)測(cè)試平臺(tái)又從哪些層面攻克了行業(yè)難點(diǎn)呢?

在算法和模型的世界里,基準(zhǔn)測(cè)試早已是推動(dòng)進(jìn)步的發(fā)動(dòng)機(jī)。計(jì)算機(jī)視覺(jué)有ImageNet,自然語(yǔ)言處理有GLUE,每一項(xiàng)突破都以公開(kāi)、可復(fù)現(xiàn)的排行榜為標(biāo)尺,激發(fā)了無(wú)數(shù)創(chuàng)新。而機(jī)器人領(lǐng)域長(zhǎng)期沒(méi)有類(lèi)似的標(biāo)準(zhǔn)體系。
對(duì)機(jī)器人能力的評(píng)估始終在兩個(gè)極端搖擺。
一端是那些刷屏社交網(wǎng)絡(luò)的機(jī)器人項(xiàng)目。無(wú)論是后空翻的人形機(jī)器人,還是展會(huì)現(xiàn)場(chǎng)表演泡咖啡,炫技式的展示雖然極易出圈,吸引大眾眼球,但更偏向于娛樂(lè)和營(yíng)銷(xiāo),無(wú)法反映機(jī)器人在通用、非結(jié)構(gòu)化環(huán)境中的真實(shí)能力。
另一端是實(shí)驗(yàn)室測(cè)試。在科研領(lǐng)域,研究人員會(huì)在仿真環(huán)境或高度結(jié)構(gòu)化的物理環(huán)境中測(cè)試機(jī)器人的某項(xiàng)特定能力,例如物體抓取成功率、路徑規(guī)劃效率等。但這些演示無(wú)法代表現(xiàn)實(shí)世界的復(fù)雜與不確定,也無(wú)法讓投資者、同行或市場(chǎng)知道,它們之間到底差多少、強(qiáng)在哪。
缺乏基準(zhǔn)的后果,是整個(gè)行業(yè)信息失真。
投資角度,評(píng)估難。投資者缺乏有效的技術(shù)評(píng)估工具,往往只能依賴(lài)于光鮮的演示視頻和創(chuàng)始團(tuán)隊(duì)的背景來(lái)做判斷,這可能導(dǎo)致擅長(zhǎng)演示的團(tuán)隊(duì)可能比技術(shù)扎實(shí)的團(tuán)隊(duì)更容易獲得融資。
市場(chǎng)角度,劣幣驅(qū)逐良幣。當(dāng)演示效果重于實(shí)際效用時(shí),企業(yè)的資源分配就會(huì)自然傾斜。本應(yīng)用于核心技術(shù)突破的研發(fā)精力,被迫分流到能夠快速制造傳播熱點(diǎn)的炫技功能上。
而沒(méi)有公認(rèn)的基準(zhǔn),技術(shù)就無(wú)法在同一維度上進(jìn)行比較和衡量,也就難以形成清晰的技術(shù)演進(jìn)路線圖。開(kāi)發(fā)者們各自為戰(zhàn),重復(fù)造輪子。某個(gè)團(tuán)隊(duì)已經(jīng)解決的經(jīng)典問(wèn)題,可能在另一個(gè)團(tuán)隊(duì)那里仍是攔路虎;某個(gè)領(lǐng)域的突破性進(jìn)展,往往難以被準(zhǔn)確識(shí)別并快速擴(kuò)散到整個(gè)行業(yè),整個(gè)行業(yè)的創(chuàng)新效率大打折扣。
投資者、消費(fèi)市場(chǎng)、技術(shù)發(fā)展都呼喚著一個(gè)更加強(qiáng)有力的真機(jī)測(cè)量標(biāo)準(zhǔn)來(lái)提供統(tǒng)一基座,推動(dòng)具身智能行業(yè)良性發(fā)展。

行業(yè)急需一套更全面、科學(xué)的具身智能真機(jī)測(cè)試標(biāo)準(zhǔn)。然而,要在真實(shí)環(huán)境中對(duì)機(jī)器人進(jìn)行公平、可復(fù)現(xiàn)的評(píng)測(cè),難度遠(yuǎn)超想象。
當(dāng)前行業(yè)內(nèi)的測(cè)試體系普遍面臨著三大痛點(diǎn):測(cè)試場(chǎng)景碎片化,各機(jī)構(gòu)使用的環(huán)境、任務(wù)千差萬(wàn)別;評(píng)估標(biāo)準(zhǔn)不統(tǒng)一,導(dǎo)致結(jié)果缺乏可比性;評(píng)測(cè)方法不夠系統(tǒng),難以全面反映機(jī)器人的真實(shí)能力水平。這些問(wèn)題使得不同算法、不同硬件平臺(tái)的機(jī)器人表現(xiàn)如同使用不同尺子測(cè)量的身高:數(shù)據(jù)再多,也難以進(jìn)行有意義的橫向比較。
正是在這樣的行業(yè)背景下,由Dexmal原力靈機(jī)團(tuán)隊(duì)和HuggingFace推出的RoboChallenge直面挑戰(zhàn),提出了全球首個(gè)大規(guī)模具身智能真機(jī)測(cè)評(píng)平臺(tái),旨在通過(guò)科學(xué)評(píng)估體系為具身智能產(chǎn)業(yè)構(gòu)建一個(gè)開(kāi)放、公正、可復(fù)現(xiàn)的真實(shí)考場(chǎng)。
RoboChallenge的第一個(gè)顛覆性創(chuàng)新,是規(guī)模化、穩(wěn)定地解決了公平性難題。
過(guò)去,機(jī)器人領(lǐng)域的基準(zhǔn)測(cè)試長(zhǎng)期處于割裂狀態(tài):學(xué)術(shù)界的實(shí)驗(yàn)多局限于單一模型或固定環(huán)境,缺乏跨平臺(tái)可比性,而企業(yè)的內(nèi)部測(cè)試又往往自成體系,難以形成行業(yè)共識(shí)。
RoboChallenge則以大規(guī)模真機(jī)測(cè)試為核心,通過(guò)統(tǒng)一任務(wù)標(biāo)準(zhǔn)、統(tǒng)一評(píng)估指標(biāo)和跨模型對(duì)照機(jī)制,實(shí)現(xiàn)了真正的公平測(cè)評(píng)。
為精準(zhǔn)評(píng)估VLA算法核心能力,RoboChallenge首期采用配備夾爪的機(jī)械臂作為標(biāo)準(zhǔn)化平臺(tái),其傳感方案同步輸出多視角RGB與對(duì)齊深度信息。系統(tǒng)集成了UR5、Franka Panda、COBOT Magic Aloha和ARX-5四類(lèi)主流機(jī)型,支持7×24小時(shí)不間斷運(yùn)行。通過(guò)這種方式,在完全相同的初始條件和任務(wù)下,不同算法的實(shí)力得以被客觀地量化與呈現(xiàn)。RoboChallenge首次在真實(shí)物理環(huán)境中,實(shí)現(xiàn)了對(duì)多種主流機(jī)器人平臺(tái)的多任務(wù)、跨模型測(cè)試。
RoboChallenge的另一大創(chuàng)新,是推出了遠(yuǎn)程機(jī)器人評(píng)測(cè)模式。
通過(guò)自研的遠(yuǎn)程推理系統(tǒng),研究者即使不擁有實(shí)體機(jī)器人,也能在平臺(tái)上完成算法部署、任務(wù)執(zhí)行與結(jié)果驗(yàn)證。
平臺(tái)采用無(wú)容器化設(shè)計(jì),用戶(hù)通過(guò)標(biāo)準(zhǔn)化API可直接調(diào)用;RGB圖像等觀測(cè)數(shù)據(jù)均帶有毫秒級(jí)時(shí)間戳,便于多模型融合與復(fù)雜時(shí)間對(duì)齊;系統(tǒng)通過(guò)HTTP API實(shí)現(xiàn)異步處理,并提供實(shí)時(shí)隊(duì)列反饋。同時(shí),智能作業(yè)調(diào)度模塊可實(shí)時(shí)查看任務(wù)狀態(tài),支持模型多任務(wù)并行,大幅提升測(cè)試效率與系統(tǒng)穩(wěn)定性。
這種“在線真機(jī)評(píng)測(cè)”在保證高精度與可復(fù)現(xiàn)性的同時(shí),大幅降低了科研與創(chuàng)新門(mén)檻。對(duì)學(xué)術(shù)界,它提供了開(kāi)放、免費(fèi)的實(shí)驗(yàn)資源;對(duì)產(chǎn)業(yè)界,它搭建了公平、高效的驗(yàn)證平臺(tái)。全球研究者得以在統(tǒng)一環(huán)境、標(biāo)準(zhǔn)化流程下參與測(cè)試,真正實(shí)現(xiàn)“沒(méi)有機(jī)器人,一樣做實(shí)驗(yàn)”。

除了公平的測(cè)試基準(zhǔn)與遠(yuǎn)程評(píng)測(cè)模式,一套科學(xué)、精細(xì)的評(píng)分體系同樣是衡量機(jī)器人能力的核心。
當(dāng)前行業(yè)內(nèi)的真機(jī)評(píng)測(cè)往往只包含3到5項(xiàng)任務(wù),難以系統(tǒng)、全面地評(píng)估算法的綜合表現(xiàn)與泛化能力。而作為RoboChallenge推出的首套測(cè)試集,Table30以“科學(xué)分類(lèi)學(xué)”為設(shè)計(jì)理念,從VLA、機(jī)器人類(lèi)型、任務(wù)場(chǎng)景環(huán)境和目標(biāo)物體屬性等維度構(gòu)建了30個(gè)覆蓋多維度操作場(chǎng)景的桌面級(jí)任務(wù)。
評(píng)分機(jī)制上,Table30突破傳統(tǒng)二值化評(píng)估局限,引入更符合實(shí)際應(yīng)用需求的進(jìn)度評(píng)分系統(tǒng):對(duì)復(fù)雜任務(wù)認(rèn)可分步進(jìn)展,對(duì)簡(jiǎn)單任務(wù)優(yōu)化完成效率。分揀、倒液體、開(kāi)瓶蓋、疊放物體……這些看似簡(jiǎn)單的任務(wù),實(shí)則高度還原了人類(lèi)日常生活中的細(xì)微操作需求。優(yōu)秀的模型不應(yīng)只在某些任務(wù)上表現(xiàn)出色,更應(yīng)在整個(gè)任務(wù)矩陣中展現(xiàn)出穩(wěn)健、全面的能力。通過(guò)這種精細(xì)化、系統(tǒng)化的設(shè)計(jì),Table30 能夠清晰測(cè)出不同模型之間的代際差距,將算法差異量化、可視化,為技術(shù)演進(jìn)提供了可靠的衡量依據(jù)。
官方學(xué)術(shù)論文《RoboChallenge: Real-robot based Large Scale Evaluation of Embodied Policies》則進(jìn)一步證明了Table30基準(zhǔn)測(cè)試是有效且具有區(qū)分度的。研究顯示,在系列真實(shí)測(cè)試中,Pi05 模型在成功率和得分上均顯著領(lǐng)先,而多任務(wù)模型版本(/multi)普遍表現(xiàn)不如單任務(wù)版本。研究揭示,當(dāng)前不同VLA(視覺(jué)-語(yǔ)言-動(dòng)作)模型之間存在顯著的性能差距,一個(gè)多指標(biāo)、公平且大規(guī)模的具身智能真機(jī)評(píng)測(cè)平臺(tái)是有意義的。

值得注意的是,訪問(wèn)RoboChallenge官網(wǎng),每個(gè)用戶(hù)都能看到RoboChallenge的評(píng)測(cè)任務(wù)列表。每個(gè)任務(wù)都包含任務(wù)名稱(chēng)、狀態(tài)、提交次數(shù)、提交者、提交時(shí)間和得分等信息。用戶(hù)可以通過(guò)點(diǎn)擊任務(wù)名稱(chēng)查看任務(wù)詳情,包括任務(wù)描述、評(píng)測(cè)指標(biāo)、提交記錄和模型表現(xiàn)等。此外,頁(yè)面還提供了篩選和排序功能,方便用戶(hù)查找感興趣的任務(wù)和評(píng)測(cè)結(jié)果。

可以說(shuō),RoboChallenge并非一場(chǎng)短暫的賽事,而是一項(xiàng)長(zhǎng)期構(gòu)建的行業(yè)基礎(chǔ)工程。它致力于建立一套可持續(xù)演進(jìn)的任務(wù)體系,持續(xù)吸納來(lái)自社區(qū)和產(chǎn)業(yè)界的新挑戰(zhàn)場(chǎng)景;它要形成一個(gè)公開(kāi)、可信的排行榜,使所有參與者都能從中看到自己在真實(shí)世界的坐標(biāo);它要積累起標(biāo)準(zhǔn)化的評(píng)測(cè)數(shù)據(jù),為投資、科研、產(chǎn)品化提供決策依據(jù)。
而它的意義,遠(yuǎn)不止于建立一套測(cè)試標(biāo)準(zhǔn),更在于打造一把源自中國(guó)的標(biāo)尺,為整個(gè)具身智能行業(yè)的長(zhǎng)遠(yuǎn)發(fā)展,注入持續(xù)而深刻的動(dòng)力。

每一項(xiàng)技術(shù)的成熟,都需要一把被全行業(yè)認(rèn)可的公共標(biāo)尺。
從ImageNet到COCO,從GLUE到MMLU,這些基準(zhǔn)不僅塑造了技術(shù)發(fā)展的格局,也定義了產(chǎn)業(yè)迭代的節(jié)奏。
如今,RoboChallenge的問(wèn)世讓具身智能也有了這樣的量尺:一個(gè)扎根現(xiàn)實(shí)、開(kāi)放共建、可度量的真實(shí)舞臺(tái)。
更重要的是,這是一個(gè)向所有人開(kāi)放的舞臺(tái)。
據(jù)悉,RoboChallenge堅(jiān)持全面開(kāi)放原則。平臺(tái)不僅向全球研究者免費(fèi)提供測(cè)試服務(wù),還公開(kāi)所有任務(wù)的演示數(shù)據(jù)與測(cè)試中間結(jié)果,真正實(shí)現(xiàn)了可復(fù)現(xiàn)、可驗(yàn)證的透明度。這意味著,無(wú)論是頂尖實(shí)驗(yàn)室還是初創(chuàng)團(tuán)隊(duì),都能在統(tǒng)一標(biāo)準(zhǔn)下對(duì)比成果、復(fù)現(xiàn)實(shí)驗(yàn)、優(yōu)化算法。
這種開(kāi)放性,將打破機(jī)器人研發(fā)長(zhǎng)期以來(lái)的高門(mén)檻與孤島化局面,促進(jìn)行業(yè)共識(shí)的形成,加速學(xué)術(shù)成果與產(chǎn)業(yè)能力的雙向轉(zhuǎn)化。但它的意義遠(yuǎn)不止于服務(wù)學(xué)術(shù)論文的發(fā)表和B端產(chǎn)業(yè)鏈,更在于真正推動(dòng)測(cè)評(píng)技術(shù)走向C端,實(shí)現(xiàn)廣泛落地。
如果你是研究人員,可以不再受限于仿真環(huán)境與實(shí)體硬件,在真實(shí)機(jī)器人上驗(yàn)證你的想法;如果你是創(chuàng)業(yè)者,可以基于客觀數(shù)據(jù)展示你產(chǎn)品的真實(shí)能力,讓技術(shù)說(shuō)話;技術(shù)愛(ài)好者甚至在校學(xué)生,也獲得了接觸前沿、親手參與的機(jī)會(huì),人人都可以親手為機(jī)器人“跑個(gè)分”。

目前,RoboChallenge已正式登陸Hugging Face平臺(tái),面向全球開(kāi)放其真機(jī)評(píng)測(cè)任務(wù)與數(shù)據(jù)集。平臺(tái)已發(fā)布三十個(gè)真實(shí)世界任務(wù)數(shù)據(jù)集,涵蓋擦桌、澆花、開(kāi)關(guān)電器、堆疊積木、分類(lèi)物品等多種具身操作場(chǎng)景,全面展示了機(jī)器人在現(xiàn)實(shí)環(huán)境下的感知與行動(dòng)能力。所有任務(wù)數(shù)據(jù)均支持公開(kāi)訪問(wèn)與復(fù)現(xiàn)實(shí)驗(yàn),體現(xiàn)了RoboChallenge對(duì)“可比性、可復(fù)現(xiàn)、可共建”的堅(jiān)持。

正因如此,RoboChallenge不僅是一個(gè)評(píng)測(cè)平臺(tái),它正逐漸成為機(jī)器人世界的公共基礎(chǔ)設(shè)施。
它讓機(jī)器人不再停留于看起來(lái)聰明,而是必須在真實(shí)世界中“確實(shí)聰明”;讓投資判斷不再憑故事,而是扎實(shí)的數(shù)據(jù);讓研究不再各自為政,而能在同一套規(guī)則中進(jìn)化。
在未來(lái)幾年里,RoboChallenge也許會(huì)像當(dāng)年的ImageNet一樣,成為推動(dòng)一個(gè)時(shí)代加速的引擎。它不是一場(chǎng)比賽,而是一面鏡子,讓整個(gè)行業(yè)照見(jiàn)自己的真實(shí)能力。
而機(jī)器人世界的跑分時(shí)代,也終于要開(kāi)始了。

-
AI
+關(guān)注
關(guān)注
89文章
38037瀏覽量
296127 -
人形機(jī)器人
+關(guān)注
關(guān)注
7文章
874瀏覽量
18262 -
具身智能
+關(guān)注
關(guān)注
0文章
269瀏覽量
775
發(fā)布評(píng)論請(qǐng)先 登錄
探索RISC-V在機(jī)器人領(lǐng)域的潛力
CW32L012小型機(jī)器人控制評(píng)估板活動(dòng) 四足機(jī)器人+智能小車(chē) 開(kāi)箱評(píng)測(cè)
RK3576機(jī)器人核心:三屏異顯+八路攝像頭,重塑機(jī)器人交互與感知
機(jī)器人看點(diǎn):寧德時(shí)代入股銀河通用機(jī)器人 機(jī)器人企業(yè)扎堆赴港上市
NVIDIA Jetson Thor:開(kāi)啟通用機(jī)器人新時(shí)代
機(jī)器人競(jìng)技幕后:磁傳感器芯片激活 “精準(zhǔn)感知力”
工業(yè)機(jī)器人的特點(diǎn)
盤(pán)點(diǎn)#機(jī)器人開(kāi)發(fā)平臺(tái)
AgiBot World Colosseo:構(gòu)建通用機(jī)器人智能的規(guī)模化數(shù)據(jù)平臺(tái)

終結(jié)機(jī)器人評(píng)測(cè)混戰(zhàn)時(shí)代,RoboChallenge帶來(lái)大規(guī)模真機(jī)測(cè)評(píng)基準(zhǔn)
評(píng)論