具身智能是一種基于物理身體進行感知和行動的智能系統(tǒng),其通過智能體與環(huán)境的交互獲取信息、理解問題、做出決策并實現(xiàn)行動。具身智能的核心要素包括本體和智能體。本體作為實際的執(zhí)行者,在物理或虛擬世界負責(zé)感知和執(zhí)行任務(wù),而智能體則是具身于本體之上的智能核心,負責(zé)感知、理解、決策、控制等核心工作。
區(qū)別于機器人,具身智能具備自我決策能力。根據(jù)盧策吾教授在機器之心AI 科技年會上發(fā)表的《具身智能是通往 AGI 值得探索的方向》中提到,智能體通過感知器和執(zhí)行器與環(huán)境進行交互后,能夠?qū)崿F(xiàn)獲取信息、理解問題等功能, 并根據(jù)環(huán)境的變化做出相應(yīng)的決策和行動。
2023年,GPT-4 Turbo發(fā)布,其參數(shù)量高達1.8萬億。2024 年4月,國內(nèi)商湯科技“ 日 日新 ”大模型體系正式發(fā)布,其中中文語言大模型參數(shù)達1800 億。隨著大模型參數(shù)量的大幅增長傳統(tǒng)穿戴設(shè)備、手機等無法消化大模型大算力。 從目前市場上的端側(cè)大模型來看,通常設(shè)備端越大(功能越多),其端側(cè)大模型的參數(shù)量也越大。
而具身智能需要處理更復(fù)雜的任務(wù),如環(huán)境感知、運動控制、決策制定等, 其算法和模型需要快速處理大量數(shù)據(jù)并做出決策,因此具身智能需要更大的模型參數(shù)來支持其更廣泛的功能和更高的智能需求。谷歌開發(fā)的 PaLM-E 具身多模態(tài)大模型參數(shù)量達 5620 億;華為盤古 Pangu S 大模型參數(shù)達萬億。相比小型端側(cè)設(shè)備,具身智能機器人能夠消化大模型、大算力!
大模型使智能體由被動編程控制走向主動決策。與智能體結(jié)合后,具身智能以任務(wù)目標(biāo)為導(dǎo)向,不僅僅是機械地完成程序,其可以根據(jù)環(huán)境變化,對行動細節(jié)進行實時修正,并消除在特定條件下為特定任務(wù)反復(fù)編程的需要。依托大模型的涌現(xiàn)能力,具身智能能夠從原始訓(xùn)練數(shù)據(jù)中學(xué)習(xí)并發(fā)現(xiàn)新的特征和模式,在僅僅依靠網(wǎng)絡(luò)數(shù)據(jù)知識的情況下就可以對從未見過的對象或場景執(zhí)行操作任務(wù)。
【仿真為智能體賦能的主流路徑】
主流的具身智能訓(xùn)練方法主要包括遙操作、動捕、大模型等。其中,單一的遙操作或動捕需由人類操作員直接控制,無法實現(xiàn)機器替人。大模型和智能體深度融合,具備較強泛化型。在數(shù)據(jù)選擇上,可采用仿真數(shù)據(jù)或真實數(shù)據(jù)。
仿真通過構(gòu)建虛擬環(huán)境生成大量數(shù)據(jù),成本較低,適合在新的環(huán)境中大范圍學(xué)習(xí)技能;利用真實數(shù)據(jù)能夠形成細分場景的數(shù)據(jù)壁壘,但成本及獲取難度相對較高。
大模型具備較強泛化性,仿真數(shù)據(jù)有望大范圍應(yīng)用。谷歌 RT 采用該種技術(shù)路徑。谷歌在 RT-1 和 RT-2 的框架上使用 X-Embodiment 數(shù)據(jù)集進行訓(xùn)練,該數(shù)據(jù)集包含在 22 個機器人上采集的能夠完成 16 萬個任務(wù)的上百萬條數(shù)據(jù)。其中,RT-1充當(dāng)小腦層級的控制器,由大模型負責(zé)頂層理解和指令分解,例如打開抽屜、將物體從抽屜里拿出來等。RT-2 采取端到端路徑,將語言、動作 tokens 進行對齊,微調(diào)后得到 VLA 模型,使得模型能夠通過視覺輸入和語言指令生成正確的動作標(biāo)記序列。大模型使機器人從 Model-Based 向 Learning-Based 轉(zhuǎn)變,在解決復(fù)雜和高維度的運動控制問題上具備更高的上限。但是大模型的訓(xùn)練需要海量數(shù)據(jù),按數(shù)據(jù)來源分類,可分為真實數(shù)據(jù)和仿真數(shù)據(jù)。真實數(shù)據(jù)效果最好,但需要耗費大量人力和硬件成本。仿真數(shù)據(jù)成本低,可以大規(guī)模獲取,但通常存在 sim-to-real gap。
【數(shù)據(jù)是具身智能發(fā)展的核心】
小模型時代算法的數(shù)量和質(zhì)量對于機器人至關(guān)重要;然而大模型的 Scaling Law 表明通過增加數(shù)據(jù)量、擴大模型規(guī)模以及延長訓(xùn)練時間,可以實現(xiàn)模型性能的持續(xù)提升,數(shù)據(jù)重要性凸顯。并且不同于語言、圖像或視頻等二維模型的訓(xùn)練, 具身智能底層模型的訓(xùn)練,需要在物理世界絕對坐標(biāo)系下的精確測量數(shù)據(jù),數(shù)據(jù)獲取難度、成本、標(biāo)注周期都遠超語言模型。
從產(chǎn)業(yè)發(fā)展進程看,類比自動駕駛,特斯拉大規(guī)模采集的數(shù)據(jù)推動了 FSD 性能的提升,具身智能產(chǎn)業(yè)發(fā)展的核心在于數(shù)據(jù)。
區(qū)別于大模型可以從網(wǎng)絡(luò)中獲取數(shù)據(jù)并進行訓(xùn)練,具身智能如果想要具備高泛化性和可靠性,則需要在真實物理世界里獲取數(shù)據(jù)來完善模型,而獲取真實物理世界的數(shù)據(jù)的關(guān)鍵就在于商業(yè)化落地。根據(jù) 1X AI 副總裁 Eric Jang 在個人博客網(wǎng)站上發(fā)表的“All Roads Lead to Robotics ”一文,具身智能的商業(yè)化路徑主要包括三種:通用場景軟硬結(jié)合、 軟件路徑、以及垂直領(lǐng)域軟硬結(jié)合。
從具身智能訓(xùn)練層面,建議關(guān)注具備柔性、流體仿真等技術(shù)的廠商,如索辰科技。從具身智能商業(yè)化路徑層面,建議關(guān)注英偉達、華為合作廠商,如九號公 司、中堅科技、高新興、潤和軟件、安聯(lián)銳視等以及細分領(lǐng)域龍頭廠商如??禉C機器人。
我們篩選出以下潛力標(biāo)的
中堅科技(002779)2024年 2 月份,公司根據(jù)經(jīng)營及戰(zhàn)略發(fā)展的需要,公司擬與兆新股份全資孫公司香港兆新實業(yè)共同設(shè)立海外SPV 公司,并通過 SPV 公司投資海外人工智能機器人 1XHoldingAS 公司。
索辰科技(688507)公司 2024 年成立的機器人事業(yè)部:該部門的使命在于開發(fā)針對機器人行業(yè)的專業(yè)軟件和解決方案。公司的機器人設(shè)計軟件將涵蓋并聯(lián)機器人(包括人形機器人)本體的完整研發(fā)過程,從功能設(shè)計、構(gòu)型綜合、性能分析到結(jié)構(gòu)設(shè)計優(yōu)化。
安聯(lián)銳視(301042)公司自主研發(fā)了監(jiān)控行業(yè)的人工智能 AI 技術(shù)應(yīng)用,如人臉識別技術(shù)、人形偵測技術(shù)、車型偵測技術(shù)。
參考資料:中銀證券-智能體專題報告之二:智能體時代來臨,具身智能有望成為最佳載體.pdf
免責(zé)聲明:本文由投資顧問: 馮利勇(執(zhí)業(yè)證書編碼:A1280620060001)、羅力川(登記編號:A1280622110002)等編輯整理,僅代表團隊觀點,任何投資建議不作為您投資的依據(jù),您須獨立作出投資決策,風(fēng)險自擔(dān)。請您確認自己具有相應(yīng)的權(quán)利能力、行為能力、風(fēng)險識別能力及風(fēng)險承受能力,能夠獨立承擔(dān)法律責(zé)任。 所涉及個股僅作投資參考和學(xué)習(xí)交流,不作為買賣依據(jù)。投資有風(fēng)險,入市需謹(jǐn)慎!
審核編輯 黃宇
-
機器人
+關(guān)注
關(guān)注
213文章
30237瀏覽量
217688 -
人工智能
+關(guān)注
關(guān)注
1811文章
49487瀏覽量
258006 -
智能體
+關(guān)注
關(guān)注
1文章
362瀏覽量
11412
發(fā)布評論請先 登錄
成都華微與具身科技開啟四川具身智能產(chǎn)業(yè)新篇章

評論