chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

李飛飛萬字長(zhǎng)文:空間智能是AI的下一個(gè)十年

穎脈Imgtec ? 2025-11-19 21:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

原文標(biāo)題:《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》

原文鏈接:https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence


1950 年,當(dāng)計(jì)算機(jī)不過是自動(dòng)化算術(shù)和簡(jiǎn)單邏輯的代名詞時(shí),艾倫·圖靈提出了一個(gè)至今仍有回響的問題:機(jī)器能思考嗎?他以非凡的想象力預(yù)見到了我們今天所見的景象:智能或許可以被構(gòu)建,而非與生俱來。這一洞見后來啟動(dòng)了一場(chǎng)被稱為人工智能的不懈科學(xué)探索。在我自己從事 AI 工作的第二十五年里,我仍然受到圖靈愿景的啟發(fā)。但我們離目標(biāo)有多近?答案并不簡(jiǎn)單。

今天,大語(yǔ)言模型(Large Language Models,LLMs)等領(lǐng)先的 AI 技術(shù)已經(jīng)開始改變我們獲取和處理抽象知識(shí)的方式。然而,它們?nèi)匀皇呛诎抵械奈淖纸橙耍恍坜q但缺乏經(jīng)驗(yàn),博學(xué)但未能落地。空間智能將改變我們創(chuàng)造和交互真實(shí)與虛擬世界的方式——革新敘事、創(chuàng)意機(jī)器人技術(shù)、科學(xué)發(fā)現(xiàn)等等。這是 AI 的下一個(gè)前沿。

自踏入這個(gè)領(lǐng)域伊始,對(duì)視覺與空間智能的求索,便是我念茲在茲、一路前行的“北極星”。為此,我投入數(shù)年時(shí)間構(gòu)建了 ImageNet,這是首個(gè)大規(guī)模視覺學(xué)習(xí)與基準(zhǔn)測(cè)試數(shù)據(jù)集,它與神經(jīng)網(wǎng)絡(luò)算法、圖形處理器GPUs)等現(xiàn)代計(jì)算技術(shù)一道,成為催生現(xiàn)代 AI 誕生的三大關(guān)鍵要素之一。為此,我在斯坦福的學(xué)術(shù)實(shí)驗(yàn)室在過去十年間,致力于將計(jì)算機(jī)視覺與機(jī)器人學(xué)習(xí)相結(jié)合。也正是為此,一年多以前,我與聯(lián)合創(chuàng)始人 Justin Johnson, Christoph Lassner 和 Ben Mildenhall 共同創(chuàng)立了 World Labs,旨在首次將這一可能性完整地變?yōu)楝F(xiàn)實(shí)。

在這篇文章中,我將解釋什么是空間智能,為什么它重要,以及我們?nèi)绾螛?gòu)建將解鎖它的世界模型——其影響將重塑創(chuàng)造力、具身智能和人類進(jìn)步。


空間智能:人類認(rèn)知的基礎(chǔ)架構(gòu)

AI 從未如此令人興奮。大語(yǔ)言模型等生成式 AI 模型已經(jīng)從研究實(shí)驗(yàn)室走向日常生活,成為數(shù)十億人的創(chuàng)造力、生產(chǎn)力和溝通工具。它們展示了曾被認(rèn)為不可能的能力,輕松生成連貫的文本、大量代碼、照片級(jí)逼真的圖像,甚至短視頻片段。AI 是否會(huì)改變世界已不再是問題。以任何合理的標(biāo)準(zhǔn)來衡量,它已經(jīng)改變了。

然而,仍有太多東西超出我們的能力范圍。自主機(jī)器人的愿景仍然引人入勝但充滿猜測(cè),遠(yuǎn)未成為未來學(xué)家們長(zhǎng)期承諾的日常設(shè)備。在疾病治療、新材料發(fā)現(xiàn)和粒子物理學(xué)等領(lǐng)域大規(guī)模加速研究的夢(mèng)想在很大程度上仍未實(shí)現(xiàn)。而那種能夠真正理解并賦能人類創(chuàng)造者的 AI——無論是幫助學(xué)生理解復(fù)雜的分子化學(xué)概念,協(xié)助建筑師將空間可視化,輔助電影制作人構(gòu)建世界,還是讓任何人尋求完全沉浸式的虛擬體驗(yàn)——其承諾也仍未兌現(xiàn)。

要了解為什么這些能力仍然難以捉摸,我們需要考察空間智能是如何進(jìn)化的,以及它如何塑造我們對(duì)世界的理解。

視覺一直是人類智能的基石之一,但它的力量源自更為基礎(chǔ)的某種東西。在動(dòng)物學(xué)會(huì)筑巢、照料幼崽、用語(yǔ)言溝通或建立文明之前很久,“感知”這一看似孤立的能力——感受到一縷微光,觸到某種紋理——就悄然點(diǎn)燃了一條通往智能的演化之路。

從外部世界獲取信息的這個(gè)簡(jiǎn)單動(dòng)作,在感知與生存之間搭起了一座橋梁,隨著時(shí)代演進(jìn),這座橋愈加堅(jiān)固、愈加精巧。一層又一層的神經(jīng)元從那座橋梁生長(zhǎng)出來,形成解釋世界并協(xié)調(diào)生物體與其環(huán)境之間互動(dòng)的神經(jīng)系統(tǒng)。因此,許多科學(xué)家推測(cè),感知和行動(dòng)成為驅(qū)動(dòng)智能進(jìn)化的核心循環(huán),以及自然界創(chuàng)造我們?nèi)祟愡@一感知、學(xué)習(xí)、思考和行動(dòng)的終極化身的基礎(chǔ)。

空間智能在我們與物理世界的互動(dòng)方式中扮演著核心角色。每一天,我們都依賴它來完成最普通的行為:通過想象保險(xiǎn)杠與路緣之間的距離來停車,接住拋過來的鑰匙,在擁擠的人行道上穿行而避免碰撞,或是在睡意朦朧中將咖啡倒入杯中而無需凝視。在更極端的情況下,消防員在煙霧彌漫、結(jié)構(gòu)不穩(wěn)的倒塌建筑中穿行,瞬間判斷穩(wěn)定性和生存可能,并通過手勢(shì)、肢體語(yǔ)言和一種沒有語(yǔ)言替代的職業(yè)直覺進(jìn)行溝通。而孩子們?cè)谘姥缹W(xué)語(yǔ)前的幾年里,通過與環(huán)境的玩耍互動(dòng)來學(xué)習(xí)世界。所有這一切都發(fā)生得直觀且自然——這種流暢性是機(jī)器尚未達(dá)到的。

空間智能同樣是我們想象力與創(chuàng)造力的基礎(chǔ)。故事講述者在腦海中創(chuàng)造出豐富多樣的世界,并利用從古代洞穴壁畫到現(xiàn)代電影,再到沉浸式視頻游戲等多種視覺媒介,將它們呈現(xiàn)給他人。無論是孩子在沙灘上堆砌沙堡,還是在電腦上玩《我的世界》,這種基于空間的想象力構(gòu)成了真實(shí)或虛擬世界中互動(dòng)體驗(yàn)的基礎(chǔ)。在許多行業(yè)應(yīng)用中,對(duì)物體、場(chǎng)景和動(dòng)態(tài)互動(dòng)環(huán)境的模擬,為從工業(yè)設(shè)計(jì)到數(shù)字孿生再到機(jī)器人訓(xùn)練等無數(shù)關(guān)鍵業(yè)務(wù)提供了動(dòng)力。

歷史上,那些真正塑造文明走向的時(shí)刻,往往都能看到空間智能的身影。在古希臘,埃拉托斯特尼將影子轉(zhuǎn)化為幾何學(xué)——在太陽(yáng)直射賽因城(Syene)的同一時(shí)刻,測(cè)量出亞歷山大港 7 度的太陽(yáng)夾角——從而計(jì)算出地球的周長(zhǎng)。哈格里夫斯的“珍妮紡紗機(jī)”,憑借一項(xiàng)空間布局的巧思,徹底改寫了紡織業(yè)的歷史:將多個(gè)紡錘并排排列在同一個(gè)框架中,使得一名工人能同時(shí)紡織多根紗線,生產(chǎn)效率提升了八倍。

沃森(Watson)和克里克(Crick)則通過親手搭建 3D 分子模型發(fā)現(xiàn)了 DNA 的結(jié)構(gòu),他們不斷操控金屬板和金屬絲,直到堿基對(duì)的空間排列“咔噠”一聲完美契合。在每一個(gè)案例中,空間智能都推動(dòng)著文明的進(jìn)步,科學(xué)家和發(fā)明家們必須操控物體、將結(jié)構(gòu)可視化、并對(duì)物理空間進(jìn)行推理——所有這些都無法單憑文字來捕捉。

空間智能是我們認(rèn)知構(gòu)建的基礎(chǔ)架構(gòu)。無論我們是被動(dòng)觀察還是主動(dòng)尋求創(chuàng)造,它都在發(fā)揮作用。它驅(qū)動(dòng)我們的推理和規(guī)劃,即使是在最抽象的話題上。它對(duì)我們互動(dòng)的方式——無論是言語(yǔ)的還是身體的,與同伴的還是與環(huán)境的——都至關(guān)重要。雖然我們大多數(shù)人平日里并不會(huì)像埃拉托斯特尼那樣揭示新的真理,但我們每天都在以同樣的方式思考——通過感官感知一個(gè)復(fù)雜的世界,然后利用對(duì)它在物理、空間維度上如何運(yùn)作的直觀理解來認(rèn)識(shí)它。遺憾的是,今天的 AI 還不會(huì)這樣思考。

過去幾年確實(shí)取得了巨大進(jìn)步。多模態(tài)大語(yǔ)言模型(Multimodal LLMs,MLLMs)除了文本數(shù)據(jù)外,還使用海量多媒體數(shù)據(jù)進(jìn)行訓(xùn)練,引入了一些基本的空間意識(shí),今天的 AI 可以分析圖片、回答有關(guān)它們的問題,并生成超逼真的圖像和短視頻。通過傳感器和觸覺技術(shù)的突破,我們最先進(jìn)的機(jī)器人可以開始在高度受限的環(huán)境中操縱物體和工具。

但坦白而言,AI 的空間能力仍遠(yuǎn)未達(dá)到人類水平。其局限性很快就會(huì)顯現(xiàn)。最先進(jìn)的 MLLM 模型在估計(jì)距離、方向和大小(或"在腦海中"通過從新角度重新生成物體來旋轉(zhuǎn)它們)方面的表現(xiàn)很少好于隨機(jī)猜測(cè)。它們無法導(dǎo)航迷宮、識(shí)別捷徑或預(yù)測(cè)基本物理現(xiàn)象。AI 生成的視頻都很新穎且確實(shí)很酷,但往往在幾秒鐘后就失去連貫性。

雖然當(dāng)前最先進(jìn)的 AI 在閱讀、寫作、研究和數(shù)據(jù)模式識(shí)別方面表現(xiàn)出色,但這些相同的模型在表示或與物理世界互動(dòng)時(shí)存在根本性限制。我們對(duì)世界的看法是整體的——不僅僅是我們正在看的東西,還包括一切事物在空間上如何關(guān)聯(lián)、它意味著什么以及為什么重要。通過想象、推理、創(chuàng)造和互動(dòng)——而非僅僅描述——來理解這一點(diǎn),正是空間智能的力量。沒有它,AI 就與其試圖理解的物理現(xiàn)實(shí)脫節(jié)。它無法有效駕駛我們的汽車、引導(dǎo)我們家中和醫(yī)院中的機(jī)器人、實(shí)現(xiàn)全新的沉浸式和互動(dòng)式學(xué)習(xí)娛樂體驗(yàn)方式,或加速材料科學(xué)和醫(yī)學(xué)的發(fā)現(xiàn)。

哲學(xué)家維特根斯坦曾寫道:“我的語(yǔ)言的界限意味著我的世界的界限?!蔽也皇钦軐W(xué)家。但我至少知道對(duì) AI 而言,不僅僅只有語(yǔ)言??臻g智能代表著語(yǔ)言之外的前沿——連接想象、感知和行動(dòng)的能力,為機(jī)器真正增強(qiáng)人類生活開啟可能性,從醫(yī)療保健到創(chuàng)造力,從科學(xué)發(fā)現(xiàn)到日常協(xié)助。


AI 的下一個(gè)十年:構(gòu)建真正空間智能的機(jī)器

那么,我們?cè)撊绾螛?gòu)建具備空間智能的 AI?要打造出能像埃拉托斯特尼般洞察幾何、如工業(yè)設(shè)計(jì)師般精工巧思、似故事家般揮灑想象、同急救員般自如行動(dòng)的模型,其路徑何在?

構(gòu)建空間智能 AI 需要比大語(yǔ)言模型更雄心勃勃的東西:世界模型,一種新型生成模型,其在理解、推理、生成以及與語(yǔ)義、物理、幾何和動(dòng)態(tài)復(fù)雜的世界(虛擬或真實(shí))交互方面的能力遠(yuǎn)超當(dāng)今 LLMs 的能力范圍。該領(lǐng)域尚處于初期,當(dāng)前方法從抽象推理模型到視頻生成系統(tǒng)不等。World Labs 于 2024 年初基于這一信念成立:基礎(chǔ)方法仍在建立中,這使之成為下一個(gè)十年的決定性挑戰(zhàn)。

在這個(gè)新興領(lǐng)域,最重要的是建立指導(dǎo)發(fā)展的原則。對(duì)于空間智能,我通過三個(gè)基本能力來定義世界模型:

1、生成性:世界模型可以生成具有感知、幾何和物理一致性的世界

解鎖空間理解和推理的世界模型也必須生成自己的模擬世界。它們必須能夠產(chǎn)生無限多樣化的模擬世界,這些世界遵循語(yǔ)義或感知指令——同時(shí)保持幾何、物理和動(dòng)態(tài)一致性——無論是表示真實(shí)還是虛擬空間。研究界正在積極探索這些世界在固有幾何結(jié)構(gòu)方面應(yīng)該隱式還是顯式表示。此外,除了強(qiáng)大的潛在表示外,我相信通用世界模型的輸出還必須允許為許多不同用例生成世界的顯式、可觀察狀態(tài)。特別是,其對(duì)當(dāng)前的理解必須與其過去連貫地聯(lián)系;與導(dǎo)致當(dāng)前狀態(tài)的世界先前狀態(tài)相聯(lián)系。

2、多模態(tài):世界模型在設(shè)計(jì)上是多模態(tài)的

正如動(dòng)物和人類一樣,世界模型應(yīng)該能夠處理多種形式的輸入——在生成式 AI 領(lǐng)域中稱為“提示”(prompts)。給定部分信息——無論是圖像、視頻、深度圖、文本指令、手勢(shì)還是動(dòng)作——世界模型都應(yīng)盡可能完整地預(yù)測(cè)或生成世界狀態(tài)。這要求以真實(shí)視覺的保真度處理視覺輸入,同時(shí)以同等的能力解讀語(yǔ)義指令。這使得智能體和人類能夠通過多樣的輸入與模型就世界進(jìn)行交流,并反過來接收多樣的輸出。

3、交互性:世界模型可以基于輸入動(dòng)作輸出下一個(gè)狀態(tài)

最后,如果動(dòng)作和/或目標(biāo)是世界模型提示的一部分,其輸出必須包含世界的下一個(gè)狀態(tài),無論是隱式還是顯式表示。當(dāng)僅給定一個(gè)動(dòng)作(無論有無目標(biāo)狀態(tài))作為輸入時(shí),世界模型應(yīng)產(chǎn)生一個(gè)與世界先前狀態(tài)、預(yù)期的目標(biāo)狀態(tài)(如有),及其語(yǔ)義含義、物理定律和動(dòng)態(tài)行為相一致的輸出。隨著空間智能世界模型在其推理和生成能力上變得更加強(qiáng)大和穩(wěn)健,可以想象,在給定一個(gè)目標(biāo)的情況下,世界模型本身將能夠不僅預(yù)測(cè)世界的下一個(gè)狀態(tài),還能基于新狀態(tài)預(yù)測(cè)下一步的行動(dòng)。

這項(xiàng)挑戰(zhàn)的范圍超越了 AI 以往面臨的任何挑戰(zhàn)。

語(yǔ)言,作為人類認(rèn)知中一種純粹的生成現(xiàn)象,其規(guī)則相對(duì)簡(jiǎn)單;而世界的運(yùn)行規(guī)則要復(fù)雜得多。例如,在地球上,引力支配著運(yùn)動(dòng),原子結(jié)構(gòu)決定了光如何產(chǎn)生顏色和亮度,無數(shù)的物理定律約束著每一次互動(dòng)。即使是最具想象力的世界,也是由遵循定義它們的物理定律和動(dòng)態(tài)行為的空間物體和智能體組成的。要將所有這些——語(yǔ)義、幾何、動(dòng)態(tài)和物理——一致地協(xié)調(diào)起來,需要全新的方法。表現(xiàn)一個(gè)世界的維度,遠(yuǎn)比表現(xiàn)像語(yǔ)言這樣的一維順序信號(hào)要復(fù)雜得多。

要實(shí)現(xiàn)能提供我們?nèi)祟愃碛械哪欠N通用能力的世界模型,需要克服幾個(gè)艱巨的技術(shù)障礙。在 World Labs,我們的研究團(tuán)隊(duì)正致力于在實(shí)現(xiàn)這一目標(biāo)的道路上取得根本性的進(jìn)展。

目前,我們?cè)趲讉€(gè)方向上開展研究。

其一,是為訓(xùn)練找到一種新的“通用任務(wù)函數(shù)”。將通用任務(wù)函數(shù)定義得像大語(yǔ)言模型中的下一個(gè)詞元預(yù)測(cè)一樣簡(jiǎn)單和優(yōu)雅,長(zhǎng)期以來一直是世界模型研究的核心目標(biāo)。在世界模型這里,輸入和輸出空間的復(fù)雜性讓這樣的目標(biāo)函數(shù)變得難以定義。但無論如何,它以及與之對(duì)應(yīng)的表征方式,都必須忠實(shí)反映幾何與物理定律,尊重世界模型作為“扎根于想象與現(xiàn)實(shí)”的表征這一根本屬性。

其二,是大規(guī)模訓(xùn)練數(shù)據(jù)。訓(xùn)練世界模型所需的數(shù)據(jù),比文本清洗要復(fù)雜得多。好消息是:龐大的數(shù)據(jù)源其實(shí)早已存在?;ヂ?lián)網(wǎng)上規(guī)模驚人的圖像和視頻,為我們提供了觸手可及的訓(xùn)練素材——難點(diǎn)在于,要發(fā)明出能從這些二維的圖像或視頻幀信號(hào)(也就是 RGB)中,抽取更深層空間信息的算法。過去十年的研究已經(jīng)表明,在語(yǔ)言模型上,數(shù)據(jù)體量與模型規(guī)模存在清晰的“縮放定律”;對(duì)世界模型而言,關(guān)鍵在于構(gòu)建能夠以類似規(guī)模利用現(xiàn)有視覺數(shù)據(jù)的架構(gòu)。除此之外,我也不會(huì)低估高質(zhì)量合成數(shù)據(jù)以及深度、觸覺等額外模態(tài)的作用。它們?cè)谟?xùn)練的關(guān)鍵階段可以補(bǔ)充互聯(lián)網(wǎng)級(jí)數(shù)據(jù)。但要走通這條路,前提是更好的傳感器系統(tǒng)、更可靠的信號(hào)提取算法,以及強(qiáng)大得多的神經(jīng)模擬方法。

其三,是新的模型架構(gòu)和表征學(xué)習(xí)。世界模型的研究必然會(huì)推動(dòng)架構(gòu)與學(xué)習(xí)算法的演進(jìn),尤其是在現(xiàn)有 MLLM 和視頻擴(kuò)散模型范式之外。當(dāng)前這些主流方法往往把數(shù)據(jù)切成一維或二維的 Token 序列,這會(huì)把一些原本簡(jiǎn)單的空間任務(wù)變得異常困難——比如在一段短視頻里數(shù)清有幾把不同的椅子,或者記住一個(gè)房間一小時(shí)之前的樣子。替代性的架構(gòu)也許能幫上忙,比如在 Token 化、上下文建模和記憶機(jī)制上,采用具備 3D 或 4D 意識(shí)的方法。舉例來說,在 World Labs,我們最近在一個(gè)名為 RTFM 的實(shí)時(shí)生成框架模型上做了一些嘗試,它使用帶空間錨點(diǎn)的“幀”作為一種空間記憶,在保持生成世界持續(xù)性的同時(shí),實(shí)現(xiàn)高效的實(shí)時(shí)生成。

顯然,在通過世界建模徹底釋放空間智能之前,我們?nèi)砸鎸?duì)巨大的挑戰(zhàn)。但這些研究絕不只是理論層面的練習(xí),它們將成為一整個(gè)新類別創(chuàng)意和生產(chǎn)力工具的核心引擎。World Labs 內(nèi)部取得的進(jìn)展讓人鼓舞。最近,我們向一小部分用戶展示了 Marble,一個(gè)首創(chuàng)的世界模型:它可以接受多模態(tài)輸入作為提示,生成并維持一致的 3D 環(huán)境,供用戶和講故事的人探索、互動(dòng),并在各自的創(chuàng)作流程中進(jìn)一步搭建。我們正努力盡快把它帶到更廣泛的公眾面前。

Marble 只是我們創(chuàng)建真正空間智能世界模型的第一步。隨著進(jìn)展加速,研究人員、工程師、用戶和商業(yè)領(lǐng)袖都開始認(rèn)識(shí)到其非凡的潛力。下一代世界模型將使機(jī)器在全新水平上實(shí)現(xiàn)空間智能——這一成就將解鎖今天的 AI 系統(tǒng)中仍在很大程度上缺失的基本能力。


使用世界模型為人類構(gòu)建更好的世界

驅(qū)動(dòng) AI 發(fā)展的動(dòng)機(jī)至關(guān)重要。作為幫助開啟現(xiàn)代 AI 時(shí)代的科學(xué)家之一,我的動(dòng)機(jī)一直很明確:AI 必須增強(qiáng)人類能力,而非取代它。多年來,我一直致力于使 AI 的開發(fā)、部署和治理與人類需求保持一致。如今技術(shù)烏托邦和末日論的極端敘事比比皆是,但我繼續(xù)持有更務(wù)實(shí)的觀點(diǎn):AI 由人開發(fā)、被人使用、由人治理。它必須始終尊重人的主體性和尊嚴(yán)。其魔力在于擴(kuò)展我們的能力;使我們更具創(chuàng)造力、聯(lián)系更緊密、更有生產(chǎn)力、更充實(shí)??臻g智能代表了這一愿景——賦能人類創(chuàng)作者、照護(hù)者、科學(xué)家和夢(mèng)想家實(shí)現(xiàn)曾經(jīng)不可能的事情。這種信念是我致力于將空間智能作為 AI 下一個(gè)偉大前沿的驅(qū)動(dòng)力。

空間智能的應(yīng)用跨越不同的時(shí)間線。創(chuàng)意工具正在涌現(xiàn)——World Labs 的 Marble 已經(jīng)將這些能力交到創(chuàng)作者和講故事者手中。機(jī)器人代表著一個(gè)雄心勃勃的中期目標(biāo),因?yàn)槲覀冋谕晟聘兄托袆?dòng)之間的循環(huán)。最具變革性的科學(xué)應(yīng)用將需要更長(zhǎng)時(shí)間,但承諾對(duì)人類繁榮產(chǎn)生深遠(yuǎn)影響。

在這些時(shí)間軸上,有幾個(gè)領(lǐng)域尤其值得期待,它們可能重新定義人類能力。當(dāng)然,實(shí)現(xiàn)這一愿景需要巨大的集體努力,遠(yuǎn)遠(yuǎn)超出任何一支團(tuán)隊(duì)或一家公司的能力邊界。它需要整個(gè) AI 生態(tài)——研究者、創(chuàng)新者、創(chuàng)業(yè)者、企業(yè)乃至政策制定者——共同參與,朝著一個(gè)共享的愿景前進(jìn)。但這個(gè)愿景值得我們投入。我們可以這樣想象未來。


創(chuàng)意:增強(qiáng)講故事和沉浸式體驗(yàn)

我個(gè)人的偶像愛因斯坦曾說過一句我很喜歡的話:“創(chuàng)造力是智能的樂趣。”在文字出現(xiàn)很久之前,人類就開始講故事——把故事畫在洞穴墻壁上,一代代口耳相傳,在共同敘事中塑造文化。故事是我們理解世界、跨越時(shí)間與距離建立連接、探索作為人的意義的方式,也是我們?cè)谏钆c愛中尋找意義的途徑。如今,空間智能有機(jī)會(huì)以一種不辜負(fù)故事重要性的方式,改變我們創(chuàng)造和體驗(yàn)敘事的方式,并把這種影響從娛樂擴(kuò)展到教育,從設(shè)計(jì)延伸到建造。

World Labs 的 Marble 平臺(tái)會(huì)把前所未有的空間能力和可控性交到電影制作人、游戲開發(fā)者、建筑師以及各種講故事者手中,讓他們?cè)跓o需傳統(tǒng) 3D 設(shè)計(jì)軟件那些繁瑣開銷的前提下,快速搭建并迭代可自由探索的三維世界。在這一過程中,創(chuàng)作行為本身依舊是鮮活而“人”的;AI 工具做的,只是放大和加速創(chuàng)作者原本就能做到的事情。比如,敘事體驗(yàn)可以在全新的維度展開。

電影人和游戲設(shè)計(jì)師可以借助 Marble 在不同世界之間穿梭,而不再受限于預(yù)算或地理?xiàng)l件,探索在傳統(tǒng)制作流程中幾乎不可能試驗(yàn)的大量場(chǎng)景和視角。隨著不同媒介與娛樂形式之間的邊界被不斷打破,我們正在接近一種全新的交互體驗(yàn):藝術(shù)、模擬和游戲彼此融合,任何人——而不僅僅是大工作室——都能創(chuàng)造并棲居于屬于自己的故事世界。隨著從概念和分鏡到完整體驗(yàn)的過程被極大加速,敘事將不再被束縛在某一種媒介里,創(chuàng)作者可以在多種載體與平臺(tái)上構(gòu)建具有共同“底層世界”的作品。

在設(shè)計(jì)層面,幾乎所有制造出來的物體或建造出來的空間,都必須先在虛擬 3D 中完成設(shè)計(jì),再落到物理世界。這一流程高度迭代,且在時(shí)間和金錢上成本都極高。有了具備空間智能的模型,建筑師可以在投入數(shù)月時(shí)間完善方案之前,就快速可視化結(jié)構(gòu),并走進(jìn)這些尚不存在的空間中“先行體驗(yàn)”,本質(zhì)上是在講述我們未來如何工作、生活與聚集的故事。工業(yè)設(shè)計(jì)師和時(shí)裝設(shè)計(jì)師,可以即時(shí)把想象轉(zhuǎn)化為形態(tài),嘗試物體如何與人體以及空間互動(dòng)。

在體驗(yàn)層面,體驗(yàn)本身是我們這個(gè)物種創(chuàng)造意義的最深刻途徑之一。在幾乎整個(gè)人類歷史中,我們共享的三維世界只有一個(gè):我們共同生活的這個(gè)物理世界。直到最近幾十年,通過游戲和早期虛擬現(xiàn)實(shí),我們才開始隱約窺見共創(chuàng)“另一個(gè)世界”的樣子。如今,當(dāng)空間智能與新的硬件形態(tài)結(jié)合在一起,比如 VR 頭顯、XR 頭顯以及沉浸式顯示設(shè)備,這種體驗(yàn)被提升到了前所未有的高度。我們正在走向這樣一個(gè)未來:走進(jìn)一個(gè)完全構(gòu)筑起來的多維世界,就像打開一本書一樣自然??臻g智能讓“造世界”的能力不再只服務(wù)于擁有專業(yè)制作團(tuán)隊(duì)的大型工作室,而是普惠給個(gè)體創(chuàng)作者、教育者,以及任何想要分享自己構(gòu)想的人。


機(jī)器人技術(shù):具身智能在行動(dòng)

從昆蟲到人類,動(dòng)物理解、導(dǎo)航和操控世界,無不依賴空間智能。機(jī)器人也不會(huì)例外。自這個(gè)領(lǐng)域誕生之初,具備空間意識(shí)的機(jī)器就一直是人們的夢(mèng)想,包括我與學(xué)生、合作者在斯坦福實(shí)驗(yàn)室做的很多工作。正因如此,我對(duì)用 World Labs 正在構(gòu)建的這類模型來實(shí)現(xiàn)它們,感到格外興奮。

要讓機(jī)器人成熟起來,關(guān)鍵在于找到可擴(kuò)展的學(xué)習(xí)路徑,而這背后的前提,是可行的訓(xùn)練數(shù)據(jù)解法。鑒于機(jī)器人必須面對(duì)的狀態(tài)空間極其龐大,它們要學(xué)會(huì)理解、推理、規(guī)劃和交互,許多人推測(cè),真正具備泛化能力的機(jī)器人,很可能需要互聯(lián)網(wǎng)數(shù)據(jù)、合成模擬和真實(shí)世界中人類示范的結(jié)合。但和語(yǔ)言模型不同,機(jī)器人研究今天面臨的最大瓶頸之一,恰恰是訓(xùn)練數(shù)據(jù)的匱乏。世界模型會(huì)在這里發(fā)揮決定性的作用。隨著世界模型在感知精度和計(jì)算效率上的提升,它們生成的輸出可以在很大程度上縮小模擬與現(xiàn)實(shí)之間的鴻溝,幫助機(jī)器人在無數(shù)不同狀態(tài)、交互和環(huán)境的模擬中高效學(xué)習(xí)。

未來,機(jī)器人作為人類的伙伴與協(xié)作者——無論是在實(shí)驗(yàn)臺(tái)前輔助科學(xué)家,還是在家中陪伴獨(dú)居老人——都有可能在勞動(dòng)力緊缺的領(lǐng)域拓展出一部分“新增勞動(dòng)力”和生產(chǎn)力。但要做到這一點(diǎn),機(jī)器人必須具備空間智能,能夠感知、推理、規(guī)劃和行動(dòng),更重要的是:在這一切的同時(shí),與人類目標(biāo)和行為保持一種富有同理心的一致。比如,在實(shí)驗(yàn)室里,一個(gè)機(jī)器人助手可以負(fù)責(zé)處理儀器,讓科學(xué)家把注意力集中到更需要靈巧操作或復(fù)雜思考的環(huán)節(jié);在家中,一個(gè)機(jī)器人可以幫年長(zhǎng)者準(zhǔn)備晚餐,卻又不剝奪對(duì)方在廚房中獲得快樂與自主的空間。真正具備空間智能的世界模型,能夠預(yù)測(cè)“下一步世界狀態(tài)”,甚至在某些情況下給出與期望相符的下一步動(dòng)作,這是實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵。

再往遠(yuǎn)一點(diǎn)看,機(jī)器人的形態(tài)本身也會(huì)極大豐富。人形機(jī)器人在我們已經(jīng)建成的這個(gè)世界里當(dāng)然有一席之地,但真正釋放創(chuàng)新潛力的,恐怕是一整個(gè)形態(tài)的譜系:在體內(nèi)遞送藥物的納米機(jī)器人、能穿梭于狹窄空間的軟體機(jī)器人、專為深海或外太空環(huán)境設(shè)計(jì)的機(jī)器體。不論形態(tài)如何,未來的空間智能模型都必須同時(shí)吸納機(jī)器人所處環(huán)境的特性,以及它們自身具身感知和運(yùn)動(dòng)的限制。但開發(fā)這類機(jī)器人面臨的一個(gè)關(guān)鍵難題,是在這些形態(tài)各異的具身形式上嚴(yán)重缺乏訓(xùn)練數(shù)據(jù)。世界模型將在生成模擬數(shù)據(jù)、搭建訓(xùn)練環(huán)境和構(gòu)建評(píng)測(cè)基準(zhǔn)方面發(fā)揮關(guān)鍵作用。


更長(zhǎng)遠(yuǎn)的視野:科學(xué)、醫(yī)療保健和教育

在科學(xué)研究中,具備空間智能的系統(tǒng)可以模擬實(shí)驗(yàn)、并行檢驗(yàn)假設(shè),還可以探索人類難以直接抵達(dá)的環(huán)境——從深海到遙遠(yuǎn)行星。它們有望改變諸如氣候科學(xué)、材料研究等領(lǐng)域的計(jì)算建模方式。通過把多維度模擬與真實(shí)世界的數(shù)據(jù)采集結(jié)合起來,這類工具可以有效降低算力門檻,擴(kuò)展每一個(gè)實(shí)驗(yàn)室的“可見范圍”。

在醫(yī)療領(lǐng)域,從實(shí)驗(yàn)室到病床,空間智能都將重塑流程。在斯坦福,我與學(xué)生、合作者多年來一直與醫(yī)院、養(yǎng)老院以及居家患者合作。這些經(jīng)歷讓我愈發(fā)確信,空間智能在這里有著巨大的變革潛力。AI 可以通過多維建模分子相互作用,加速藥物發(fā)現(xiàn);通過幫助放射科醫(yī)生發(fā)現(xiàn)醫(yī)學(xué)影像中的復(fù)雜模式,提升診斷能力;通過構(gòu)建“環(huán)境感知”的長(zhǎng)期監(jiān)護(hù)系統(tǒng),在不替代人際鏈接的前提下,為患者和照護(hù)者提供支持,更不用說機(jī)器人在各類醫(yī)療場(chǎng)景中為醫(yī)護(hù)和病患提供幫助的可能性。

在教育領(lǐng)域,空間智能可以把抽象或復(fù)雜的概念變成可感、可操作的對(duì)象,構(gòu)建出符合我們大腦和身體學(xué)習(xí)方式的迭代體驗(yàn)。在 AI 時(shí)代,更快、更高效的學(xué)習(xí)和再培訓(xùn)需求,對(duì)在校學(xué)生和成年人都尤為迫切。學(xué)生可以走進(jìn)“細(xì)胞工廠”,在多維空間里觀察分子機(jī)器如何運(yùn)轉(zhuǎn),或以一種“親臨現(xiàn)場(chǎng)”的方式走進(jìn)歷史事件。教師則獲得了一整套工具,用互動(dòng)環(huán)境來實(shí)現(xiàn)更個(gè)性化的教學(xué)。從外科醫(yī)生到工程師,各種專業(yè)人士都可以在高度逼真的模擬中反復(fù)練習(xí)復(fù)雜技能,而不會(huì)給現(xiàn)實(shí)世界帶來風(fēng)險(xiǎn)。

在所有這些領(lǐng)域,潛在的應(yīng)用場(chǎng)景幾乎無窮無盡,但目標(biāo)卻始終如一:構(gòu)建那種能增強(qiáng)人類專業(yè)能力、加速人類發(fā)現(xiàn)、放大人類關(guān)懷的 AI,而不是取代人類判斷、創(chuàng)造力與共情——這些是作為人的核心所在。


結(jié)論

過去十年見證了 AI 成為全球現(xiàn)象,成為技術(shù)、經(jīng)濟(jì)甚至地緣政治的拐點(diǎn)。但作為研究者、教育者和現(xiàn)在的企業(yè)家,圖靈 75 年前那個(gè)問題背后的精神仍然最能激勵(lì)我。我仍然分享著他的驚奇感。這正是空間智能的挑戰(zhàn)每天給予我的活力。

有史以來第一次,我們準(zhǔn)備好構(gòu)建與物理世界如此協(xié)調(diào)的機(jī)器,以至于我們可以依靠它們作為我們面臨的最大挑戰(zhàn)中的真正伙伴。無論是加速我們?cè)趯?shí)驗(yàn)室理解疾病的方式、革新我們講述故事的方式,還是在我們因疾病、傷害或年齡而最脆弱的時(shí)刻支持我們,我們正處于提升我們最關(guān)心的生活方面的技術(shù)的風(fēng)口浪尖。這是一個(gè)更深刻、更豐富、更有力量的生活的愿景。

在自然界在祖先動(dòng)物身上釋放空間智能的第一縷曙光近五億年后,我們有幸發(fā)現(xiàn)自己處于可能很快賦予機(jī)器相同能力的技術(shù)人員這一代中——并且有特權(quán)將這些能力用于世界各地人民的利益。如果沒有空間智能,我們對(duì)真正智能機(jī)器的夢(mèng)想將不會(huì)完整。

本文轉(zhuǎn)自:超算百科

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 計(jì)算機(jī)
    +關(guān)注

    關(guān)注

    19

    文章

    7761

    瀏覽量

    92650
  • AI
    AI
    +關(guān)注

    關(guān)注

    89

    文章

    37990

    瀏覽量

    295904
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    570

    瀏覽量

    11246
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    云知聲受邀出席2025人工智能+大會(huì)

    11月15日-17日,以“AI下一個(gè)十年:場(chǎng)景驅(qū)動(dòng)×新質(zhì)引擎”為主題的2025人工智能+大會(huì)主論壇在北京中關(guān)村國(guó)際創(chuàng)新中心舉辦。
    的頭像 發(fā)表于 11-26 09:19 ?230次閱讀

    華為五大創(chuàng)新開啟非洲移動(dòng)產(chǎn)業(yè)黃金十年

    、新商業(yè)、新聯(lián)接、新節(jié)能”五大場(chǎng)景化創(chuàng)新,攜手產(chǎn)業(yè)伙伴共同促進(jìn)網(wǎng)絡(luò)領(lǐng)先、生態(tài)繁榮、服務(wù)普惠,開啟非洲移動(dòng)產(chǎn)業(yè)下一個(gè)黃金十年
    的頭像 發(fā)表于 11-14 16:23 ?1109次閱讀

    萬字長(zhǎng)文AI智能體:17種體架構(gòu)詳細(xì)實(shí)現(xiàn)

    數(shù)據(jù)科學(xué)AI智能體領(lǐng)域發(fā)展迅猛,但許多資源仍然過于抽象和理論化。創(chuàng)建此項(xiàng)目的目的是為開發(fā)者、研究人員和AI愛好者提供條結(jié)構(gòu)化、實(shí)用且深入的學(xué)習(xí)路徑,以掌握構(gòu)建
    的頭像 發(fā)表于 11-07 13:16 ?271次閱讀
    <b class='flag-5'>萬字長(zhǎng)文</b><b class='flag-5'>AI</b><b class='flag-5'>智能</b>體:17種體架構(gòu)詳細(xì)實(shí)現(xiàn)

    高通的AI新程,下一個(gè)激蕩三十年

    與中國(guó)共赴AI時(shí)代之約,高通已備好行囊
    的頭像 發(fā)表于 10-02 11:00 ?3111次閱讀
    高通的<b class='flag-5'>AI</b>新程,<b class='flag-5'>下一個(gè)</b>激蕩三<b class='flag-5'>十年</b>

    Redis Sentinel和Cluster模式如何選擇

    在我十年的運(yùn)維生涯中,見過太多團(tuán)隊(duì)在Redis集群方案選擇上踩坑。有的團(tuán)隊(duì)盲目追求"高大上"的Cluster模式,結(jié)果運(yùn)維復(fù)雜度爆表;有的團(tuán)隊(duì)死守Sentinel不放,最后擴(kuò)展性成了瓶頸。今天,我想通過這篇萬字長(zhǎng)文,把我在生產(chǎn)環(huán)境中積累的經(jīng)驗(yàn)全部分享給你。
    的頭像 發(fā)表于 09-08 09:31 ?353次閱讀

    科技云報(bào)到:西湖大學(xué)、智元機(jī)器人都選它,存儲(chǔ)成為AI下一個(gè)風(fēng)口

    科技云報(bào)到:西湖大學(xué)、智元機(jī)器人都選它,存儲(chǔ)成為AI下一個(gè)風(fēng)口
    的頭像 發(fā)表于 09-03 11:24 ?521次閱讀

    3萬字長(zhǎng)文!深度解析大語(yǔ)言模型LLM原理

    繼續(xù)追本溯源,與騰訊學(xué)堂合作撰寫本文,嘗試讓人人都能懂大語(yǔ)言模型的基礎(chǔ)原理。1、大語(yǔ)言模型簡(jiǎn)述截止到2025“大模型”般泛指“超大參數(shù)模型”,參數(shù)是指深度神經(jīng)
    的頭像 發(fā)表于 09-02 13:34 ?3029次閱讀
    3<b class='flag-5'>萬字長(zhǎng)文</b>!深度解析大語(yǔ)言模型LLM原理

    十年積淀,DPVR AI眼鏡將正式亮相

    表示想要購(gòu)買AI眼鏡。個(gè)新的智能設(shè)備時(shí)代,正在打開。在這個(gè)節(jié)點(diǎn),深耕XR領(lǐng)域十年的DPVR(大朋VR),將帶來它的首款
    的頭像 發(fā)表于 08-14 11:47 ?854次閱讀
    <b class='flag-5'>十年</b>積淀,DPVR <b class='flag-5'>AI</b>眼鏡將正式亮相

    機(jī)器視覺的下一個(gè)十年:三大創(chuàng)新趨勢(shì)與產(chǎn)業(yè)突破

    工業(yè)4.0推動(dòng)機(jī)器視覺向3D、國(guó)產(chǎn)化、場(chǎng)景體化發(fā)展,提升檢測(cè)精度與效率,推動(dòng)智能制造升級(jí)。
    的頭像 發(fā)表于 08-14 09:39 ?637次閱讀

    AI玩具或成為下一個(gè)萬億新賽道

    如果你將擁有個(gè)家庭新成員,你首先會(huì)想到什么?是孩子還是寵物?如果我說你下一個(gè)家庭成員,或許是個(gè)會(huì)“察言觀色”的
    的頭像 發(fā)表于 07-29 10:15 ?866次閱讀

    萬字長(zhǎng)文】物聯(lián)網(wǎng)的激蕩二十年

    (InternetofThings)”。雖然業(yè)界致認(rèn)為,1999,麻省理工學(xué)院的KevinAshton首次提出”物聯(lián)網(wǎng)”這術(shù)語(yǔ),但僅僅只是個(gè)
    的頭像 發(fā)表于 06-27 13:42 ?1325次閱讀
    【<b class='flag-5'>萬字長(zhǎng)文</b>】物聯(lián)網(wǎng)的激蕩二<b class='flag-5'>十年</b>

    《零基礎(chǔ)開發(fā)AI Agent——手把手教你用扣子做智能體》

    Agent開發(fā)的核心技能。即使沒有編程基礎(chǔ),也能通過本書輕松上手,設(shè)計(jì)出屬于自己的智能體。無論是個(gè)人興趣還是企業(yè)應(yīng)用,這本書都能為我打開AI世界的大門,抓住AI技術(shù)的下一個(gè)風(fēng)口,實(shí)現(xiàn)從
    發(fā)表于 03-18 12:03

    萬字長(zhǎng)文!工業(yè)5.0的內(nèi)涵、體系架構(gòu)和使能技術(shù)

    摘要: 工業(yè)4.0誕生以來,強(qiáng)化了數(shù)字化、數(shù)據(jù)驅(qū)動(dòng)和互聯(lián)的工業(yè)所帶來的高度變革性影響。但是工業(yè)4.0沒有強(qiáng)調(diào)工業(yè)在全球范圍內(nèi)為人類提供長(zhǎng)期服務(wù)的重要性,也沒有很好解決如何利用技術(shù)創(chuàng)新來促進(jìn)工業(yè)與社會(huì)之間的協(xié)作和“雙贏”互動(dòng)等問題。工業(yè)5.0系統(tǒng)地提出將勞動(dòng)者作為工業(yè)生產(chǎn)的核心,從而實(shí)現(xiàn)就業(yè)和增長(zhǎng)之外的社會(huì)目標(biāo),穩(wěn)健地提供繁榮。但是,工業(yè)5.0作為對(duì)工業(yè)未來發(fā)展的再思考,目前其研究尚處于探索階段,研究成果相對(duì)較少且缺乏
    的頭像 發(fā)表于 02-05 11:30 ?1865次閱讀
    <b class='flag-5'>萬字長(zhǎng)文</b>!工業(yè)5.0的內(nèi)涵、體系架構(gòu)和使能技術(shù)

    【6千字長(zhǎng)文】車載芯片的技術(shù)沿革與趨勢(shì)分析

    【本文是讀者投稿。6千字長(zhǎng)文,規(guī)格嚴(yán)謹(jǐn)?!?1什么是芯片?什么是汽車芯片?芯片,通俗地說,就是塊小硅片集成了許多微小的電子元件,如晶體管、電阻、電容等元件通過復(fù)雜的電路連接在起,形成
    的頭像 發(fā)表于 12-31 22:37 ?2010次閱讀
    【6千<b class='flag-5'>字長(zhǎng)文</b>】車載芯片的技術(shù)沿革與趨勢(shì)分析

    萬字長(zhǎng)文,看懂激光基礎(chǔ)知識(shí)!

    深入介紹激光基礎(chǔ)知識(shí),幫助您輕松理解激光領(lǐng)域的關(guān)鍵概念和原理。
    的頭像 發(fā)表于 12-20 09:49 ?1924次閱讀
    <b class='flag-5'>萬字長(zhǎng)文</b>,看懂激光基礎(chǔ)知識(shí)!