來(lái)源:絕影智能SenseAuto
近日,由汽車之家主辦的「汽車之家全球AI科技大會(huì)」在北京舉行。商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、CTO、商湯絕影CEO王曉剛出席大會(huì),并發(fā)表《世界模型:智能駕駛范式演進(jìn)新路標(biāo)》主題演講,分享了“絕影開(kāi)悟”世界模型給智能駕駛帶來(lái)的技術(shù)變遷。
演講中他談到三個(gè)核心點(diǎn):
第一,世界模型“生成式智駕”帶來(lái)智能駕駛3.0階段。智能駕駛從依賴人工標(biāo)注的“規(guī)則式智駕”1.0階段,發(fā)展到把人類行為積累轉(zhuǎn)化成為模型的“端到端智駕”2.0階段,最終正邁向通過(guò)世界模型和強(qiáng)化學(xué)習(xí)帶來(lái)超越人類的“生成式智駕”3.0階段。
第二,“絕影開(kāi)悟”世界模型推動(dòng)智能駕駛在三個(gè)方面取得突破。一是突破數(shù)據(jù)瓶頸,通過(guò)世界模型能夠生成無(wú)限長(zhǎng)尾場(chǎng)景;二是有更加確定的技術(shù)安全邊界,通過(guò)仿真模擬物理世界,在仿真環(huán)境中不斷嘗試;三是通過(guò)自主進(jìn)化達(dá)到超越人類駕駛的體驗(yàn)。
第三,“絕影開(kāi)悟”世界模型實(shí)現(xiàn)全場(chǎng)景覆蓋,推動(dòng)智能駕駛、具身智能跨越式發(fā)展。世界模型積累百萬(wàn)級(jí)數(shù)據(jù)集,覆蓋各種復(fù)雜的場(chǎng)景,實(shí)現(xiàn)高保真、多視角時(shí)空一致性、4D實(shí)時(shí)互動(dòng)。同時(shí),世界模型在自動(dòng)駕駛場(chǎng)景里開(kāi)發(fā)出來(lái)的技術(shù)體系,也將賦能具身智能發(fā)展。
以下為主題演講內(nèi)容:
各位領(lǐng)導(dǎo)、各位同仁、各位嘉賓,大家下午好!
非常感謝汽車之家的邀請(qǐng),來(lái)參加全球AI科技大會(huì),也能夠有機(jī)會(huì)和大家分享世界模型——通用人工智能給自動(dòng)駕駛帶來(lái)的技術(shù)的變遷。
世界模型“生成式智駕”帶來(lái)智能駕駛3.0階段
首先,我們認(rèn)為自動(dòng)駕駛技術(shù)演進(jìn)的頻率是非??斓?。自動(dòng)駕駛作為人工智能非常重要的組成部分,它的技術(shù)變遷也反映了人工智能發(fā)展的三個(gè)階段。大家比較熟悉的基于規(guī)則的智能駕駛,是自動(dòng)駕駛的第一個(gè)階段。這一階段通過(guò)AI輸出感知的結(jié)果,建立各種規(guī)則,并預(yù)定義這些邏輯,再根據(jù)優(yōu)化物理模型實(shí)現(xiàn)規(guī)控?;谏鲜霈F(xiàn)象,我們?cè)谌斯ぶ悄馨l(fā)展的每個(gè)階段會(huì)問(wèn)這樣一個(gè)問(wèn)題:智能到底是從哪里來(lái)?實(shí)際上,在第一個(gè)階段,很多的智能來(lái)自于人工。人類需要大量標(biāo)注各類感知數(shù)據(jù),然后得到它的輸出,并人工書(shū)寫(xiě)各式各樣的規(guī)則。所以在上述階段有一句話:有多少人工就有多少的智能。而這個(gè)階段很像人工智能1.0發(fā)展的階段,例如我們會(huì)做很多人臉識(shí)別的視頻分析;我們會(huì)針對(duì)安防的場(chǎng)景,人工輸入智能的數(shù)據(jù)。
第二個(gè)階段是大模型的出現(xiàn),這是人工智能領(lǐng)域2.0,代表產(chǎn)品如ChatGPT。在互聯(lián)網(wǎng)上出現(xiàn)了過(guò)去很多年人類行為的數(shù)據(jù)積累,比如各種文章、代碼,這些都是人類行為智能的體現(xiàn)。在自動(dòng)駕駛領(lǐng)域,對(duì)應(yīng)的是人類的駕駛行為,也就是第二階段行業(yè)內(nèi)推動(dòng)的端到端自動(dòng)駕駛。端到端自動(dòng)駕駛把過(guò)去長(zhǎng)時(shí)間人類行為積累的智能轉(zhuǎn)化成為模型的智能,這時(shí)候就出現(xiàn)了很大的智能和體驗(yàn)上的躍遷。但是其自身也有瓶頸,那便是人類的行為就是智能的天花板,同時(shí)這種智能依賴大量高質(zhì)量數(shù)據(jù)。從自動(dòng)駕駛發(fā)展來(lái)看,今天的大模型發(fā)展也遇到了上述瓶頸,因?yàn)槲覀冊(cè)诨ヂ?lián)網(wǎng)上積累起來(lái)的數(shù)據(jù)價(jià)值面臨枯竭境地。
因此,便進(jìn)入了第三個(gè)階段,通過(guò)世界模型,通過(guò)生成式智駕,通過(guò)強(qiáng)化學(xué)習(xí)做出進(jìn)一步的突破。舉一個(gè)非常典型的例子,2015年在圍棋領(lǐng)域出現(xiàn)了AIphaGo。之后又出現(xiàn)了AIphaZero,相較于AIphaGo,AIphaZero不需要任何人類知識(shí)的輸入,它也能夠產(chǎn)生大量的智能?,F(xiàn)如今在自動(dòng)駕駛領(lǐng)域,大家都希望有一個(gè)世界模型,這個(gè)模型就像在圍棋里面,能夠創(chuàng)造棋盤和人類定義的圍棋規(guī)則,這便是更高階的智能。對(duì)照圍棋的例子,我們希望自動(dòng)駕駛也能夠通過(guò)強(qiáng)化學(xué)習(xí)來(lái)突破人類行為上限。要達(dá)成這個(gè)目標(biāo),我們就需要一個(gè)世界模型。讓世界模型來(lái)模擬物理世界的規(guī)律、人類行為的法則和規(guī)律。在仿真的世界模型環(huán)境里面,機(jī)器通過(guò)強(qiáng)化學(xué)習(xí)做到不斷的提升,以及突破人類駕駛的上限。
我們可以看到今天在人工智能3.0的發(fā)展中,人們還提出了具身智能,這是從原來(lái)互聯(lián)網(wǎng)數(shù)據(jù)走出來(lái),通過(guò)跟物理世界交互產(chǎn)生的新智能。在具身智能領(lǐng)域,世界模型也會(huì)扮演非常重要的角色。
“絕影開(kāi)悟”世界模型推動(dòng)智能駕駛在三個(gè)方面取得突破
回到端到端自動(dòng)駕駛所面臨的問(wèn)題,主要有三個(gè)方面。一是需要大量的數(shù)據(jù)。特斯拉擁有幾百萬(wàn)臺(tái)車,而且這些車的傳感器配置是一致的,所以能夠回流大量的數(shù)據(jù)。而我們面臨的問(wèn)題是沒(méi)有如此規(guī)模的數(shù)據(jù)。二是對(duì)于各種危險(xiǎn)復(fù)雜的場(chǎng)景,尤其是Corner Case,這些場(chǎng)景獲得成本是非常高的,風(fēng)險(xiǎn)也是非常高的。怎么獲得這些高質(zhì)量的數(shù)據(jù)是我們需要解決的問(wèn)題。第三個(gè)是安全的邊界。現(xiàn)在端到端自動(dòng)駕駛中發(fā)現(xiàn)一個(gè)問(wèn)題場(chǎng)景,我們就需要采集很多跟這個(gè)場(chǎng)景所類似的其他數(shù)據(jù),重新訓(xùn)練模型。但是模型訓(xùn)練完之后也不能夠確定這個(gè)場(chǎng)景是否真正被解決,因?yàn)槎说蕉思夹g(shù)有不確定性在。
針對(duì)這些問(wèn)題,我們要把世界模型、強(qiáng)化學(xué)習(xí),以及端到端技術(shù)相結(jié)合。在這里,核心是要有一個(gè)端到端的多模態(tài)大模型。這個(gè)模型的輸入可能是各種視覺(jué)的、激光的、語(yǔ)言文字導(dǎo)航的信息,輸出是車輛的行為。端到端大模型會(huì)預(yù)測(cè)車輛的軌跡,基于預(yù)測(cè)的軌跡反饋給世界模型,世界模型就能夠模擬仿真出物理世界將會(huì)怎樣的變化,給我們反饋基于世界模型合成的視頻,這些反饋將重新訓(xùn)練端到端模型。而且這個(gè)方法會(huì)告訴我們,什么樣的仿真模型是好的,如此循環(huán)往復(fù)的迭代,不斷提升端到端的性能。同時(shí),在這個(gè)仿真環(huán)境里面可以無(wú)數(shù)次的試錯(cuò),有了問(wèn)題場(chǎng)景以后,通過(guò)無(wú)數(shù)次的嘗試一定能夠解決我們所關(guān)心的問(wèn)題,而且還能做到舉一反三、舉一反十、甚至反百。當(dāng)下的世界模型并不是無(wú)中生有,而是針對(duì)問(wèn)題場(chǎng)景,我們通過(guò)復(fù)現(xiàn)物理場(chǎng)景,把現(xiàn)實(shí)里不能改變的各種要素,如天氣、道路、車速等,通過(guò)模擬仿真場(chǎng)景,比較徹底地解決類似問(wèn)題。
接下來(lái)我給大家舉一個(gè)例子,看一看我們是怎么用世界模型和強(qiáng)化學(xué)習(xí)來(lái)解決問(wèn)題的。這里展示的是一個(gè)問(wèn)題場(chǎng)景。前方有一個(gè)施工占道場(chǎng)景出現(xiàn),我們需要急剎,大家想一想完成這個(gè)動(dòng)作需要幾步?第一步需要做4D仿真的復(fù)現(xiàn),通過(guò)3DGS和靜態(tài)場(chǎng)景復(fù)現(xiàn),依托世界模型對(duì)它進(jìn)行修復(fù),就能夠得到更高質(zhì)量的4D空間。在4D空間里就可以嘗試各種不同駕駛的行為,調(diào)整端到端模型,嘗試各種不同的駕駛行為,直到在這個(gè)環(huán)境里找到最佳的駕駛行為。我們有一套完善的辦法去評(píng)價(jià)什么樣的駕駛行為是好的。
在上述單一場(chǎng)景里我們得到模型的更新和驗(yàn)證后,接下來(lái)我們需要得到它進(jìn)一步的多個(gè)泛化場(chǎng)景。現(xiàn)實(shí)世界中有很多類似的場(chǎng)景,比如說(shuō)復(fù)雜的施工區(qū)域,需要換道通行,遇到圍欄需要減速等。這些不同的場(chǎng)景都是通過(guò)世界模型所生成出來(lái)的各類泛化場(chǎng)景。我們的模型在這些泛化場(chǎng)景里面做進(jìn)一步的學(xué)習(xí),以及進(jìn)行測(cè)試。
所以說(shuō)現(xiàn)在的世界模型已經(jīng)可以推動(dòng)自動(dòng)駕駛在三個(gè)方面取得突破。一是數(shù)據(jù)瓶頸,可以通過(guò)世界模型產(chǎn)生無(wú)限長(zhǎng)尾場(chǎng)景。二是能夠得到驗(yàn)證的技術(shù)邊界,通過(guò)仿真模擬恢復(fù)物理的世界,在仿真環(huán)境不斷的嘗試。三是通過(guò)強(qiáng)化學(xué)習(xí)達(dá)到超越人類駕駛的體驗(yàn)。
“絕影開(kāi)悟”世界模型實(shí)現(xiàn)全場(chǎng)景覆蓋,推動(dòng)智能駕駛、具身智能跨越式發(fā)展
要解決這些問(wèn)題,背后核心是需要有個(gè)非常強(qiáng)大、質(zhì)量非常高的世界模型來(lái)重構(gòu)萬(wàn)千世界,讓安全有更多的確定性。我們對(duì)世界模型會(huì)有哪些要求呢?一是生成的數(shù)據(jù)應(yīng)該是能夠面向量產(chǎn)的,能夠有更多的場(chǎng)景,而且能夠一鍵生成復(fù)雜可控的場(chǎng)景。二是場(chǎng)景里面有各種因素,可以針對(duì)各種因素進(jìn)行編輯,能夠把各種因素通過(guò)自由組合方式,實(shí)現(xiàn)更多的拓展。三是實(shí)時(shí),在一定空間里面有非常高效的推理效率,促使在世界模型里面進(jìn)行實(shí)時(shí)互動(dòng)。
這里我們給大家看一個(gè)例子。我們坐車?yán)镉龅紺ut-in這樣比較危險(xiǎn)的場(chǎng)景。我們可以看到車?yán)镉?個(gè)攝像頭,每個(gè)攝像頭都在記錄。而要生成一個(gè)好的世界模型,就要保持多個(gè)攝像頭下的時(shí)空一致性。早在2024年,Sora模型就可以完成各種視頻的生成,現(xiàn)如今用世界模型做自動(dòng)駕駛的話,它的難點(diǎn)在哪里?那便是生成有連續(xù)性的視頻比圖像更難。生成用在自動(dòng)駕駛環(huán)境里視頻需要面臨很多困難,面對(duì)有眾多的攝像頭,模型要保持多個(gè)攝像頭的時(shí)空一致性。比如說(shuō)面對(duì)車牌、道路的限行情況,各個(gè)攝像頭里的內(nèi)容應(yīng)該是一致的。另外,還有空間的幾何關(guān)系得是一致的,這樣生成的視頻才能夠有效的用作自動(dòng)駕駛的訓(xùn)練和測(cè)試。
基于此,我們可以針對(duì)剛剛提到的打車Cut-in場(chǎng)景改變各種要素,比如換不同的天氣條件、不同的道路路形、插入的大車車型、車速和Cut-in的距離。有了這些之后,模型完全可以做到舉一反十、反一百、反一千。而且大家可以看到,這里一鍵生成了更加復(fù)雜的場(chǎng)景,例如車禍和碰撞的場(chǎng)景。
在這里我們還需要對(duì)場(chǎng)景里面的各種要素做到任意編輯,比如任意替換不同的車型、增加車輛、減少相應(yīng)的車輛,模擬不同的駕駛環(huán)境。
而且模型也需要能夠做到實(shí)時(shí)的推理,這里我們展示的是在上海市區(qū)場(chǎng)景,在這個(gè)場(chǎng)景里可以自由地開(kāi)車、加減速、轉(zhuǎn)彎。大家所看到的這些視頻都與真實(shí)世界的物理環(huán)境非常接近。
世界模型產(chǎn)品化,開(kāi)放API后,用戶可以描述他所想采用的數(shù)據(jù),然后一鍵生成形成各種各樣所期待的視頻。我們現(xiàn)在積累的百萬(wàn)級(jí)數(shù)據(jù)集,覆蓋各種復(fù)雜的場(chǎng)景,能夠?qū)崿F(xiàn)高保真?,F(xiàn)如今每一個(gè)Clips有150s,車輛有7個(gè)攝像頭就能保持比1080P更好的圖像質(zhì)量。
再說(shuō)到基礎(chǔ)設(shè)施,現(xiàn)在各地政府也建立了實(shí)訓(xùn)場(chǎng),能夠提供算力的平臺(tái),真實(shí)采集實(shí)車的數(shù)據(jù)。另外,有一半的數(shù)據(jù)也是通過(guò)世界模型模擬仿真進(jìn)行生成,兩組數(shù)據(jù)相結(jié)合可以提供給車企進(jìn)行端到端模型的訓(xùn)練。
最后說(shuō)下,在自動(dòng)駕駛場(chǎng)景里使用的世界模型所開(kāi)發(fā)出來(lái)的所有技術(shù)體系,其實(shí)也可以用到具身智能里。具身智能對(duì)世界模型的需求更加迫切。因?yàn)?a target="_blank">機(jī)器人的數(shù)量比車輛數(shù)量更少,而且每個(gè)機(jī)器人硬件的配置千差萬(wàn)別。我們希望在具身智能領(lǐng)域里,世界模型能夠做到多模態(tài)、數(shù)據(jù)對(duì)齊,能夠得到4D空間,能夠進(jìn)行快速的推理。我給大家舉兩個(gè)例子,一是輸入一條指令讓機(jī)器人能夠在公園里進(jìn)行跳躍,就會(huì)自動(dòng)地生成機(jī)器人的骨骼、姿態(tài)、動(dòng)作的變化,基于這個(gè)能夠生成機(jī)器人第一視角看到視頻的數(shù)據(jù)和第三視角的數(shù)據(jù)。另外輸入指令讓機(jī)器臂切黃瓜,同樣可以生成第一和第三視角的數(shù)據(jù)。未來(lái)我們可以用這些大量的模擬仿真數(shù)據(jù),來(lái)推動(dòng)自動(dòng)駕駛和具身智能跨越到下一個(gè)階段。
謝謝大家!
-
AI
+關(guān)注
關(guān)注
88文章
36966瀏覽量
289761 -
模型
+關(guān)注
關(guān)注
1文章
3607瀏覽量
51408 -
智能駕駛
+關(guān)注
關(guān)注
5文章
2892瀏覽量
50617 -
商湯
+關(guān)注
關(guān)注
0文章
76瀏覽量
4233
原文標(biāo)題:商湯王曉剛:世界模型帶來(lái)智能駕駛3.0階段
文章出處:【微信號(hào):SenseTime2017,微信公眾號(hào):商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
QNX亮相2025未來(lái)汽車AI計(jì)算大會(huì)
商湯絕影亮相2025長(zhǎng)安汽車科技生態(tài)大會(huì)
臺(tái)達(dá)于2025中國(guó)智算產(chǎn)業(yè)綠色科技大會(huì)推出全球可持續(xù)AI報(bào)告
商湯絕影攜手NVIDIA亮相第三屆鏈博會(huì)
西井科技亮相2025全球航運(yùn)科技大會(huì)
燧弘華創(chuàng)亮相2025聯(lián)想創(chuàng)新科技大會(huì)
工信部辛國(guó)斌到訪上海車展商湯絕影展臺(tái)
商湯絕影亮相2025上海車展
2025年聯(lián)想創(chuàng)新科技大會(huì)即將開(kāi)幕
KOWIN存儲(chǔ)亮相2025亞洲AI眼鏡大會(huì)

評(píng)論