[首發(fā)于智駕最前沿微信公眾號(hào)]這兩年自動(dòng)駕駛領(lǐng)域出現(xiàn)了一個(gè)明顯的技術(shù)轉(zhuǎn)向,大家都開始談端到端、世界模型,行業(yè)也從硬件堆料走向了大模型的比拼。2026年4月,Momenta發(fā)布了R7強(qiáng)化學(xué)習(xí)世界模型,將端到端與世界模型推到了一個(gè)更深的層次。Momenta的R7強(qiáng)化學(xué)習(xí)世界模型為自動(dòng)駕駛行業(yè)帶來了什么?

端到端大模型改變了什么?
傳統(tǒng)的自動(dòng)駕駛路徑是將駕駛?cè)蝿?wù)拆分成多個(gè)獨(dú)立環(huán)節(jié),感知模塊用于識(shí)別車道線、車輛、行人,再把識(shí)別結(jié)果交給預(yù)測(cè)模塊去推測(cè)其他交通參與者的未來走向,規(guī)劃控制模塊則根據(jù)這些信息決定方向盤轉(zhuǎn)多少、車速怎么調(diào)。這種模塊化的好處是每個(gè)環(huán)節(jié)明確可控,壞處也很明顯,那就是信息在模塊之間傳遞時(shí)會(huì)丟失,各模塊的目標(biāo)也不一定對(duì)齊,整個(gè)系統(tǒng)的上限很難突破。
端到端大模型的思路完全不同,它不再做人工切分,而是把傳感器采集到的圖像、點(diǎn)云等原始信號(hào)直接輸入一個(gè)統(tǒng)一的神經(jīng)網(wǎng)絡(luò),輸出的信息則是方向盤轉(zhuǎn)角、油門剎車等控制指令。2024年,Momenta推出了一段式端到端,也就是感知和規(guī)劃被整合到同一個(gè)大模型中,中間沒有傳統(tǒng)意義上的模塊邊界,這讓自動(dòng)駕駛汽車從看見到行動(dòng)可以一步完成。

圖片源自:網(wǎng)絡(luò)
端到端大模型也讓系統(tǒng)的行為表現(xiàn)更連貫,更接近人類的駕駛習(xí)慣。人類開車的時(shí)候不會(huì)把看見前車剎車燈和決定收油減速拆成兩個(gè)獨(dú)立環(huán)節(jié)來思考,整個(gè)過程是融合且流暢的。一段式端到端模型從數(shù)據(jù)中學(xué)到的正是這種映射關(guān)系。它不再依賴手工編寫的規(guī)則來處理跟車、變道、繞行,而是從大量真實(shí)駕駛數(shù)據(jù)中自己歸納出合理的駕駛策略,這一技術(shù)方案下,加速剎車更平順,變道時(shí)機(jī)的選擇也更自然。

強(qiáng)化學(xué)習(xí)能讓AI開車超過人類嗎?
端到端模型雖然解決了一體化驅(qū)動(dòng)決策的問題,但它有一個(gè)內(nèi)生的局限,那就是訓(xùn)練方式主要依賴模仿學(xué)習(xí)。模仿學(xué)習(xí),簡(jiǎn)單說就是讓模型去看人類司機(jī)怎么開,然后學(xué)著開,它的效果上限就是人類的表現(xiàn)水平,而人類駕駛本身遠(yuǎn)遠(yuǎn)談不上完美。對(duì)于一些極少遇到的復(fù)雜場(chǎng)景,人類數(shù)據(jù)本身就很稀缺,模型也就無從學(xué)起。
2025年,Momenta在端到端的基礎(chǔ)上引入了強(qiáng)化學(xué)習(xí),推出R6飛輪大模型。據(jù)相關(guān)報(bào)道,這是國(guó)內(nèi)第一個(gè)將強(qiáng)化學(xué)習(xí)與端到端架構(gòu)結(jié)合并真正跑通的方案。強(qiáng)化學(xué)習(xí)的機(jī)制和模仿學(xué)習(xí)迥然不同,系統(tǒng)不再只是照搬人類行為,而是在虛擬環(huán)境中自己摸索。它會(huì)嘗試各種駕駛操作,如果安全順利地完成了目標(biāo),就獲得一個(gè)獎(jiǎng)勵(lì)信號(hào);如果發(fā)生碰撞、壓線或急剎,就會(huì)收到懲罰。通過海量的試錯(cuò)和反饋,系統(tǒng)可以自己找到一套更優(yōu)的駕駛方式,這種方式完全可以超越人類預(yù)先提供的經(jīng)驗(yàn)。

圖片源自:網(wǎng)絡(luò)
用強(qiáng)化學(xué)習(xí)訓(xùn)練出來的模型,有幾個(gè)看得見的能力提升。它對(duì)潛在風(fēng)險(xiǎn)的反應(yīng)更快,比如在路口觀察到側(cè)方車輛有闖紅燈跡象時(shí),系統(tǒng)會(huì)提前微調(diào)車速以減少?zèng)_突可能,而不是等到危險(xiǎn)迫近才剎停。此外,它的加減速控制和車道選擇更偏向全局平順,很少出現(xiàn)突兀的重剎或急促的變道。當(dāng)這種模型在虛擬世界里跑過千萬次交互場(chǎng)景之后,很多現(xiàn)實(shí)中萬分之一概率才會(huì)碰到的邊緣情況,它也了可以應(yīng)付自如。

世界模型到底在理解什么?
如果說端到端和強(qiáng)化學(xué)習(xí)解決的是怎么開的問題,那Momenta在2026年推出的R7世界模型,瞄準(zhǔn)的則是一個(gè)更前置的問題,那就是AI是不是真的理解周圍正在發(fā)生什么。
世界模型這個(gè)概念,可以從三個(gè)層級(jí)來理解。最底層叫世界模型預(yù)訓(xùn)練,這個(gè)階段利用海量的真實(shí)駕駛數(shù)據(jù),把物理規(guī)律和常識(shí)壓縮進(jìn)模型。像是車輛的動(dòng)力特性、行人突然橫移的運(yùn)動(dòng)軌跡、雨天路面摩擦力的變化,這些知識(shí)不是靠人工標(biāo)注標(biāo)記出來的,而是模型通過對(duì)大量視頻數(shù)據(jù)的預(yù)測(cè)訓(xùn)練自己學(xué)到的。它學(xué)習(xí)的方式是嘗試預(yù)測(cè)下一時(shí)刻的畫面狀態(tài),即物體將移動(dòng)到哪個(gè)位置、交通燈會(huì)不會(huì)切換、前車會(huì)不會(huì)變道等,預(yù)測(cè)得越準(zhǔn),說明它對(duì)物理世界的運(yùn)行邏輯理解得越好。
中間層是世界模型仿真,預(yù)先訓(xùn)練好的世界模型可以在數(shù)字空間里充當(dāng)一個(gè)高保真的駕駛模擬器。給模型一個(gè)自車動(dòng)作,它就能推演出周圍環(huán)境接下來會(huì)如何演變,這個(gè)能力讓自動(dòng)駕駛系統(tǒng)可以在虛擬環(huán)境中安全地經(jīng)歷大量如隧道口的眩光、夜間無燈鄉(xiāng)道、高速公路上的落物等危險(xiǎn)場(chǎng)景,而不必真的把實(shí)車放在危險(xiǎn)場(chǎng)景中訓(xùn)練。

圖片源自:網(wǎng)絡(luò)
最頂層則是在世界模型中進(jìn)行強(qiáng)化學(xué)習(xí),即把前兩層構(gòu)建的虛擬世界作為訓(xùn)練場(chǎng),讓強(qiáng)化學(xué)習(xí)在這個(gè)高度真實(shí)的世界里充分探索。這樣一來,系統(tǒng)就不再是在一個(gè)死記硬背的數(shù)據(jù)集上做訓(xùn)練,而是在一個(gè)懂得物理規(guī)律的模擬社會(huì)里反復(fù)推演。
可以想象一個(gè)場(chǎng)景,對(duì)于前方車輛掉下一箱蘋果,傳統(tǒng)端到端模型如果沒見過這個(gè)畫面,可能完全不知所措;而R7世界模型因?yàn)槔斫馕矬w滾落這一物理過程本身的規(guī)律(蘋果會(huì)沿路面向前翻滾、擴(kuò)散、逐漸停止),就可以在不必事先見過這個(gè)具體場(chǎng)景的情況下,做出平穩(wěn)減速和合理繞行的決策。這種能力的本質(zhì),是從記憶走向了推理。

圖片源自:網(wǎng)絡(luò)
曹旭東在發(fā)布R7時(shí)這樣解釋他們的邏輯,預(yù)測(cè)是智能進(jìn)化的核心基石。大語言模型通過預(yù)測(cè)下一個(gè)詞來壓縮數(shù)字世界的常識(shí),而世界模型則通過預(yù)測(cè)物理世界未來的狀態(tài)來理解物體的屬性和因果關(guān)系,這就要求系統(tǒng)不但要看得見,還要想得明白。

從開車到理解世界,背后是一場(chǎng)能力重塑
沿著這條技術(shù)路線推演下來,Momenta過去幾年做的事情其實(shí)有一條清晰的主線。一段式端到端讓系統(tǒng)掌握了從感知直達(dá)行動(dòng)的能力,強(qiáng)化學(xué)習(xí)讓它在自己的試錯(cuò)中突破了人類行為的上限,而R7世界模型則試著把物理常識(shí)和因果推理真正放進(jìn)AI的底層認(rèn)知里。
三層技術(shù)疊加在一起,讓自動(dòng)駕駛系統(tǒng)從一個(gè)執(zhí)行規(guī)則的工具,逐步變成一個(gè)能理解環(huán)境規(guī)律、預(yù)判未來演變、自主做出決策的智能體。它不再讓車在固定道路上不出錯(cuò),而是讓車在面對(duì)從未見過的陌生情境時(shí),仍然能夠基于對(duì)世界運(yùn)行方式的理解,做出穩(wěn)妥的判斷。如果這條路走通,自動(dòng)駕駛的安全天花板會(huì)被打開一個(gè)全新的維度。
審核編輯 黃宇
-
自動(dòng)駕駛
+關(guān)注
關(guān)注
795文章
15019瀏覽量
181761 -
大模型
+關(guān)注
關(guān)注
2文章
3811瀏覽量
5282
發(fā)布評(píng)論請(qǐng)先 登錄
Momenta R7強(qiáng)化學(xué)習(xí)世界模型實(shí)現(xiàn)量產(chǎn)首發(fā)
Momenta R7強(qiáng)化學(xué)習(xí)世界模型助力上汽大眾ID. ERA 9X正式上市
上汽奧迪E7X攜手Momenta首發(fā)落地L3級(jí)自動(dòng)駕駛系統(tǒng)
上汽大眾ID. ERA 9X全球首發(fā)搭載Momenta R7強(qiáng)化學(xué)習(xí)世界模型
Momenta R7強(qiáng)化學(xué)習(xí)世界模型即將推出
上汽別克至境E7首發(fā)搭載Momenta R6強(qiáng)化學(xué)習(xí)大模型
Momenta亮相2025世界智能網(wǎng)聯(lián)汽車大會(huì)
Momenta亮相2025世界新能源汽車大會(huì)
傳祺向往S7 Pro+系列將首批搭載Momenta R6飛輪大模型
BSI亮相2025世界人工智能大會(huì):以國(guó)際標(biāo)準(zhǔn)構(gòu)建可信AI未來
Momenta的R7世界模型技術(shù)上有何特殊性?
評(píng)論