chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

世界模型是讓自動駕駛汽車?yán)斫馐澜邕€是預(yù)測未來?

智駕最前沿 ? 來源:智駕最前沿 ? 作者:智駕最前沿 ? 2025-12-16 09:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

[首發(fā)于智駕最前沿微信公眾號]世界模型在自動駕駛技術(shù)中已有廣泛應(yīng)用。但當(dāng)談及它對自動駕駛的作用時,難免會出現(xiàn)分歧。它到底是讓自動駕駛汽車得以理解世界,還是為其提供了預(yù)測未來的視角?

wKgZPGlAtYiAf3xYAAAQo00DEvw958.jpg

世界模型到底做了什么?

世界模型,其實是一個“內(nèi)部表征+動態(tài)預(yù)測”的組合。簡單理解,世界模型就是將感知到的東西(圖像、點云、雷達(dá)、文本、動作歷史)壓縮成一套內(nèi)部狀態(tài),然后用這套內(nèi)部狀態(tài)去生成、預(yù)測接下來可能出現(xiàn)的場景或觀察。

wKgZO2lAtYmAS7HXACdE4BnKVEM069.jpg

圖片源自:網(wǎng)絡(luò)

想要實現(xiàn)“內(nèi)部表征+動態(tài)預(yù)測”,有兩個關(guān)鍵的技術(shù)不得不去討論,一個是“表示”(representation),也就是把復(fù)雜的外界信息提煉成對后續(xù)推斷和決策有用的結(jié)構(gòu);還有一個是“生成/預(yù)測”(generative/predictive),即基于表示去推演、采樣、評估未來可能發(fā)生的序列。

早期很多研究發(fā)現(xiàn),如果智能體每一步都只根據(jù)當(dāng)前看到的畫面直接“做反應(yīng)”,其實跟條件反射差不多,缺少前瞻性。一旦場景稍微復(fù)雜,或者需要權(quán)衡幾步之后的結(jié)果,這種做法就很容易失誤。于是“世界模型”這個概念就被引入到強(qiáng)化學(xué)習(xí)中,也就是先讓系統(tǒng)學(xué)會一個簡化但可信的“世界運行方式”,也就是學(xué)清楚在某個狀態(tài)下采取什么動作,環(huán)境大概率會往哪個方向發(fā)展。等這個模型學(xué)成了,策略就不再只盯著眼前這一刻,而是可以在這個“內(nèi)部世界”里提前試著走幾步,看看不同選擇大概會帶來什么后果,再決定現(xiàn)實中該怎么做。

這種做法的變化點在于,系統(tǒng)不再是“看見什么就立刻反應(yīng)什么”,而是先在內(nèi)部做一輪模擬和推演,再輸出動作。也正因為多了這一步“提前想一想”的動作,智能體的行為便傾向于在做規(guī)劃,而不是條件反射式的響應(yīng)。

這也回答了為什么有人說世界模型是在“理解世界”,如果“理解”被定義為能在內(nèi)部構(gòu)建一個能解釋因果、能預(yù)測后果、并能據(jù)此做出合理選擇的表征,那么世界模型確實是一種機(jī)器理解。相對地,如果你把“理解”定義為擁有像人類一樣的主觀體驗、常識推理和高層抽象的概念,那世界模型還遠(yuǎn)未到那一步。

其實世界模型更準(zhǔn)確的定位應(yīng)該是一種能替代部分理解功能的機(jī)器表征與預(yù)測機(jī)制,它做的是有用的理解,而不是類似人類的全方位主觀理解。世界模型的更像是讓大模型在內(nèi)部試跑未來,再用模擬得到的后果指導(dǎo)現(xiàn)實中的行動。

wKgZPGlAtYqAObvHAAAR42n7O-I294.jpg

世界模型的三要素

將世界模型拆開剖析,其可以分為3部分,第1個是表征(representation),第2個是動力學(xué)/生成模型(dynamics/generative),第3個是利用這些能力來支持決策(planning/control)。

這三者不是獨立模塊簡單拼湊,而是互相輔助,好的表征可以讓預(yù)測更穩(wěn)健,可靠的預(yù)測能讓規(guī)劃更安全,而規(guī)劃過程也能反過來推動表征和預(yù)測的改進(jìn)(例如通過閉環(huán)數(shù)據(jù)收集)。這種閉環(huán)被視為世界模型范式的核心,即大模型學(xué)習(xí)一個可用來想象未來的內(nèi)部世界,然后在想象中訓(xùn)練和評估動作。

表征通常會把高維觀測映射到一個低維或離散的潛在空間,這個潛在空間既要壓縮信息,也要保留那些對未來預(yù)測和決策至關(guān)重要的結(jié)構(gòu)(比如物體的速度、相對位置、可碰撞性、路面屬性等)。

生成/動力學(xué)模塊則在這個潛在空間上學(xué)習(xí)時間演化規(guī)則,給定當(dāng)前潛在狀態(tài)和動作,預(yù)測下一步潛在狀態(tài)或直接生成下一幀觀測。一旦這套機(jī)制可用,就能在內(nèi)部做軌跡采樣、比較不同動作序列的后果,進(jìn)而選擇一個看起來更安全、更高收益的動作。這種“先想后做”的模式,正是世界模型在機(jī)器人和自動控制里被看好的核心原因。

當(dāng)然,世界模型并不是生成像素級的逼真畫面,而是在某種抽象層面上保留因果和可操作的信息。換言之,對于世界模型來說,能不能預(yù)測未來的高層結(jié)構(gòu)(哪個物體會碰到哪個物體,速度會如何變化,行人的意圖是不是要橫穿馬路)比單純把畫面渲染得漂亮更重要。這也是為什么有些工作不做原始像素的逐幀生成,而是去預(yù)測四維占據(jù)(4Doccupancy)、幾何表示、BEV(bird-eyeview)軌跡或更緊湊的行為意圖。

wKgZPGlAtYuANgMAAAASG3BOmsQ632.jpg

世界模型到底是在“理解”還是“預(yù)測”?

如果非要在“理解世界”與“預(yù)測未來”之間選一項作為世界模型的本質(zhì),智駕最前沿以為,世界模型本質(zhì)上是為了預(yù)測而構(gòu)建的表征系統(tǒng),但這種預(yù)測是為決策服務(wù)的,因此它等同于一種可操作的理解。也就是說,世界模型通過預(yù)測未來(短期或中期)的能力來體現(xiàn)對世界的理解,但這種理解是功能性的、以行為為導(dǎo)向的,而不是哲學(xué)意義上的知道世界為什么存在的那種理解。

其實對于世界模型來說,預(yù)測是手段不是目的,世界模型的最終目的是改善決策效果,而預(yù)測未來只是實現(xiàn)該目的的方式。“理解”對于世界模型也只是一種可操作的形式,它不是詞典式的定義或人文式的領(lǐng)悟,而是把有用的因果、動力學(xué)、約束編碼進(jìn)模型,使模型在遇到新情況時能推測后果并選擇更優(yōu)行動。此外,世界模型的理解也只是一個工程目標(biāo),其能否把預(yù)測變成安全的、魯棒的決策依據(jù),比其能不能進(jìn)行人類化的理解更關(guān)鍵,也更實際。

wKgZO2lAtZCAMi37AAASAJELks8234.jpg

對自動駕駛的影響

在傳統(tǒng)自動駕駛系統(tǒng)里,感知負(fù)責(zé)識別和定位,預(yù)測負(fù)責(zé)給出軌跡或意圖的分布,決策/規(guī)劃再根據(jù)這些輸入做路徑選擇。引入世界模型后,系統(tǒng)可以在內(nèi)部模擬各種動作序列和外界響應(yīng),評估不同策略在模擬未來中的長期效果,使自動駕駛系統(tǒng)不再只依賴短期軌跡預(yù)測。這意味著系統(tǒng)能在更長時間尺度上權(quán)衡風(fēng)險和收益,而不是根據(jù)每一幀的數(shù)據(jù)做短期判斷。

世界模型也為自動駕駛提供了一項關(guān)鍵技術(shù)方案,在模擬環(huán)境里,世界模型可批量生成極端情況,用于訓(xùn)練和驗證,減少了現(xiàn)實路測需要費時費力且非常危險的問題。如自動駕駛大模型GAIA-1就利用視頻、文本和動作的聯(lián)合建模,合成了多樣的駕駛場景,用于訓(xùn)練更魯棒的策略。當(dāng)然,這一方案需要注意合成場景必須高質(zhì)量并且覆蓋真實分布的關(guān)鍵薄弱點,否則訓(xùn)練出來的策略在真實世界中將無法使用。因此對于自動駕駛來說,世界模型是一種強(qiáng)補(bǔ)充手段,而不是完全替代真實路測的工具。

世界模型可以給自動駕駛帶來前瞻性的預(yù)測,但這種前瞻性并非無誤。自動駕駛系統(tǒng)在依賴世界模型做決策時,必須有明確的不確定性度量與回退策略,在模型信心不足或預(yù)測分布過于分散時,系統(tǒng)應(yīng)退回更保守的控制策略或請求人工干預(yù)。

wKgZO2lAtZGAIh1ZAAARwcz1hbg686.jpg

世界模型如何處理長尾問題?

對于自動駕駛來說,真實交通環(huán)境是非常復(fù)雜的,無論是對于哪種模型來說,想在學(xué)習(xí)階段就搜集所有的數(shù)據(jù)是完全不可能的。那世界模型是如何處理這一問題的?

世界模型會先用真實數(shù)據(jù)學(xué)習(xí)表征和基本動力學(xué),再用生成式或模擬方法擴(kuò)展到稀有場景。近年來就有一些生成式世界模型(例如把視頻、動作、文本聯(lián)合建模的那類)用無監(jiān)督或自監(jiān)督手段來學(xué)習(xí)高層結(jié)構(gòu),然后用這些模型合成數(shù)據(jù)來訓(xùn)練策略或進(jìn)行安全測試。

這種方式的好處是能在模擬中“壓縮”長尾風(fēng)險的出現(xiàn)頻率,加速策略在極端情況的魯棒性提升;其壞處就是合成分布和現(xiàn)實分布的差異可能引入偏差或假象,導(dǎo)致訓(xùn)練結(jié)果與現(xiàn)實有偏差。

很多技術(shù)方案中會用不同模態(tài)(視覺、雷達(dá)、激光、地圖)融合進(jìn)表征,用基于潛在變量的生成模型或基于JEPA的預(yù)測架構(gòu)來學(xué)習(xí)時間一致性的表示,再用規(guī)劃器或強(qiáng)化學(xué)習(xí)算法在潛在空間里做閉環(huán)訓(xùn)練。

這樣做的目的是減小原始觀測維度的噪聲影響,把決策問題放在更穩(wěn)定的抽象層上。最新的一些技術(shù)甚至把世界模型做成離散token序列的形式,把預(yù)測問題變?yōu)樾蛄猩蓡栴},借助大規(guī)模序列模型的力量來提升長時序的穩(wěn)定性。

無論是哪種技術(shù)路線,其核心都是用內(nèi)部模型來替代部分真實交互,以節(jié)省成本并提升安全性。

wKgZO2lAtZKAf_g4AAATCLDSk7w645.jpg

最后的話

回到最開始的問題,世界模型是理解世界還是預(yù)測未來?答案是二者兼有。世界模型通過學(xué)習(xí)內(nèi)部表征來提高對未來的預(yù)測能力,而這些預(yù)測主要是為決策和行動服務(wù)的。

世界模型通過提供一個可理解、可推理的世界表征,賦予了自動駕駛系統(tǒng)預(yù)測未來的能力。理解是預(yù)測的基礎(chǔ),預(yù)測是理解的延伸與應(yīng)用。二者緊密耦合,讓自動駕駛從“感知-反應(yīng)”模式,進(jìn)化到“理解-推演-決策”的更高層次,這正是其技術(shù)變革性的關(guān)鍵所在。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 自動駕駛汽車
    +關(guān)注

    關(guān)注

    4

    文章

    383

    瀏覽量

    41942
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    模型中常提的快慢思考會對自動駕駛產(chǎn)生什么影響?

    2024年7月,理想汽車發(fā)布的基于端到端模型、VLM視覺語言模型世界模型的全新自動駕駛技術(shù)架構(gòu)
    的頭像 發(fā)表于 11-22 10:59 ?2301次閱讀
    大<b class='flag-5'>模型</b>中常提的快慢思考會對<b class='flag-5'>自動駕駛</b>產(chǎn)生什么影響?

    自動駕駛汽車如何確定自己的位置和所在車道?

    比人類更多的“感官”和更強(qiáng)的計算能力;復(fù)雜則在于,這項工作必須做到精準(zhǔn)(米級甚至分米級)、穩(wěn)定、連續(xù),并且要在各種極端環(huán)境下都要可靠。那自動駕駛汽車是如何確定自己的位置和所在車道的? ? 車輛如何感知世界?
    的頭像 發(fā)表于 11-18 09:03 ?611次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>汽車</b>如何確定自己的位置和所在車道?

    VLA和世界模型,誰才是自動駕駛的最優(yōu)解?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術(shù)發(fā)展,其實現(xiàn)路徑也呈現(xiàn)出兩種趨勢,一邊是以理想、小鵬、小米為代表的VLA(視覺—語言—行動)模型路線;另一邊則是以華為、蔚來為主導(dǎo)的世界模型
    的頭像 發(fā)表于 11-05 08:55 ?501次閱讀
    VLA和<b class='flag-5'>世界</b><b class='flag-5'>模型</b>,誰才是<b class='flag-5'>自動駕駛</b>的最優(yōu)解?

    自動駕駛汽車如何處理“鬼探頭”式的邊緣場景?

    [首發(fā)于智駕最前沿微信公眾號]自動駕駛遇到“鬼探頭”式的邊緣場景時應(yīng)該如何處理?其實對于自動駕駛汽車來說,無論是常規(guī)場景,還是邊緣場景,它都是要先看見、再
    的頭像 發(fā)表于 08-29 11:11 ?560次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>汽車</b>如何處理“鬼探頭”式的邊緣場景?

    自動駕駛是為了“增強(qiáng)人”,還是為了“替代人”?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術(shù)的日益成熟,人們對它的定位也在不斷演進(jìn),究竟是要打造一個能為駕駛者提供更佳體驗的“智能副駕”,還是完全替代人類駕駛員,
    的頭像 發(fā)表于 06-25 11:07 ?505次閱讀

    自動駕駛中常提的世界模型是個啥?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術(shù)的不斷成熟,車輛需要在復(fù)雜多變的道路環(huán)境中安全地行駛,這就要求系統(tǒng)不僅能“看見”周圍的世界,還要能“理解”和“推測”未來的變化。
    的頭像 發(fā)表于 06-24 08:53 ?809次閱讀
    <b class='flag-5'>自動駕駛</b>中常提的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>是個啥?

    感知融合如何自動駕駛汽車“看”世界更清晰?

    自動駕駛技術(shù)被認(rèn)為是未來交通領(lǐng)域的革命性變革,其目標(biāo)是通過技術(shù)手段實現(xiàn)安全、高效、便捷的出行體驗。而在這一技術(shù)體系中,環(huán)境感知系統(tǒng)扮演著至關(guān)重要的角色,它不僅是自動駕駛車輛理解外部
    的頭像 發(fā)表于 04-27 16:24 ?670次閱讀
    感知融合如何<b class='flag-5'>讓</b><b class='flag-5'>自動駕駛</b><b class='flag-5'>汽車</b>“看”<b class='flag-5'>世界</b>更清晰?

    NVIDIA Cosmos加速機(jī)器人和自動駕駛汽車物理AI發(fā)展

    NVIDIA Cosmos 通過可預(yù)測未來世界狀態(tài)的世界基礎(chǔ)模型加速物理 AI 的發(fā)展。
    的頭像 發(fā)表于 04-24 11:01 ?960次閱讀
    NVIDIA Cosmos加速機(jī)器人和<b class='flag-5'>自動駕駛</b><b class='flag-5'>汽車</b>物理AI發(fā)展

    自動駕駛模型中常提的Token是個啥?對自動駕駛有何影響?

    近年來,人工智能技術(shù)迅速發(fā)展,大規(guī)模深度學(xué)習(xí)模型(即大模型)在自然語言處理、計算機(jī)視覺、語音識別以及自動駕駛等多個領(lǐng)域取得了突破性進(jìn)展。自動駕駛作為
    的頭像 發(fā)表于 03-28 09:16 ?1007次閱讀

    FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預(yù)測......

    ”“大模型圈的大黑馬”“硅谷震驚了”“來自中國的學(xué)霸級AI”…… 從智能手機(jī)到自動駕駛,從數(shù)據(jù)中心到物聯(lián)網(wǎng),F(xiàn)PGA 正悄然改變著我們的生活。未來,F(xiàn)PGA 又將如何塑造世界?Dee
    發(fā)表于 03-03 11:21

    自動駕駛未來 - 了解如何無縫、可靠地完成駕駛

    。 汽車行業(yè)正在向自動駕駛汽車靠攏,其發(fā)展勢頭越來越強(qiáng),其目標(biāo)不僅是駕駛員的生活更簡單,而且要消除道路上的碰撞。
    的頭像 發(fā)表于 01-26 21:52 ?929次閱讀
    <b class='flag-5'>自動駕駛</b>的<b class='flag-5'>未來</b> - 了解如何無縫、可靠地完成<b class='flag-5'>駕駛</b>

    NVIDIA Cosmos世界基礎(chǔ)模型平臺的主要功能

    隨著機(jī)器人技術(shù)和自動駕駛汽車的發(fā)展,加快物理 AI 的開發(fā)工作變得至關(guān)重要。物理 AI 使自主機(jī)器能夠感知、理解并執(zhí)行物理世界中的復(fù)雜操作,而這些系統(tǒng)的核心是
    的頭像 發(fā)表于 01-15 11:03 ?1481次閱讀
    NVIDIA Cosmos<b class='flag-5'>世界</b>基礎(chǔ)<b class='flag-5'>模型</b>平臺的主要功能

    華為、理想、特斯拉、商湯的世界模型是做什么用的

    上的可視化數(shù)據(jù),再用這些視頻訓(xùn)練傳統(tǒng)或端到端的自動駕駛模型,幾乎沒有人研究直接用世界模型自動駕駛的。即便是視頻生成,也
    的頭像 發(fā)表于 01-14 09:27 ?1815次閱讀
    華為、理想、特斯拉、商湯的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>是做什么用的

    英偉達(dá)發(fā)布Cosmos世界基礎(chǔ)模型

    自動駕駛汽車、機(jī)器人等物理AI系統(tǒng)的開發(fā)進(jìn)程。 Cosmos平臺的核心在于其強(qiáng)大的生成世界基礎(chǔ)模型,這一模型能夠模擬和
    的頭像 發(fā)表于 01-09 10:23 ?953次閱讀

    NVIDIA Cosmos世界基礎(chǔ)模型平臺發(fā)布

    NVIDIA 宣布推出NVIDIA Cosmos,該平臺由先進(jìn)的生成式世界基礎(chǔ)模型、高級 tokenizer、護(hù)欄和加速視頻處理管線組成,將推動自動駕駛汽車(AV)和機(jī)器人等物理 AI
    的頭像 發(fā)表于 01-08 10:39 ?1058次閱讀