chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

華為、理想、特斯拉、商湯的世界模型是做什么用的

佐思汽車研究 ? 來源:佐思汽車研究 ? 2025-01-14 09:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

最近世界模型(World Model)很火,甚至有人說世界模型是終極自動(dòng)駕駛解決方案,實(shí)際上它只是端到端大模型的一種,和VLM沒有本質(zhì)區(qū)別。目前的研究基本都集中在用世界模型生成視頻或其他連續(xù)時(shí)間序列上的可視化數(shù)據(jù),再用這些視頻訓(xùn)練傳統(tǒng)或端到端的自動(dòng)駕駛模型,幾乎沒有人研究直接用世界模型做自動(dòng)駕駛的。即便是視頻生成,也還是處于實(shí)驗(yàn)室的學(xué)術(shù)研究階段。

47a33876-cfc8-11ef-9310-92fbcf53809c.jpg

圖片來源:網(wǎng)絡(luò)

為什么要做世界模型,它實(shí)際上是端到端自動(dòng)駕駛的閉環(huán)仿真,世界模型可以看做VLM的逆向工程,用prompt這些文字提示輸出視頻。世界模型和端到端模型是一個(gè)互相幫助的過程,世界模型生成的視頻交給車端大模型,車端大模型通過它的規(guī)劃執(zhí)行接下來的動(dòng)作,接下來的動(dòng)作產(chǎn)生新的場景、新的視角,再通過世界模型繼續(xù)生成新的數(shù)據(jù),進(jìn)行閉環(huán)仿真的測試。

47b92f28-cfc8-11ef-9310-92fbcf53809c.png

圖片來源:網(wǎng)絡(luò)

不同于CARLA這些測試型仿真,世界模型是訓(xùn)練型仿真,它要達(dá)到海量規(guī)模才有價(jià)值。

47d6bf70-cfc8-11ef-9310-92fbcf53809c.jpg

圖片來源:網(wǎng)絡(luò)

世界模型生成視頻可以是自監(jiān)督的,無需3D標(biāo)簽,可以使用海量網(wǎng)絡(luò)汽車駕駛視頻。最重要的是它可以生成現(xiàn)實(shí)世界中極難采集到的長尾視頻,這是其核心價(jià)值。換句話說它生成的視頻價(jià)值是現(xiàn)實(shí)世界采集到的視頻數(shù)據(jù)的價(jià)值百倍以上,但成本是其1%不到。

47f20140-cfc8-11ef-9310-92fbcf53809c.png

圖片來源:網(wǎng)絡(luò)

所謂世界模型就是視頻生成加prompt控制。視頻生成有四大類型,包括基于對抗網(wǎng)絡(luò)GAN的,基于擴(kuò)散模型的,基于自回歸模型(基本上就是transformer)和基于掩碼的。其中,擴(kuò)散模型再分為Stable Video Diffusion (SVD)和Stable Diffusion (SD)兩種,它們還有一種共同的稱呼即隱擴(kuò)散模型(Latent Diffusion Model, LDM)。目前也有結(jié)合diffusion和transformer的模型即DiT,但它本質(zhì)上還是擴(kuò)散模型,只不過用transformer替換了擴(kuò)散模型中的Unet。大名鼎鼎的SORA則是復(fù)合型,Sora模型的核心組成包括Diffusion Transformer(DiT)、Variational Autoencoder(VAE)和Vision Transformer(ViT)。DiT負(fù)責(zé)從噪聲數(shù)據(jù)中恢復(fù)出原始的視頻數(shù)據(jù),VAE用于將視頻數(shù)據(jù)壓縮為潛在表示,而ViT則用于將視頻幀轉(zhuǎn)換為特征向量以供DiT處理。據(jù)說特斯拉就是用的SVD。

基于世界模型的端到端訓(xùn)練

4811fe96-cfc8-11ef-9310-92fbcf53809c.png

圖片來源:網(wǎng)絡(luò)

生成視頻的質(zhì)量分為兩部分,一是視頻本身的準(zhǔn)確度,主要指標(biāo)有三個(gè),一個(gè)是FID/FVD,另一個(gè)是CLIP得分。FID(Fréchet Inception Distance)是一種用于評估生成模型,尤其是在圖像生成任務(wù)中,生成圖像的質(zhì)量和多樣性的指標(biāo)。它通過比較生成圖像與真實(shí)圖像在特定空間內(nèi)的分布來工作。這個(gè)特定的空間通常是通過預(yù)訓(xùn)練的Inception網(wǎng)絡(luò)的某一層來定義的。對于生成圖像集和真實(shí)圖像集,分別通過Inception網(wǎng)絡(luò)(通常是Inception V3模型)計(jì)算它們的特征表示。這一步驟會(huì)得到每個(gè)圖像集的特征向量,計(jì)算每個(gè)集合的特征向量的均值和協(xié)方差矩陣,并做對比,都是高等數(shù)學(xué)的課程,這里就不展開說了。FVD和FID接近,相當(dāng)于把FID的圖像特征提取網(wǎng)絡(luò)換成視頻特征提取網(wǎng)絡(luò),其他都差不多。最后一個(gè)是北大提出來的,就是Trajectory Agent IoU (NTA-IoU),與設(shè)定軌跡的交并比,Novel Trajectory Lane IoU (NTL-IoU),與設(shè)定車道的交并比。

二是視頻本身的長度、幀率和分辨率,要盡可能與傳統(tǒng)自動(dòng)駕駛訓(xùn)練視頻達(dá)到一致的幀率和分辨率。

目前世界模型生成視頻的方向有兩個(gè),一個(gè)是追求更長、更多視角、更高分辨率,代表作有商湯的《InfinityDrive: Breaking Time Limits in Driving World Models》,華為的《MagicDriveDiT: High-Resolution Long Video Generation》,Wayve的GAIA-1,地平線的DrivingWorld。另一個(gè)是追求近乎真實(shí)的3D場景渲染,理想在這方面情有獨(dú)鐘,理想的Street Gaussians、ReconDreamer、DriveDreamer4D都是這個(gè)方向,也是這個(gè)領(lǐng)域的主要代表作。

4829e9ca-cfc8-11ef-9310-92fbcf53809c.jpg

圖片來源:網(wǎng)絡(luò)

特斯拉用的什么世界模型,自然是未知,也許它根本就沒用世界模型。

483836ec-cfc8-11ef-9310-92fbcf53809c.png

注:“Ours”指的就是InfinityDrive

圖片來源:商湯論文《InfinityDrive: Breaking Time Limits in Driving World Models》

4855bcf8-cfc8-11ef-9310-92fbcf53809c.png

圖片來源:華為的MagicDriveDiT

華為不僅能生成超高分辨率,還能生成多個(gè)角度的視頻。

4890c258-cfc8-11ef-9310-92fbcf53809c.png

數(shù)據(jù)來源:地平線的DrivingWorld,數(shù)據(jù)尺度比較大,分辨率也很高

我們再來看另一條3D渲染線,它的核心應(yīng)該說有點(diǎn)偏離世界模型的本來意義了,它是追求接近真實(shí)的3D渲染,基本上是理想汽車的獨(dú)角戲。三個(gè)比較有價(jià)值的模型基本都有理想汽車的身影,第一個(gè)是Street Gaussians: Modeling Dynamic Urban Scenes with Gaussian Splatting,浙江大學(xué)和理想汽車合作,九位作者,其中來自理想汽車的作者占四位。第二個(gè)是DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation,由極佳科技聯(lián)合中國科學(xué)院自動(dòng)化研究所、理想汽車、北京大學(xué)、慕尼黑工業(yè)大學(xué)等單位提出,十二位作者兩位來自理想汽車。第三個(gè)是ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration,總共十六位作者,其中來自理想汽車的多達(dá)八位,來自極佳科技的有六位。

48a50434-cfc8-11ef-9310-92fbcf53809c.png

圖片來源:論文《ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration》

上圖可以看到,理想汽車與極佳科技合作的最新成果就是ReconDremaer,純粹StreetGaussians的話,一旦偏離中心視角,容易出現(xiàn)空洞或鬼影,車道線也出現(xiàn)扭曲。

ReconDreamer整體框架

48caa7b6-cfc8-11ef-9310-92fbcf53809c.png

圖片來源:論文《ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration》

除了生成視頻,還有生成激光雷達(dá)點(diǎn)云視頻,如理想與澳門大學(xué)合作的《OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving》,還有生成語義分割圖的《SynDiff-AD: Improving Semantic Segmentation and End-to-End Autonomous Driving with Synthetic Data from Latent Diffusion Models》。

OLiDM的整體框架

48d1378e-cfc8-11ef-9310-92fbcf53809c.png

圖片來源:論文《OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving》

上圖中,世界模型生成激光雷達(dá)點(diǎn)云視頻,再拿這個(gè)去訓(xùn)練激光雷達(dá)的識別能力。

48ebf6a0-cfc8-11ef-9310-92fbcf53809c.png

數(shù)據(jù)來源:論文《OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving》。

OLiDM的效果,能有兩三個(gè)點(diǎn)的提升,已經(jīng)是非常難得了,現(xiàn)在在nuScenes上0.001的提升都需要一年半以上的時(shí)間。

世界模型一點(diǎn)也不神秘,不僅是端到端自動(dòng)駕駛,它對傳統(tǒng)自動(dòng)駕駛也有明顯的提升,自動(dòng)駕駛的數(shù)據(jù)成本也大幅度下降至少95%以上,那些所謂影子模式變得毫無價(jià)值,實(shí)際上沒有世界模型生成視頻,影子模式本身也毫無價(jià)值,這也是馬斯克說他用擴(kuò)散模式生成視頻的原因,如果影子模式真有價(jià)值,何必多此一舉?

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 華為
    +關(guān)注

    關(guān)注

    216

    文章

    35573

    瀏覽量

    259276
  • 特斯拉
    +關(guān)注

    關(guān)注

    66

    文章

    6391

    瀏覽量

    130668
  • 商湯
    +關(guān)注

    關(guān)注

    0

    文章

    76

    瀏覽量

    4237

原文標(biāo)題:華為、理想、特斯拉、商湯的世界模型是做什么用的?

文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    商湯絕影亮相汽車之家全球AI科技大會(huì)

    近日,由汽車之家主辦的「汽車之家全球AI科技大會(huì)」在北京舉行。商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、CTO、商湯絕影CEO王曉剛出席大會(huì),并發(fā)表《世界模型:智能駕駛范式演進(jìn)新路標(biāo)》主題演講,分
    的頭像 發(fā)表于 09-29 14:09 ?236次閱讀

    商湯科技發(fā)布悟能具身智能平臺

    近日,由全國工商聯(lián)人工智能委員會(huì)傾力主辦,商湯科技承辦的“大愛無疆·模塑未來” WAIC 2025大模型論壇上,商湯科技正式發(fā)布「悟能」具身智能平臺,從開悟世界
    的頭像 發(fā)表于 07-31 16:35 ?952次閱讀

    商湯科技日日新大模型SenseNova上線聲網(wǎng)云市場

    日前,商湯科技日日新大模型SenseNova即將正式上線聲網(wǎng)云市場,開發(fā)者和企業(yè)用戶可通過聲網(wǎng)的實(shí)時(shí)互動(dòng)云服務(wù)進(jìn)行調(diào)用,將商湯領(lǐng)先的模型能力集成到各類應(yīng)用場景中,快速構(gòu)建基于日日新大
    的頭像 發(fā)表于 04-08 17:24 ?1204次閱讀

    在Deepseek AI眼中,配電室是做什么用的?

    DEEPSEEK眼中的配電室什么樣?嗯,用戶問配電室是做什么用的,我需要先理解配電室的基本功能。配電室聽起來像是和電力分配有關(guān)的地方,對吧?可能和電力系統(tǒng)有關(guān),比如建筑物或者工廠里的電力分配。首先,我應(yīng)該明確配電室的主要作用是什么。
    的頭像 發(fā)表于 03-05 09:38 ?553次閱讀

    AI開源模型庫有什么用

    AI開源模型庫作為推動(dòng)AI技術(shù)發(fā)展的重要力量,正深刻改變著我們的生產(chǎn)生活方式。接下來,AI部落小編帶您了解AI開源模型庫有什么用。
    的頭像 發(fā)表于 02-24 11:50 ?667次閱讀

    理想同學(xué)App接入DeepSeek大模型

    2025年2月19日,理想汽車旗下人工智能助手理想同學(xué)App全面接入DeepSeek R1&V3 671B滿血版,并實(shí)現(xiàn)與理想自研MindGPT大模型的雙向自由切換。
    的頭像 發(fā)表于 02-20 09:13 ?769次閱讀

    商湯大裝置接入DeepSeek系列模型

    即日起,企業(yè)客戶和開發(fā)者可在商湯大裝置萬象平臺中,快速部署DeepSeek-V3、DeepSeek-R1等模型,可享受3個(gè)月內(nèi)1000萬tokens免費(fèi)使用權(quán)益。
    的頭像 發(fā)表于 02-10 10:16 ?1193次閱讀

    請問ADS1282中SYNC是做什么用的,和讀寫程序有關(guān)系嗎?

    請問ADS1282中SYNC是做什么用的,和讀寫程序有關(guān)系嗎?我現(xiàn)在只是給接到了上拉3.3V電阻,不知道這是否和我的程序不一直讀0有關(guān)系?
    發(fā)表于 02-08 09:16

    商湯科技與廣東移動(dòng)中標(biāo)越秀集團(tuán)AI中臺大模型能力建設(shè)項(xiàng)目

    近日,廣州越秀企業(yè)集團(tuán)最新“AI中臺大模型能力建設(shè)項(xiàng)目”招標(biāo)結(jié)果公告:商湯科技與廣東移動(dòng)聯(lián)合體中標(biāo)。
    的頭像 發(fā)表于 02-07 17:13 ?848次閱讀

    商湯“日日新”融合大模型榮獲雙料冠軍

    近日,商湯科技正式推出了其創(chuàng)新力作——“日日新”融合大模型。該模型在技術(shù)上實(shí)現(xiàn)了原生融合模態(tài)的突破,使得其深度推理能力和多模態(tài)信息處理能力均得到了顯著提升。這一成果的發(fā)布,標(biāo)志著商湯
    的頭像 發(fā)表于 01-13 16:10 ?738次閱讀

    商湯科技推出“日日新”融合大模型

    剛剛,商湯正式推出“日日新”融合大模型,領(lǐng)先實(shí)現(xiàn)原生融合模態(tài),深度推理能力與多模態(tài)信息處理能力均大幅提升,并在兩大權(quán)威評測榜單奪得第一,成為“雙冠王”。
    的頭像 發(fā)表于 01-10 15:59 ?868次閱讀

    dac7624 data output timing是做什么用的?

    1:請問左側(cè)的 data output timing 是做什么用的?右側(cè)的是寫數(shù)字輸入的時(shí)序吧。2:這款dac可以單純的IO模擬時(shí)序通信吧3:這個(gè)t CSD 要求最大不能超過160ns 很多單片機(jī)都達(dá)不到吧。單純的翻轉(zhuǎn)下IO,實(shí)際
    發(fā)表于 01-01 07:52

    商湯日日新多模態(tài)大模型權(quán)威評測第一

    剛剛,商湯科技日日新SenseNova多模態(tài)大模型,在權(quán)威綜合評測權(quán)威平臺OpenCompass的多模態(tài)評測中取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?1370次閱讀

    TAS5611a的13腳14腳的晶振是做什么用的?

    最近要做一個(gè)項(xiàng)目,D類功放立體聲輸出,接8歐負(fù)載時(shí)要求功率要50W以上,查看TI芯片資料TAS5611A比較適合,但是我看到資料上面第13腳,14腳有個(gè)晶振的接口,請問這個(gè)晶振是做什么用的,需要多少M(fèi)HZ比較合適?
    發(fā)表于 10-29 07:18

    請問TLV320AIC3204中Processing Block是做什么用的?。?/a>

    TLV320AIC3204中Processing Block 是做什么用的?。?
    發(fā)表于 10-24 08:24