少妇浴室精油按摩中出视频,外卖小哥进屋5个小时

電子發(fā)燒友網(wǎng)報(bào)道（文/梁浩斌）最近，智駕領(lǐng)域又出現(xiàn)多個(gè)“新名詞”，比如蔚來(lái)推出的NWM、多家車(chē)企和智駕供應(yīng)商都在宣傳的VLA。實(shí)際上，從各家的路線來(lái)看，隨著更大算力的芯片，比如小鵬、蔚來(lái)自研的智駕芯片，以及英偉達(dá)Thor的上車(chē)，越來(lái)越多的智駕方案選擇VLA的路徑。

那么本文就梳理一下當(dāng)前智駕領(lǐng)域集中主流的大模型技術(shù)路線，以及各家廠商實(shí)現(xiàn)方式的區(qū)別和發(fā)展。

VLA和VLM

VLA即Vision-Language-Ac tion，視覺(jué)-語(yǔ)言-動(dòng)作模型。簡(jiǎn)單來(lái)說(shuō)，VLA是一種結(jié)合視覺(jué)感知、語(yǔ)言理解和動(dòng)作決策的多模態(tài)AI模型。VLA通過(guò)統(tǒng)一空間智能、語(yǔ)言智能和行為智能，使自動(dòng)駕駛系統(tǒng)能夠更全面地理解復(fù)雜環(huán)境并執(zhí)行任務(wù)。

VLA的核心能力主要是三種，包括BEV、激光雷達(dá)等視覺(jué)輸入；理解自然語(yǔ)言指令或場(chǎng)景描述等語(yǔ)言處理能力；以及對(duì)車(chē)輛控制動(dòng)作輸出的能力。最終通過(guò)這三種能力，實(shí)現(xiàn)從感知到?jīng)Q策的端到端閉環(huán)。

VLM即Vision-Language Model，視覺(jué)-語(yǔ)言模型，從名字上看，VLA就是在VLM的基礎(chǔ)上增加了動(dòng)作的能力，事實(shí)也確實(shí)如此。

VLA在VLM核心的多模態(tài)推理和理解能力上，增加了動(dòng)作生成的能力，將VLM的輸出，比如將“在這個(gè)路口要轉(zhuǎn)左”的指令輸出直接轉(zhuǎn)化為車(chē)輛的控制信號(hào)，包括油門(mén)、方向盤(pán)角度、剎車(chē)力度等。

一般來(lái)說(shuō)，VLA通常也是基于預(yù)訓(xùn)練的VLM基座模型，利用VLM具備的視覺(jué)和語(yǔ)言能力，引入動(dòng)作預(yù)測(cè)模塊進(jìn)行擴(kuò)展，使其適應(yīng)各種任務(wù)，包括機(jī)器人，自動(dòng)駕駛等。

具體到自動(dòng)駕駛的應(yīng)用中，VLA可以直接調(diào)用VLM生成的語(yǔ)義理解結(jié)果，比如識(shí)別視頻畫(huà)面中的交通標(biāo)志、場(chǎng)景描述等，結(jié)合實(shí)時(shí)感知數(shù)據(jù)來(lái)生成車(chē)輛的控制指令。同時(shí)，VLA的執(zhí)行結(jié)果，也可以反向優(yōu)化VLM的場(chǎng)景理解能力，優(yōu)化決策選擇。

簡(jiǎn)單總結(jié)下來(lái)，VLM是傾向于認(rèn)知的一個(gè)模型，它通過(guò)自然語(yǔ)言來(lái)描述出當(dāng)前車(chē)輛前方的場(chǎng)景，以及“看到”哪些內(nèi)容，并能夠輸出一些車(chē)輛控制指令的文本；VLA是側(cè)重于動(dòng)作控制，在獲得場(chǎng)景的自然語(yǔ)言信息后，解決車(chē)輛應(yīng)該如何繼續(xù)行駛，比如作出避讓、變道等動(dòng)作，并直接輸出油門(mén)、方向盤(pán)角度、剎車(chē)力度等具體的控制指令。

小鵬、理想、元戎落注VLA，但實(shí)現(xiàn)方式略有不同

目前小鵬、理想、元戎啟行等車(chē)企和智駕公司，都展示了其VLA的技術(shù)布局，并表示即將量產(chǎn)。

元戎啟行CEO周光在最近的2025年火山引擎Force原動(dòng)力大會(huì)就宣布，將攜手火山引擎，基于豆包大模型，共同研發(fā)VLA等前瞻技術(shù)，元戎騎行VLA模型將在2025年第三季度推向消費(fèi)者市場(chǎng)。

理想汽車(chē)此前則透露VLA模型將在今年三季度搭載于理想L9/L8改款車(chē)型。

小鵬汽車(chē)在最近小鵬G7發(fā)布會(huì)上表示，將行業(yè)首發(fā)本地端VLA+VLM大模型。小鵬在車(chē)端實(shí)現(xiàn)VLA的方式大致是，采用超大參數(shù)云端大模型，訓(xùn)練出世界模型基座，再通過(guò)蒸餾的方式產(chǎn)出適配車(chē)端算力的小模型，最大限度地保留云端模型基座的核心能力。

今年4月，小鵬汽車(chē)對(duì)外宣布正在研發(fā)參數(shù)規(guī)模達(dá)到720億的云端大模型，即“小鵬世界基座模型”。該基座模型是以大語(yǔ)言模型為骨干網(wǎng)絡(luò)，使用海量?jī)?yōu)質(zhì)駕駛數(shù)據(jù)訓(xùn)練的VLA大模型（視覺(jué)-語(yǔ)言-行為大模型），具備視覺(jué)理解能力、鏈?zhǔn)酵评砟芰Γ–oT）和動(dòng)作生成能力。目前，小鵬汽車(chē)已經(jīng)在后裝算力的車(chē)端上用小尺寸的基座模型實(shí)現(xiàn)了控車(chē)。在沒(méi)有任何規(guī)則代碼托底的情況下，新的“AI大腦”展現(xiàn)出令人驚喜的基礎(chǔ)駕車(chē)技能，能夠絲滑地加減速、變道繞行、轉(zhuǎn)彎掉頭、等待紅綠燈等等。

在上周的計(jì)算機(jī)視覺(jué)頂會(huì)CVPR 2025上，小鵬汽車(chē)也分享了其基礎(chǔ)模型的進(jìn)展。小鵬世界基座模型負(fù)責(zé)人劉先明博士表示，小鵬汽車(chē)已經(jīng)在云上訓(xùn)練了10億、30億、70億、720億等多個(gè)參數(shù)的模型，并且持續(xù)向模型“投喂”更大規(guī)模的訓(xùn)練數(shù)據(jù)。目前，小鵬世界基座模型累計(jì)“吃下”2000多萬(wàn)條視頻片段（每條時(shí)長(zhǎng)30秒）。

在這一過(guò)程中，研發(fā)團(tuán)隊(duì)清晰地看到了規(guī)模法則（Scaling Law）的顯現(xiàn)。也就是說(shuō)，模型的參數(shù)量越大、模型學(xué)習(xí)的數(shù)據(jù)越多，模型的性能越強(qiáng)。這是AI大模型浪潮以來(lái)，行業(yè)內(nèi)首次明確驗(yàn)證規(guī)模法則在自動(dòng)駕駛VLA模型上持續(xù)生效。

理想汽車(chē)的VLA路線則略有不同，是先對(duì)基座模型進(jìn)行蒸餾，產(chǎn)出車(chē)端的蒸餾模型，然后再進(jìn)行強(qiáng)化學(xué)習(xí)，實(shí)現(xiàn)“司機(jī)Agent”。

蔚來(lái)世界模型NWM

蔚來(lái)近期推送了其最新的NWM首個(gè)版本，據(jù)蔚來(lái)的介紹，蔚來(lái)世界模型NWM是一個(gè)多元自回歸生成模型，具備空間認(rèn)知和時(shí)間認(rèn)知能力，能進(jìn)行長(zhǎng)時(shí)序決策與推演。蔚來(lái)世界模型 NWM同樣是多模態(tài)輸入輸出，輸入的多模態(tài)數(shù)據(jù)包含圖像、語(yǔ)言，輸出的多模態(tài)數(shù)據(jù)則包含圖像和行動(dòng)。

所以NWM其實(shí)是包含了VLA的所有特征，但不同之處在于，NWM對(duì)于空間理解的能力，以及長(zhǎng)時(shí)序的建模能力會(huì)更強(qiáng)。

蔚來(lái)用停車(chē)場(chǎng)自主尋路的功能來(lái)展示NWM的認(rèn)知、理解與推理能力。例如，當(dāng)車(chē)輛在行駛過(guò)程中看到“15-20號(hào)樓→”的標(biāo)牌時(shí)，它就能理解18號(hào)樓應(yīng)當(dāng)向右轉(zhuǎn)；在上一個(gè)路口看到“出口直行”字樣，當(dāng)前路口卻沒(méi)有標(biāo)牌，車(chē)輛也能推理出出口應(yīng)該繼續(xù)直行。

寫(xiě)在最后

元戎啟行認(rèn)為，VLA是通往完全自動(dòng)駕駛的必經(jīng)途徑。當(dāng)前VLA確實(shí)已經(jīng)成為智駕的主流發(fā)展方向，而VLA對(duì)于車(chē)端的算力需求，還將會(huì)帶動(dòng)智駕芯片算力的需求爆發(fā)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴