chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

VLA能解決自動(dòng)駕駛中的哪些問題?

智駕最前沿 ? 來源:智駕最前沿 ? 作者:智駕最前沿 ? 2025-11-25 08:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

[首發(fā)于智駕最前沿微信公眾號(hào)]很多從事自動(dòng)駕駛的小伙伴應(yīng)該對(duì)VLA這個(gè)概念已經(jīng)非常熟悉了。VLA即“Visual-Language-Action”(視覺—語言—?jiǎng)幼鳎┠P?,它的核心是將視覺信息、語言表達(dá)和動(dòng)作控制這三者整合到一個(gè)統(tǒng)一的模型框架中。

與傳統(tǒng)自動(dòng)駕駛系統(tǒng)將感知、預(yù)測(cè)、規(guī)劃、控制拆解為多個(gè)獨(dú)立模塊的做法不同,VLA可以縮短“看見什么”和“如何行動(dòng)”之間的鴻溝,構(gòu)建一個(gè)能直接將視覺輸入和語言描述映射到具體動(dòng)作或策略的模型。

這類模型通常包含視覺編碼器(處理圖像或點(diǎn)云)、語言編碼器(理解文本或指令)以及一個(gè)負(fù)責(zé)輸出控制量(如軌跡、轉(zhuǎn)向指令)的動(dòng)作策略網(wǎng)絡(luò)。

wKgZO2kk_heARKc-AACupHq5c98117.jpg

圖片源自:網(wǎng)絡(luò)

在自動(dòng)駕駛系統(tǒng)中引入語言,其目的并不是讓車輛與人對(duì)話,而是借助“人類可理解的語義”來規(guī)范和引導(dǎo)模型的學(xué)習(xí)過程。利用大規(guī)模語言模型所具備的概念抽象與常識(shí)推理能力,VLA能夠提升自動(dòng)駕駛系統(tǒng)在面對(duì)復(fù)雜、模糊或罕見場景時(shí)的理解與泛化水平。VLA的突破不在于單一的視覺提升,而是以一種更接近人類認(rèn)知的方式,將“環(huán)境感知”與“行為決策”緊密地聯(lián)系了起來。

wKgZPGkk_hiAHSzUAAAQo00DEvw078.jpg

VLA能解決自動(dòng)駕駛中的哪些具體問題?

傳統(tǒng)感知模塊只能輸出如“車輛”、“行人”等物體類別標(biāo)簽,缺乏更高層的語義信息。對(duì)于像是行人為何停在路邊?他是否有橫穿馬路的意圖?一塊寫著“前方施工,減速繞行”的臨時(shí)標(biāo)牌代表著什么等深層指令很難被傳統(tǒng)檢測(cè)模型完全理解。

VLA能夠?qū)⒁曈X證據(jù)與語言描述關(guān)聯(lián)起來,如將一段視頻幀與“行人正看向路中,可能準(zhǔn)備過馬路”這樣的語句綁定,從而將單純的物體檢測(cè)升級(jí)為包含場景理解的意圖推斷。這種能力在處理學(xué)校區(qū)域、施工路段或突發(fā)交通管制等復(fù)雜交互場景時(shí)尤為重要。

真實(shí)道路環(huán)境中,大多數(shù)情況是常見且可預(yù)測(cè)的,對(duì)于自動(dòng)駕駛汽車來說,真正的挑戰(zhàn)來自于那些如擺放奇特的障礙物、不規(guī)范的臨時(shí)標(biāo)志或行為反常的道路使用者等稀少、怪異的長尾場景。

大規(guī)模語言模型可以從海量文本中學(xué)到的抽象概念和常識(shí),通過VLA的跨模態(tài)訓(xùn)練遷移到視覺世界中。舉個(gè)例子,有些場景可能模型根本沒有見到過,但只要它在文本中反復(fù)接觸過“施工區(qū)域常伴有錐桶、臨時(shí)路標(biāo)和工人”這類的描述,就能將零散的視覺線索組合成“施工場景”的高置信度判斷,從而提前采取減速或謹(jǐn)慎通行策略。

自動(dòng)駕駛系統(tǒng)需要與乘客、遠(yuǎn)程操作員或路政人員交互。傳統(tǒng)系統(tǒng)對(duì)指令格式要求嚴(yán)格,只能執(zhí)行預(yù)定義的動(dòng)作集。VLA則能夠理解自然的語言指令,并將其直接轉(zhuǎn)化為車輛的動(dòng)作或高層策略。

如果乘客說“我想在下一個(gè)出口下車,盡量靠近加油站那邊”,VLA可以解析這種模糊的口語化指令,結(jié)合當(dāng)前定位與地圖信息,做出相應(yīng)的車道選擇與路徑規(guī)劃。這對(duì)于需要人機(jī)協(xié)同決策或遠(yuǎn)程干預(yù)的場景來說非常重要。

想讓傳統(tǒng)的純視覺模型適應(yīng)新場景,需要大量精準(zhǔn)標(biāo)注的數(shù)據(jù)。VLA則可以利用語言作為一種“額外的監(jiān)督信號(hào)”,能夠?qū)崿F(xiàn)更高效的學(xué)習(xí)。語言描述能提供抽象且可遷移的規(guī)則,將這類規(guī)則與有限的視覺樣本結(jié)合,模型就能舉一反三,學(xué)到更廣泛的行為模式。這對(duì)于將系統(tǒng)快速部署到新地區(qū),或在仿真環(huán)境中通過少量標(biāo)注實(shí)現(xiàn)能力遷移具有重要的實(shí)用價(jià)值。

黑盒模型在決策出錯(cuò)時(shí)難以追溯原因,這無疑會(huì)給調(diào)試和監(jiān)管帶來很大的困難。VLA則可以提供一層語義中間件,它將視覺線索轉(zhuǎn)化為語言描述,再基于描述驅(qū)動(dòng)行為。當(dāng)車輛執(zhí)行某個(gè)動(dòng)作時(shí),系統(tǒng)可以輸出如“因檢測(cè)到前方未封閉施工區(qū)域且有工人活動(dòng),因此選擇減速并變道”的自然語言解釋。這極大增強(qiáng)了系統(tǒng)的可追溯性和透明度,便于分析問題,也更容易獲得監(jiān)管方與用戶的信任。

對(duì)于自動(dòng)駕駛汽車來說,不同傳感器各有優(yōu)缺點(diǎn),攝像頭在強(qiáng)光或夜間可能失效,激光雷達(dá)在雨雪中對(duì)低反射物體感知不佳。VLA所依賴的大規(guī)模跨模態(tài)學(xué)習(xí),能在語義層面實(shí)現(xiàn)信息互補(bǔ)。當(dāng)視覺感知不確定時(shí),語言先驗(yàn)或歷史描述(如“此路段早晚常有校車??俊保┠芴峁┯袃r(jià)值的參考,從而使決策策略更加穩(wěn)健。這個(gè)功能并不是取代傳感器的物理冗余,而是提供了一種有價(jià)值的語義冗余。

端到端學(xué)習(xí)可以直接從像素映射到控制指令,雖有泛化能力強(qiáng)的優(yōu)點(diǎn),但在安全驗(yàn)證和可控性上存在風(fēng)險(xiǎn)。VLA更像是一條折中路徑,它保留了端到端的泛化潛力,同時(shí)又通過語言層引入了可讀性與可干預(yù)性,使系統(tǒng)在可驗(yàn)證性、參數(shù)調(diào)整和人工監(jiān)督方面更為友好。

wKgZPGkk_hiAJlNuAAAR42n7O-I953.jpg

實(shí)現(xiàn)VLA需要哪些關(guān)鍵技術(shù)與訓(xùn)練手段?

想要構(gòu)建一個(gè)能上路運(yùn)行的VLA系統(tǒng),不能只是簡單堆砌大模型,而是需要統(tǒng)籌考慮架構(gòu)、數(shù)據(jù)、訓(xùn)練和部署。VLA模型架構(gòu)通常包含三個(gè)核心部分,即視覺編碼器、語言編碼器(或一個(gè)統(tǒng)一的跨模態(tài)編碼器)以及動(dòng)作策略模塊。

視覺編碼器從圖像或點(diǎn)云中提取特征,語言編碼器將文本指令轉(zhuǎn)換為語義向量,兩者在一個(gè)共享的語義空間中進(jìn)行對(duì)齊。動(dòng)作策略模塊則負(fù)責(zé)輸出具體的控制指令(如軌跡、轉(zhuǎn)向角)或高層決策(如“減速”、“變道”)。

想實(shí)現(xiàn)VLA模型,需要幾種技術(shù)協(xié)同配合,Transformer架構(gòu)是核心,像一位“信息協(xié)調(diào)官”,專門處理視覺和語言的融合;對(duì)比學(xué)習(xí)則像一位“教練”,可以確保模型能理解圖片和文字描述的是同一回事;行為克隆和強(qiáng)化學(xué)習(xí)則負(fù)責(zé)“訓(xùn)練”策略網(wǎng)絡(luò),讓VLA學(xué)會(huì)如何做出正確的駕駛動(dòng)作。

要讓VLA模型同時(shí)掌握可靠的視覺語義和語言常識(shí),訓(xùn)練集必須包含視覺數(shù)據(jù)、對(duì)應(yīng)的語言描述以及與之匹配的動(dòng)作軌跡或決策標(biāo)簽,這類數(shù)據(jù)的標(biāo)注成本極高。對(duì)此,可采用混合數(shù)據(jù)源策略,也就是以精準(zhǔn)標(biāo)注的真實(shí)路采數(shù)據(jù)為核心,用仿真技術(shù)生成大量多樣場景,并輔以互聯(lián)網(wǎng)上豐富的圖文資料作為補(bǔ)充。

還有一種提升數(shù)據(jù)效率的方法是采用自監(jiān)督或?qū)Ρ葘W(xué)習(xí),如讓模型自行預(yù)測(cè)接下來的車輛動(dòng)作或場景描述,從而讓模型從已有數(shù)據(jù)中主動(dòng)學(xué)習(xí)規(guī)律,實(shí)現(xiàn)“花小錢辦大事”的訓(xùn)練效果。

在訓(xùn)練策略上,VLA應(yīng)采用分階段訓(xùn)練。首先要做的時(shí)進(jìn)行視覺-語言對(duì)齊的預(yù)訓(xùn)練,讓模型學(xué)會(huì)建立圖像與文本的聯(lián)系。接著就是要進(jìn)行行為監(jiān)督訓(xùn)練,如通過模仿學(xué)習(xí)或離線強(qiáng)化學(xué)習(xí),讓模型學(xué)習(xí)駕駛策略。最后就是要針對(duì)具體的駕駛?cè)蝿?wù)進(jìn)行微調(diào)。在安全關(guān)鍵的應(yīng)用中,還必須引入約束優(yōu)化或獨(dú)立的安全層,確保模型的輸出行為始終在安全邊界內(nèi),即使它提出了一個(gè)激進(jìn)的建議,系統(tǒng)也能夠予以否決。

大模型所需的龐大算力與車載硬件有限的資源之間其實(shí)存在天然矛盾,必須對(duì)模型進(jìn)行精簡(壓縮與量化),并采用分層的部署方案。對(duì)于這個(gè)問題,可以將計(jì)算最密集的語言理解和復(fù)雜推理任務(wù)放在云端或邊緣服務(wù)器完成,而在車端只運(yùn)行一個(gè)輕量化的推理引擎,并配以保障實(shí)時(shí)安全的安全監(jiān)控模塊。系統(tǒng)還需具備動(dòng)態(tài)調(diào)度的能力,在網(wǎng)絡(luò)良好時(shí)借助“云腦”,一旦斷網(wǎng)則能無縫切換至本地的傳統(tǒng)控制棧,確保基礎(chǔ)功能安全。

VLA模型在提升可解釋性的同時(shí),也可能將學(xué)到的語言常識(shí)“生搬硬套”到不恰當(dāng)?shù)囊曈X場景中,或者對(duì)含義模糊甚至帶有惡意的指令做出誤判。為了提前暴露并防范這類風(fēng)險(xiǎn),在測(cè)試階段就要設(shè)計(jì)極具針對(duì)性的場景,如可以專門檢驗(yàn)?zāi)P驮诿鎸?duì)非常規(guī)指令時(shí)的表現(xiàn),以及在不同地區(qū)文化背景下其語義理解是否可以保持一致。

在這個(gè)過程中,高精度的仿真平臺(tái)作用就非常關(guān)鍵,它能高效、安全地大量去模擬現(xiàn)實(shí)中罕見的長尾場景,從而系統(tǒng)性地驗(yàn)證模型行為的可靠性,并可以精準(zhǔn)定位其失效的邊界。

想將VLA應(yīng)用到車輛中,對(duì)VLA模型的要求不能是表現(xiàn)良好就可以了,而是要在極端或失效場景下具備清晰的應(yīng)對(duì)方案。因此,VLA系統(tǒng)不能獨(dú)立運(yùn)行,而要與傳統(tǒng)且經(jīng)過嚴(yán)格認(rèn)證的安全監(jiān)控模塊(如自動(dòng)緊急制動(dòng)、硬件限速器等)協(xié)同工作。語言模塊可以負(fù)責(zé)提供決策解釋和行為建議,但車輛的最終控制權(quán),尤其是涉及安全的執(zhí)行指令,必須始終在功能安全體系的嚴(yán)格監(jiān)管之下執(zhí)行。

wKgZO2kk_hmAZQ7nAAASG3BOmsQ460.jpg

最后的話

VLA是為自動(dòng)駕駛系統(tǒng)嵌入一個(gè)“語義智能層”,它通過連接視覺與語言,賦予了車輛理解復(fù)雜場景和人類意圖的關(guān)鍵能力。但它的并不能替代傳統(tǒng)架構(gòu),而應(yīng)與之協(xié)同,VLA作為創(chuàng)新的認(rèn)知大腦,可以負(fù)責(zé)處理不確定性和長尾問題,而經(jīng)過嚴(yán)格認(rèn)證的傳統(tǒng)控制系統(tǒng)則可以作為安全基座,確保最終執(zhí)行的萬無一失。這種智能與安全共生的混合架構(gòu),才是實(shí)現(xiàn)自動(dòng)駕駛穩(wěn)步向前演進(jìn)的務(wù)實(shí)路徑。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Vla
    Vla
    +關(guān)注

    關(guān)注

    0

    文章

    14

    瀏覽量

    5877
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    791

    文章

    14659

    瀏覽量

    176168
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    VLA和世界模型,誰才是自動(dòng)駕駛的最優(yōu)解?

    [首發(fā)于智駕最前沿微信公眾號(hào)]隨著自動(dòng)駕駛技術(shù)發(fā)展,其實(shí)現(xiàn)路徑也呈現(xiàn)出兩種趨勢(shì),一邊是以理想、小鵬、小米為代表的VLA(視覺—語言—行動(dòng))模型路線;另一邊則是以華為、蔚來為主導(dǎo)的世界模型(World
    的頭像 發(fā)表于 11-05 08:55 ?452次閱讀
    <b class='flag-5'>VLA</b>和世界模型,誰才是<b class='flag-5'>自動(dòng)駕駛</b>的最優(yōu)解?

    不同等級(jí)的自動(dòng)駕駛技術(shù)要求上有何不同?

    談到自動(dòng)駕駛,不可避免地會(huì)涉及到自動(dòng)駕駛分級(jí),美國汽車工程師學(xué)會(huì)(SAE)根據(jù)自動(dòng)駕駛系統(tǒng)與人類駕駛員參與駕駛行為程度的不同,將
    的頭像 發(fā)表于 10-18 10:17 ?2390次閱讀

    自動(dòng)駕駛上常提的VLA與世界模型有什么區(qū)別?

    自動(dòng)駕駛中常提的VLA,全稱是Vision-Language-Action,直譯就是“視覺-語言-動(dòng)作”。VLA的目標(biāo)是把相機(jī)或傳感器看到的畫面、能理解和處理自然語言的大模型能力,和最終控制車輛
    的頭像 發(fā)表于 10-18 10:15 ?715次閱讀

    如何確保自動(dòng)駕駛汽車感知的準(zhǔn)確性?

    [首發(fā)于智駕最前沿微信公眾號(hào)]自動(dòng)駕駛汽車想要自動(dòng)駕駛,首先要做的就是能對(duì)周邊環(huán)境實(shí)現(xiàn)精準(zhǔn)感知,也就是能“看”清道路,那自動(dòng)駕駛汽車如何在復(fù)雜、快速變化的道路環(huán)境做到感知的精確又可靠
    的頭像 發(fā)表于 08-23 15:06 ?1342次閱讀
    如何確保<b class='flag-5'>自動(dòng)駕駛</b>汽車感知的準(zhǔn)確性?

    自動(dòng)駕駛汽車是如何準(zhǔn)確定位的?

    [首發(fā)于智駕最前沿微信公眾號(hào)]隨著自動(dòng)駕駛技術(shù)的快速發(fā)展,車輛的精準(zhǔn)定位成為安全駕駛與路徑規(guī)劃的核心基礎(chǔ)。相比于傳統(tǒng)人類駕駛依賴路標(biāo)和視覺判斷,自動(dòng)駕駛汽車需要在復(fù)雜多變的交通環(huán)境
    的頭像 發(fā)表于 06-28 11:42 ?850次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b>汽車是如何準(zhǔn)確定位的?

    卡車、礦車的自動(dòng)駕駛和乘用車的自動(dòng)駕駛在技術(shù)要求上有何不同?

    [首發(fā)于智駕最前沿微信公眾號(hào)]自動(dòng)駕駛技術(shù)的發(fā)展,讓組合輔助駕駛得到大量應(yīng)用,但現(xiàn)在對(duì)于自動(dòng)駕駛技術(shù)的宣傳,普遍是在乘用車領(lǐng)域,而對(duì)于卡車、礦車的自動(dòng)駕駛發(fā)展,卻鮮有提及。其實(shí)在卡車、
    的頭像 發(fā)表于 06-28 11:38 ?685次閱讀
    卡車、礦車的<b class='flag-5'>自動(dòng)駕駛</b>和乘用車的<b class='flag-5'>自動(dòng)駕駛</b>在技術(shù)要求上有何不同?

    VLA,是完全自動(dòng)駕駛的必經(jīng)之路?

    電子發(fā)燒友網(wǎng)報(bào)道 (文/梁浩斌)最近,智駕領(lǐng)域又出現(xiàn)多個(gè)“新名詞”,比如蔚來推出的NWM、多家車企和智駕供應(yīng)商都在宣傳的VLA。實(shí)際上,從各家的路線來看,隨著更大算力的芯片,比如小鵬、蔚來自研的智駕
    的頭像 發(fā)表于 06-18 00:06 ?8639次閱讀

    自動(dòng)駕駛安全基石:ODD

    電子發(fā)燒友網(wǎng)綜合報(bào)道 自動(dòng)駕駛ODD(Operational Design Domain)即設(shè)計(jì)運(yùn)行域,是指自動(dòng)駕駛系統(tǒng)被設(shè)計(jì)為安全、有效運(yùn)行的具體條件范圍。它定義了自動(dòng)駕駛汽車在哪些環(huán)境、場景
    的頭像 發(fā)表于 05-19 03:52 ?5746次閱讀

    新能源車軟件單元測(cè)試深度解析:自動(dòng)駕駛系統(tǒng)視角

    的潛在風(fēng)險(xiǎn)增加,尤其是在自動(dòng)駕駛等安全關(guān)鍵系統(tǒng)。根據(jù)ISO 26262標(biāo)準(zhǔn),自動(dòng)駕駛系統(tǒng)的安全完整性等級(jí)(ASIL-D)要求單點(diǎn)故障率必須低于10^-8/小時(shí),這意味著每小時(shí)的故障概率需控制在億
    發(fā)表于 05-12 15:59

    自動(dòng)駕駛大模型中常提的Token是個(gè)啥?對(duì)自動(dòng)駕駛有何影響?

    、多模態(tài)傳感器數(shù)據(jù)的實(shí)時(shí)處理與決策。在這一過程,大模型以其強(qiáng)大的特征提取、信息融合和預(yù)測(cè)能力為自動(dòng)駕駛系統(tǒng)提供了有力支持。而在大模型的,有一個(gè)“Token”的概念,有些人看到后或許會(huì)問: Token是個(gè)啥?對(duì)
    的頭像 發(fā)表于 03-28 09:16 ?942次閱讀

    理想汽車推出全新自動(dòng)駕駛架構(gòu)

    2025年3月18日,理想汽車自動(dòng)駕駛技術(shù)研發(fā)負(fù)責(zé)人賈鵬在NVIDIA GTC 2025發(fā)表主題演講《VLA:邁向自動(dòng)駕駛物理智能體的關(guān)鍵一步》,分享了理想汽車對(duì)于下一代自動(dòng)駕駛技術(shù)M
    的頭像 發(fā)表于 03-19 14:12 ?885次閱讀

    為什么聊自動(dòng)駕駛的越來越多,聊無人駕駛的越來越少?

    “無人駕駛”與“自動(dòng)駕駛”,傻傻分不清楚?就在之前的一篇文章,引用了王傳福的一句話,其說的是無人駕駛是“扯淡”( 相關(guān)閱讀: 無人駕駛是“
    的頭像 發(fā)表于 02-23 10:52 ?985次閱讀
    為什么聊<b class='flag-5'>自動(dòng)駕駛</b>的越來越多,聊無人<b class='flag-5'>駕駛</b>的越來越少?

    從《自動(dòng)駕駛地圖數(shù)據(jù)規(guī)范》聊高精地圖在自動(dòng)駕駛的重要性

    自動(dòng)駕駛地圖作為L3級(jí)及以上自動(dòng)駕駛技術(shù)的核心基礎(chǔ)設(shè)施,其重要性隨著智能駕駛技術(shù)的發(fā)展愈發(fā)顯著。《自動(dòng)駕駛地圖數(shù)據(jù)規(guī)范》(DB11/T 2041-2022)由北京市規(guī)劃和自然資源委員會(huì)
    的頭像 發(fā)表于 01-05 19:24 ?2843次閱讀
    從《<b class='flag-5'>自動(dòng)駕駛</b>地圖數(shù)據(jù)規(guī)范》聊高精地圖在<b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中</b>的重要性

    一文聊聊自動(dòng)駕駛測(cè)試技術(shù)的挑戰(zhàn)與創(chuàng)新

    隨著自動(dòng)駕駛技術(shù)的飛速發(fā)展,自動(dòng)駕駛測(cè)試的重要性也日益凸顯。自動(dòng)駕駛測(cè)試不僅需要驗(yàn)證車輛的感知、決策、控制模塊的獨(dú)立性能,還需確保系統(tǒng)在復(fù)雜場景運(yùn)行的整體可靠性。然而,
    的頭像 發(fā)表于 12-03 15:56 ?1239次閱讀
    一文聊聊<b class='flag-5'>自動(dòng)駕駛</b>測(cè)試技術(shù)的挑戰(zhàn)與創(chuàng)新