老司机深夜免费芈月,被五个人玩屁股眼

[首發(fā)于智駕最前沿微信公眾號]在自動(dòng)駕駛領(lǐng)域，經(jīng)常會(huì)有技術(shù)提出將VLA（視覺—語言—?jiǎng)幼髂Ｐ停?yīng)用到自動(dòng)駕駛上。VLA的作用就是把看、懂、決策三件事交給一個(gè)大模型，攝像頭看到畫面，模型用“視覺＋語言”去理解場景和意圖，最后直接輸出要不要轉(zhuǎn)向、踩剎車這樣的動(dòng)作。這個(gè)模型的好處顯而易見，模型能用更豐富的語義理解來輔助決策，理論上更靈活、更接近“人怎么想就怎么做”的需求。但從實(shí)際落地和安全角度看，直接將自動(dòng)駕駛汽車的行駛?cè)拷唤oVLA，又有很多現(xiàn)實(shí)的難點(diǎn)和坑。

邊緣場景或?qū)㈦y以理解

大模型是靠大量數(shù)據(jù)學(xué)會(huì)“看”和“說”，但自動(dòng)駕駛強(qiáng)調(diào)的是不能能“看”，更要能做對事。交通環(huán)境中常見的場景很容易被模型學(xué)會(huì)，但真正危險(xiǎn)的往往是那些如臨時(shí)擺放的異物、非常規(guī)施工標(biāo)識、突然沖出來的行人、凹陷或濕滑的路面、以及復(fù)雜的多車交互等不常見的極端情況。把這些長尾場景都采集齊全幾乎不可能，尤其是要配套高質(zhì)量的動(dòng)作標(biāo)簽（也就是在那些場景下“應(yīng)該怎么做”）更是難上加難。

對于邊緣場景，有些技術(shù)方案提出使用仿真幫忙補(bǔ)樣本，但仿真和真實(shí)世界總有差距。光照、材質(zhì)、行人行為建模都很難完全擬合現(xiàn)實(shí)。有時(shí)在仿真里“得分高”的策略，也可能利用了仿真里的漏洞，如果這些策略到了真車上反而會(huì)危險(xiǎn)。對于大模型學(xué)習(xí)還有一點(diǎn)不容忽視，用于訓(xùn)練控制的標(biāo)簽必須是物理可實(shí)現(xiàn)的。不是所有人為操作示例都適合直接當(dāng)作監(jiān)督信號；一些看起來“聰明”的人為反應(yīng)其實(shí)依賴于人類的直覺和肉體補(bǔ)償（比如猛打方向時(shí)人的身體補(bǔ)償），模型直接模仿這些反而可能超出車輛動(dòng)力學(xué)極限。

因此單靠堆數(shù)據(jù)和堆算力，無法把所有可能的危險(xiǎn)都消滅掉。更可行的做法是把VLA用來補(bǔ)強(qiáng)語義理解和異常檢測，而不是把完全的控制權(quán)一次性托付給它。把它當(dāng)成能給出“高層建議”的大腦，而由經(jīng)過驗(yàn)證的低級控制器來做最終執(zhí)行，會(huì)安全得多。

能想出來不等于能做得到

語言模型擅長推理和生成，但車輛有明確的物理約束。一個(gè)優(yōu)秀的駕駛“想法”可能需要的轉(zhuǎn)向角、加速度或車體傾斜等要求，有些在現(xiàn)實(shí)中可能根本實(shí)現(xiàn)不了。若不把這些物理約束強(qiáng)行嵌入到輸出環(huán)節(jié)，模型又有可能提出不可行或危險(xiǎn)的軌跡。對于這類問題，要么在模型輸出端加上物理約束或后驗(yàn)校正，要么把動(dòng)作空間離散化讓模型只選“有限個(gè)可行動(dòng)作”。前者可以保持流暢性但增加工程復(fù)雜度，后者雖然簡單但犧牲了自然和效率。

還有就是時(shí)序問題。自動(dòng)駕駛的控制回路有嚴(yán)格的頻率和延遲要求。若模型在算力受限的車端運(yùn)行太慢，或者把重要推理放在云端遇到網(wǎng)絡(luò)波動(dòng)，決策就會(huì)基于舊畫面來執(zhí)行，這反而會(huì)帶來駕駛風(fēng)險(xiǎn)。那種“決策滯后于現(xiàn)實(shí)”的情況，比決策錯(cuò)誤還危險(xiǎn)。很多常見的解決思路是“快思維+慢思維”架構(gòu)，小而穩(wěn)定的模型在車端做基礎(chǔ)感知和閉環(huán)控制，復(fù)雜的語義推理和策略優(yōu)化放在后臺或云端，只在非關(guān)鍵時(shí)刻下提供建議。但這要求架構(gòu)設(shè)計(jì)非常嚴(yán)謹(jǐn)，必須保證背景推理的結(jié)論不會(huì)在關(guān)鍵時(shí)刻破壞即時(shí)控制路徑。

訓(xùn)練端到端系統(tǒng)常用的方法之一是強(qiáng)化學(xué)習(xí)或帶有獎(jiǎng)勵(lì)的優(yōu)化。若獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)不當(dāng)，模型可能學(xué)到在訓(xùn)練或仿真中高分但現(xiàn)實(shí)里危險(xiǎn)的策略。比如會(huì)利用某些規(guī)則漏洞快速完成任務(wù)，或者在仿真里靠冒險(xiǎn)動(dòng)作取勝。解決這類問題需要把安全約束顯式納入訓(xùn)練目標(biāo)，或采用混合監(jiān)督（讓模型既學(xué)專家示范也學(xué)安全約束），還要在訓(xùn)練里引入更多對抗和擾動(dòng)場景。但這些措施會(huì)顯著抬高訓(xùn)練成本和驗(yàn)證復(fù)雜度。

其實(shí)對于模型來說，算力和成本也是需要直面的問題，更大的模型意味著更貴、更耗電、更熱、需要更強(qiáng)的散熱設(shè)計(jì)，這直接影響整車成本和可靠性。這就要求廠商采用“既省錢又靠譜”的折中方案，而不是盲目堆模型參數(shù)。

黑箱很難過審，責(zé)任也難界定

傳統(tǒng)自動(dòng)駕駛系統(tǒng)將感知、預(yù)測、規(guī)劃、控制等各模塊分得非常清晰，各模塊可以單獨(dú)驗(yàn)收、打樁測試、形式化驗(yàn)證。端到端的VLA可以把這些環(huán)節(jié)耦合在一起，提升效率，但出問題時(shí)也很難追根溯源。監(jiān)管機(jī)構(gòu)、保險(xiǎn)公司和法律體系更信任可審計(jì)、可重放、可證明的決策路徑。一個(gè)不能解釋為何在某一時(shí)刻緊急轉(zhuǎn)向或未能剎停的黑箱模型，在面對事故調(diào)查和責(zé)任認(rèn)定會(huì)極為不利。

這就要求必須設(shè)計(jì)日志機(jī)制、關(guān)鍵中間態(tài)保存和可回溯的決策證據(jù)。把VLA用于生成解釋性文本（例如“由于前方有臨時(shí)施工牌，我建議減速”）是一條可行路徑，但這種解釋必須真實(shí)可驗(yàn)證，不能只是后置拼湊的“借口”。此外，形式化安全約束和保證性測試在端到端系統(tǒng)里更難做，需要新的驗(yàn)證方法論和更多的試驗(yàn)數(shù)據(jù)，短期內(nèi)法規(guī)適配也是一道門檻。

視覺好用但不會(huì)在所有場景都看清

VLA的名字里有個(gè)“V”（視覺），這意味著相機(jī)會(huì)是主傳感器。相機(jī)能提供豐富的語義信息，但在弱光、逆光、霧霾、雨雪或被遮擋時(shí)，它的表現(xiàn)會(huì)明顯下降。雷達(dá)和激光雷達(dá)在測距和穿透性上有優(yōu)勢，但它們給出的信息不是“語義友好”的，對于“這是誰/這塊牌子意味著什么”的解釋不如視覺直觀。把視覺的語義理解和雷達(dá)/激光雷達(dá)的物理量整合起來，是一件技術(shù)上復(fù)雜但很有必要的事。

此外，同樣的視覺目標(biāo)在不同城市或國家外觀可能差別很大，標(biāo)準(zhǔn)交通標(biāo)識、路面材質(zhì)、車輛樣式都不同。模型的跨域遷移需要大量本地化數(shù)據(jù)和細(xì)致的微調(diào)，不然在新環(huán)境中容易出問題，就像特斯拉FSD在國內(nèi)使用初期，其表現(xiàn)也并不是很好。簡而言之，要讓大模型做到“放車就能跑遍全世界”，現(xiàn)階段還不現(xiàn)實(shí)。

如何安全地把控制權(quán)還給人？

VLA最大的優(yōu)勢之一是能用自然語言和人互動(dòng)，這對用戶體驗(yàn)很重要。但自然語言含糊和歧義性極高。用戶可能給出矛盾或不完整的指令，系統(tǒng)必須在理解意圖與遵守安全約束之間平衡。還有一個(gè)更現(xiàn)實(shí)的情況是，系統(tǒng)在遇到邊緣場景時(shí)，如何安全地把控制權(quán)還給人？人被動(dòng)從乘客身份到主動(dòng)接管需要時(shí)間和注意力切換，如果這個(gè)過程設(shè)計(jì)不當(dāng)，就會(huì)增加風(fēng)險(xiǎn)。因此，需要明確接管觸發(fā)條件、足夠的時(shí)間窗和清晰的提示方式，同時(shí)在設(shè)計(jì)上盡量減少對用戶即時(shí)高復(fù)雜度決策的依賴。

對于消費(fèi)者來說，對自動(dòng)駕駛汽車的信任也非常關(guān)鍵。一次危險(xiǎn)的動(dòng)作就可能毀掉用戶對系統(tǒng)的信心。要建立信任，系統(tǒng)需要持續(xù)可靠且能解釋自己的行為。VLA在解釋性輸出方面有天然優(yōu)勢，但前提是解釋必須準(zhǔn)確、可驗(yàn)證，并且易于理解。

可落地的折中策略

鑒于VLA模型不可不去面對的這些挑戰(zhàn)，現(xiàn)階段最務(wù)實(shí)的做法是漸進(jìn)式、混合式落地。把VLA用在語義理解、異常檢測、場景注釋、人機(jī)交互等對實(shí)時(shí)性不那么敏感但對語義能力要求高的功能上，讓它成為“智能的助手”；對于關(guān)鍵的高頻控制仍然交給經(jīng)過驗(yàn)證的低級控制器。還有一種思路就是把VLA當(dāng)作慢思維：在后臺做長時(shí)間的策略優(yōu)化、駕駛風(fēng)格學(xué)習(xí)和復(fù)雜場景分析，再把受限的結(jié)論以可解釋且受約束的方式下發(fā)給車端控制系統(tǒng)。

對于商用化的模型，還必須設(shè)計(jì)好回退機(jī)制、日志與可審計(jì)模塊，并把它們寫進(jìn)每一次版本的驗(yàn)收標(biāo)準(zhǔn)。數(shù)據(jù)采集策略要優(yōu)先覆蓋那些影響安全的長尾場景，仿真和現(xiàn)實(shí)測試要結(jié)合進(jìn)行，驗(yàn)證體系要能給出可量化的安全證據(jù)而不是單純的性能曲線。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴