特斯拉向美國用戶推送了版本號為V12.1.2 Beta的端到端FSD,引發(fā)了廣泛關注。如何去理解智能駕駛端到端的系統(tǒng),我們來講一講。
傳統(tǒng)智能駕駛系統(tǒng)采用分模塊方案,分為感知、規(guī)劃和控制模塊,通過清晰的接口和界面交互。特斯拉的端到端大模型形成一個整合的神經(jīng)網(wǎng)絡結(jié)構(gòu),將感知、規(guī)控模塊合二為一。
端到端方案則完全基于全棧神經(jīng)網(wǎng)絡實現(xiàn),直接輸入傳感器數(shù)據(jù),輸出轉(zhuǎn)向、制動和加速信號。
01 ? ? 特斯拉智能駕駛系統(tǒng)的演進歷程 ? ?
從2021年開始一直到預期的2023/2024年,主要要點包括:
●?2021年:引入HydraNet
特斯拉起初使用Mobileye系統(tǒng),但很快就轉(zhuǎn)向定制系統(tǒng),包括HydraNet多任務學習算法。HydraNet采用單個神經(jīng)網(wǎng)絡執(zhí)行多個任務,如感知(檢測物體和環(huán)境)和規(guī)劃與控制(規(guī)劃路徑和駕駛)特斯拉在算法層面不斷改進,從傳統(tǒng)A算法、帶導航路線的A算法到Monte-Carlo樹搜索算法,用于規(guī)劃系統(tǒng)。
●?2022年:引入Occupancy Networks:引入了Occupancy Network算法,對感知模塊進行了改進,實現(xiàn)更好的3D理解。HydraNet的擴展包括車道線檢測的新“頭”,規(guī)劃器還進行了優(yōu)化,整合了Occupancy Networks的輸出。
●?2023/2024年:過渡到端到端學習:特斯拉計劃從當前架構(gòu)過渡到端到端深度學習系統(tǒng),過渡的關鍵是將規(guī)劃器改造為完全使用深度學習,并使用聯(lián)合損失函數(shù)進行訓練。過渡后的系統(tǒng)將采用端到端學習,消除手動規(guī)則和代碼,并允許模型在未知場景中更好地泛化。
端到端大模型是對海量駕駛視頻片段的壓縮,類比于大語言模型的生成式GPT,將互聯(lián)網(wǎng)級別的數(shù)據(jù)壓縮到了端到端神經(jīng)網(wǎng)絡的參數(shù)里,實現(xiàn)了駕駛知識的高效儲存和應用全棧神經(jīng)網(wǎng)絡化的FSD是軟件2.0時代的產(chǎn)物,完全基于數(shù)據(jù)驅(qū)動。訓練數(shù)據(jù)的質(zhì)量和規(guī)模成為決定端到端神經(jīng)網(wǎng)絡性能表現(xiàn)的關鍵因素。
02 ? ? 端到端學習的挑戰(zhàn)和優(yōu)勢 ? ?
端到端學習的挑戰(zhàn)包括模型變得更加不可解釋,但作者強調(diào)可以仍然可以可視化各個組件的輸出。通過從駕駛員的1000萬段視頻中“模仿”駕駛員來進行自我計算,以提高系統(tǒng)的泛化能力。
●?優(yōu)點
◎?具備更高的技術(shù)上界:端到端結(jié)構(gòu)方便進行聯(lián)合優(yōu)化,尋求整體最優(yōu)解。
◎?數(shù)據(jù)驅(qū)動解決復雜長尾問題:可通過大量數(shù)據(jù)驅(qū)動覆蓋更多corner case,提高系統(tǒng)適應性。
◎?消除嚴重的模塊累計誤差:全棧神經(jīng)網(wǎng)絡結(jié)構(gòu)可傳遞全量信息,消除模塊之間的累計誤差。
●?缺點
◎?缺乏可解釋性:端到端模型的工作機制難以解釋,影響對系統(tǒng)的理解。
◎?需要海量的高質(zhì)量數(shù)據(jù):訓練算力、數(shù)據(jù)、AI人才、資金都需要較高的門檻,數(shù)據(jù)質(zhì)量對模型性能有著決定性影響。
特斯拉在端到端FSD的訓練上付出了巨大的投入,特斯拉花費了大約一個季度的時間完成了1000萬個視頻片段的訓練,訓練視頻片段的質(zhì)量和數(shù)量成為了系統(tǒng)性能的決定性因素,計劃在2025年底將訓練算力推高到100E,相比其他廠商,其訓練算力仍高出一個數(shù)量級。
小結(jié) ? ? ?
特斯拉的端到端方案引起了廣泛關注,但其可解釋性和對海量高質(zhì)量數(shù)據(jù)的需求成為業(yè)界關注的焦點。優(yōu)勢在于整體性能和適應性的提升,缺點則在于技術(shù)的可理解性和高門檻的數(shù)據(jù)需求。這條路線是確定的,就是跟隨起來很費勁!
審核編輯:黃飛
?
評論