99精品国产高清一区二区麻,yyyy久久久久久

[首發(fā)于智駕最前沿微信公眾號(hào)]在之前談及自動(dòng)駕駛模型學(xué)習(xí)時(shí)，詳細(xì)聊過強(qiáng)化學(xué)習(xí)的作用，由于強(qiáng)化學(xué)習(xí)能讓大模型通過交互學(xué)到策略，不需要固定的規(guī)則，從而給自動(dòng)駕駛的落地創(chuàng)造了更多可能。

強(qiáng)化學(xué)習(xí)示意圖，圖片源自：網(wǎng)絡(luò)

但強(qiáng)化學(xué)習(xí)本身是需要不斷試錯(cuò)的，如果采用這種學(xué)習(xí)方式在真實(shí)道路中不斷嘗試，一定會(huì)導(dǎo)致不可控的事故。于是就有人提出一種猜測(cè)，能不能利用已經(jīng)存在的大量行駛?cè)罩尽?a target="_blank">仿真記錄和人類駕駛數(shù)據(jù)，在訓(xùn)練過程中完全不與真實(shí)環(huán)境交互，從而訓(xùn)練出一個(gè)靠譜的決策模塊？

離線強(qiáng)化學(xué)習(xí)就是基于此提出的方案。離線強(qiáng)化學(xué)習(xí)先收集一大堆過去的經(jīng)驗(yàn)（含狀態(tài)、動(dòng)作、后果/獎(jiǎng)勵(lì)等），然后把這些經(jīng)驗(yàn)當(dāng)成教材，讓模型在離線狀態(tài)下學(xué)習(xí)策略，而不是去真實(shí)交通場(chǎng)景中試錯(cuò)。這樣做的好處是安全、低成本、能重復(fù)利用現(xiàn)有數(shù)據(jù)；但也帶來了不少問題，我們后面會(huì)詳細(xì)說。

離線強(qiáng)化學(xué)習(xí)的技術(shù)挑戰(zhàn)

離線強(qiáng)化學(xué)習(xí)在訓(xùn)練階段只能訪問一個(gè)固定的數(shù)據(jù)集，這個(gè)數(shù)據(jù)集是由若干次交互生成的記錄集合；訓(xùn)練算法不能再向環(huán)境發(fā)出動(dòng)作來采集新的樣本。這個(gè)改變會(huì)帶來分布覆蓋問題、估值偏差問題以及評(píng)估難題。

離線強(qiáng)化學(xué)習(xí)訓(xùn)練大模型時(shí)，提供的歷史數(shù)據(jù)來源于某些已有的行為策略或人為駕駛習(xí)慣，數(shù)據(jù)中可能壓根沒有某些狀態(tài)-動(dòng)作對(duì)。如果訓(xùn)練出的策略在部署時(shí)選擇了數(shù)據(jù)中極少或根本沒有覆蓋的動(dòng)作，算法對(duì)這些動(dòng)作的價(jià)值估計(jì)將會(huì)非常不可靠。

在離線數(shù)據(jù)里，有些動(dòng)作要么出現(xiàn)得很少，要么干脆沒出現(xiàn)過。按理說，模型對(duì)這些動(dòng)作應(yīng)該非常謹(jǐn)慎才對(duì)。但強(qiáng)化學(xué)習(xí)算法在估計(jì)動(dòng)作價(jià)值（Q值）時(shí)，會(huì)因?yàn)槿鄙僬鎸?shí)數(shù)據(jù)支撐，反而會(huì)把這些動(dòng)作估得特別好。導(dǎo)致的結(jié)果就是，模型會(huì)覺得這個(gè)操作收益很高，然后在學(xué)策略時(shí)越來越偏向這些現(xiàn)實(shí)中并不安全、甚至根本不可行的行為。

除此之外，離線強(qiáng)化學(xué)習(xí)在訓(xùn)練時(shí)無法在真實(shí)交通環(huán)境中驗(yàn)證策略，只能依賴離線的估計(jì)方法或仿真，這使得對(duì)學(xué)習(xí)到的策略的可靠性驗(yàn)證變得更復(fù)雜。為了解決分布偏差和估值問題，離線強(qiáng)化學(xué)習(xí)算法還必須加入保守項(xiàng)、不確定性估計(jì)、行為約束等，這些都會(huì)增加實(shí)現(xiàn)難度與調(diào)參成本。

離線強(qiáng)化學(xué)習(xí)的主流思路

現(xiàn)階段，離線強(qiáng)化學(xué)習(xí)使用較多的實(shí)現(xiàn)方式就是行為克隆，即把問題轉(zhuǎn)成監(jiān)督學(xué)習(xí)，直接用歷史狀態(tài)去預(yù)測(cè)歷史動(dòng)作，學(xué)會(huì)“模仿人類駕駛”。行為克隆實(shí)現(xiàn)簡(jiǎn)單、訓(xùn)練穩(wěn)定，但它的上限被數(shù)據(jù)中人類駕駛的質(zhì)量限制，且無法處理數(shù)據(jù)中沒有覆蓋到的新場(chǎng)景。

為了解決行為克隆存在的問題，出現(xiàn)了以價(jià)值估計(jì)為核心、但帶有保守性約束的離線強(qiáng)化學(xué)習(xí)算法，主要有“行為約束”及“保守估值”兩種策略。行為約束也就是在優(yōu)化策略時(shí)，直接限制新策略不能偏離已有數(shù)據(jù)太遠(yuǎn)；保守估值策略是在估計(jì)行動(dòng)價(jià)值時(shí)，對(duì)數(shù)據(jù)中不存在的行動(dòng)進(jìn)行刻意懲罰。這些做法都是為了壓低不切實(shí)際的樂觀估計(jì)，讓學(xué)習(xí)過程更可靠。

還有一種思路是先學(xué)習(xí)一個(gè)環(huán)境動(dòng)力學(xué)模型，然后在模型中進(jìn)行規(guī)劃或策略優(yōu)化，這一思路的關(guān)鍵在于如何讓模型在不確定或預(yù)測(cè)不可靠的區(qū)域加入懲罰或不信任度折扣，避免因模型錯(cuò)誤導(dǎo)致的危險(xiǎn)動(dòng)作。

此外，還有一些如ensemble（集成）不確定性估計(jì)、用置信區(qū)間控制決策、或把離線學(xué)習(xí)作為預(yù)訓(xùn)練基座，然后在受控的仿真或沙箱里做有限的在線微調(diào)的方法用于實(shí)現(xiàn)模型學(xué)習(xí)。

在實(shí)際應(yīng)用中，這些方法常會(huì)被組合使用，行為克隆可作為穩(wěn)定的初始策略；保守Q學(xué)習(xí)或批量約束方法能進(jìn)一步提升策略性能；而基于模型的規(guī)劃與不確定性估計(jì)則充當(dāng)風(fēng)險(xiǎn)控制的補(bǔ)充。需要強(qiáng)調(diào)的是，無論采用何種方法，數(shù)據(jù)的多樣性與質(zhì)量始終是決定成效的根本，如果缺乏對(duì)某些場(chǎng)景的覆蓋，任何算法都難以實(shí)現(xiàn)安全可靠的泛化。

自動(dòng)駕駛?cè)绾斡煤秒x線強(qiáng)化學(xué)習(xí)？

自動(dòng)駕駛?cè)绾斡煤秒x線強(qiáng)化學(xué)習(xí)？首先要做的是要規(guī)劃好數(shù)據(jù)收集體系。除了日常駕駛?cè)罩?，還要主動(dòng)合成和收集如夜間、逆光、大雨、大霧、臨時(shí)施工場(chǎng)景、行人異常行為等邊緣情況的樣本。仿真在這里的作用非常重要，它可以彌補(bǔ)現(xiàn)實(shí)場(chǎng)景中稀缺的數(shù)據(jù)，但必須和真實(shí)數(shù)據(jù)結(jié)合。

接著就是要做好分階段訓(xùn)練流程，在大模型學(xué)習(xí)的整個(gè)鏈路中，可以把離線強(qiáng)化學(xué)習(xí)當(dāng)作預(yù)訓(xùn)練的手段，可以先在大規(guī)模歷史數(shù)據(jù)上訓(xùn)練出一個(gè)“穩(wěn)健基線”；然后在高保真仿真里對(duì)該策略做更多場(chǎng)景覆蓋測(cè)試；最后就是進(jìn)行受控上線（比如先在特定區(qū)域、低速、有人監(jiān)控的條件下運(yùn)行），在實(shí)際運(yùn)行中以“shadowmode（影子模式）”不斷記錄策略決策與真實(shí)駕駛者行為的差異，收集新數(shù)據(jù)用于后續(xù)離線微調(diào)。

在進(jìn)行大模型部署時(shí)，一定要有強(qiáng)制的安全層和退回機(jī)制。不管策略多完善，都要有獨(dú)立的安全監(jiān)控，當(dāng)感知或決策模塊檢測(cè)到高不確定性、模型越界或可能造成人員傷害的風(fēng)險(xiǎn)時(shí)，系統(tǒng)應(yīng)降級(jí)到更保守的控制邏輯，或者直接交由人為接管。

圖片源自：網(wǎng)絡(luò)

評(píng)估和指標(biāo)體系的設(shè)定也要更加嚴(yán)謹(jǐn)。單靠訓(xùn)練時(shí)的“平均回報(bào)”或離線估計(jì)不足以判斷部署的安全性，其中需要包括不確定性分布、最差-k%情況、OPE（離線策略評(píng)估）方法、以及通過仿真和小規(guī)模上線驗(yàn)證得到的指標(biāo)等多維度指標(biāo)。

對(duì)于自動(dòng)駕駛來說，監(jiān)管與責(zé)任框架必須要預(yù)先設(shè)計(jì)好。在真實(shí)交通環(huán)境中，任何決策一旦出問題，就會(huì)牽扯到責(zé)任認(rèn)定、修復(fù)補(bǔ)救和合規(guī)審查，離線強(qiáng)化學(xué)習(xí)的訓(xùn)練日志與決策解釋將是重要證據(jù)。因此，要保證數(shù)據(jù)可追溯、策略版本可回滾、并保留充分的審計(jì)記錄。

最后的話

雖然離線強(qiáng)化學(xué)習(xí)面臨著“數(shù)據(jù)決定上限”與“分布外泛化難”的問題，但其給現(xiàn)實(shí)世界應(yīng)用，尤其是自動(dòng)駕駛這類安全敏感任務(wù)，提供了一個(gè)非常有價(jià)值的實(shí)現(xiàn)路徑。它緩和了“強(qiáng)化學(xué)習(xí)的潛力”與“現(xiàn)實(shí)世界的安全約束”之間的矛盾，使我們能利用海量歷史經(jīng)驗(yàn)去訓(xùn)練智能策略。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴