什么是深度強化學習？深度強化學習在自動駕駛領(lǐng)域的應(yīng)用

最近，人工智能領(lǐng)域最火的莫過于大模型了。

由美國初創(chuàng)企業(yè)OpenAI開發(fā)的聊天應(yīng)用ChatGPT引爆市場，生成式AI成為科技市場熱點，ChatGPT背后是深度學習大模型，其理解和生成文字的能力超過以往AI產(chǎn)品。全球主要云計算公司例如亞馬遜等都加入其中，爭奪算力、開發(fā)和銷售大模型，云計算市場迎來新一輪競爭熱潮，覆蓋AI計算所需的算力、算法、數(shù)據(jù)各層面。

在自動駕駛方面，今年的CVPR上，拿到best paper的自動駕駛領(lǐng)域論文，更是將端到端與大模型結(jié)合，將該領(lǐng)域推向了高潮。事實上，“端到端”是深度學習中的概念，英文為“End-to-End（E2E）”，指的是一個AI模型，只要輸入原始數(shù)據(jù)就可以輸出最終結(jié)果。

而隱藏在大模型背后的，便是人工智能領(lǐng)域的基石——深度強化學習技術(shù)。深度強化學習對于現(xiàn)階段的科技工作者來說可能并不陌生，作為21世紀最為前沿領(lǐng)先的技術(shù)之一，深度強化學習早已在多個領(lǐng)域發(fā)揮了其不可替代的作用。例如前幾年大火的AlphaGo戰(zhàn)勝了一眾圍棋世界冠軍，又比如游戲界DeepMind 研發(fā)的 AlphaStar 在《星際爭霸2》中一戰(zhàn)封神等等，火熱的強人工智能加速了人們對于未來科技飛速發(fā)展的信心，而基于強化學習的方法更讓人們看到了人工智能超越人類知識的可能。

如此前沿的技術(shù)必然在前沿的領(lǐng)域發(fā)揮舉足輕重的作用，在自動駕駛領(lǐng)域，深度強化學習已然走出了自己特有的道路，并吸引一位又一位研究人員、企業(yè)對其展開探索，試圖將這一人類能完成的最高智慧應(yīng)用于未來的日常出行中。

什么是深度強化學習？

對于不太了解人工智能的小白來說，對深度強化學習這一名詞的概念可能比較陌生，正式的定義為深度強化學習是將深度學習的感知能力和強化學習的決策能力相結(jié)合，可以直接根據(jù)輸入的圖像進行控制，是一種更接近人類思維方式的人工智能方法。

而作為兩大學習方法的疊加，深度強化學習包含了兩種方法的特征與優(yōu)勢。深度學習具有較強的感知能力，但是缺乏一定的決策能力；而強化學習具有決策能力，對感知問題束手無策。因此，將兩者結(jié)合起來，優(yōu)勢互補，為復雜系統(tǒng)的感知決策問題提供了解決思路。更進一步來說，強化學習是一種典型的序貫決策方式，智能體通過與環(huán)境的交互獲得反饋，在嘗試和試錯中不斷進步。而深度強化學習綜合了深度學習對高維數(shù)據(jù)的抽象感知能力與強化學習優(yōu)秀的決策能力，能夠處理更高維度的輸入與輸出數(shù)據(jù)。

近年來，深度強化學習算法已在許多領(lǐng)域都取得了令人震撼的成就。2016年，基于深度 Q 網(wǎng)絡(luò)（Deep Q Network，DQN）和蒙特卡洛樹搜索算法的圍棋程序“AlphaGo”以4：1戰(zhàn)勝世界冠軍李世乭，轟動了世界，使得深度強化學習成為了人工智能領(lǐng)域研究的新風向。

近些年來深度強化學習算法取得的令人振奮的成果鼓勵了工業(yè)界和學術(shù)界進一步深入研究深度強化學習算法及其應(yīng)用。學者們將深度強化學習算法應(yīng)用在機器人控制、樓宇空調(diào)系統(tǒng)控制、匝道控制等領(lǐng)域中，在汽車和智能交通等領(lǐng)域，深度強化學習也在車道保持、超車決策、主動制動、能量管理、交通流調(diào)度等方面得到了應(yīng)用。

深度強化學習在自動駕駛領(lǐng)域的應(yīng)用

機器學習是指計算機程序通過已知經(jīng)驗數(shù)據(jù)中進行訓練，通過迭代訓練以提高其在指定任務(wù)上預(yù)測準確性的過程。機器學習算法通常分為三大類流派，分別是監(jiān)督學習、無監(jiān)督學習和強化學習?(RL)。

監(jiān)督學習算法基于歸納推理，通常需要使用有標記的數(shù)據(jù)進行訓練，以執(zhí)行分類或回歸，而無監(jiān)督學習一般應(yīng)用于未標記數(shù)據(jù)的密度估計或聚類等技術(shù)。相比之下強化學習比較自成一派，其通過與環(huán)境交互來提高其在指定任務(wù)上的性能，與監(jiān)督和非監(jiān)督學習使用損失函數(shù)進行迭代訓練的方式不同，強化學習一般使用獎勵函數(shù)進行訓練，比如OpenAI與王者榮耀的絕悟AI都屬于強化學習的范疇，一般在電競、機器人等方向上應(yīng)用較多。

根據(jù)各類機器學習算法的特點，可以看出在“場景理解”的相關(guān)任務(wù)中，使用監(jiān)督學習算法比較合適，而在“決策與規(guī)劃”任務(wù)中，又非強化學習算法莫屬。而深度強化學習（Deep reinforcement learning，DRL）兼具了深度學習對高維輸入的處理能力與強化學習的決策能力，能夠?qū)崿F(xiàn)由高維的感知信息到連續(xù)動作空間輸出的直接映射，非常適合處理環(huán)境復雜、交互頻繁的自動駕駛?cè)蝿?wù)。

上圖是百度 Apollo 使用的一種典型的感知-規(guī)劃-控制序列式架構(gòu)（Sequential perception-planning-action pipeline），主要包括高精地圖、定位感知、決策規(guī)劃、車輛控制等模塊。高精地圖和定位模塊為自動駕駛車輛提供位置信息，感知模塊提供靜動態(tài)障礙物信息，決策規(guī)劃模塊根據(jù)定位和障礙物信息合理規(guī)劃自動駕駛車輛的行為和路徑，最后由車輛控制模塊執(zhí)行運動規(guī)劃模塊下發(fā)的路徑跟蹤控制指令。

但是感知-規(guī)劃-控制序列式架構(gòu)主流的處理方式是將感知信息處理成人類可以理解的語義信息和道路交通信息，然后基于專家知識和規(guī)則進行決策規(guī)劃，這種方式在簡單場景下可以完成自動駕駛?cè)蝿?wù)。但卻難以勝任在復雜不確定場景中執(zhí)行的自動給駕駛?cè)蝿?wù)，原因是現(xiàn)實場景的復雜多樣性，使得專家知識和規(guī)則不能完全覆蓋所有場景和工況。

基于深度強化學習的端到端（End-to-end）的控制架構(gòu)是自動駕駛領(lǐng)域中新興的研究熱點，它能克服傳統(tǒng)方式依賴先驗環(huán)境建模的問題，可以直接實現(xiàn)通過從感知到控制功能的映射。例如今年CVPR的best paper中便指出，隨著深度學習發(fā)展，自動駕駛算法被組裝成一系列任務(wù)，包括目標檢測與跟蹤、在線建圖、軌跡預(yù)測、占據(jù)柵格預(yù)測等子任務(wù)。基于這些子任務(wù)，行業(yè)有著多種自動駕駛系統(tǒng)框架設(shè)計：模塊化設(shè)計，多任務(wù)框架，但兩種方案都面臨著累積錯誤或任務(wù)協(xié)調(diào)不足的困擾。比如自動駕駛公司W(wǎng)aymo、Cruise采用的模塊化設(shè)計方案，每個獨立的模塊負責單獨的子任務(wù)。這種方案具備簡化研發(fā)團隊分工，便于問題回溯，易于調(diào)試迭代等優(yōu)點。但由于將不同任務(wù)解耦，各個模塊相對于最終的駕駛規(guī)劃目標存在信息損失問題，且多個模塊間優(yōu)化目標不一致，誤差會在模塊間傳遞。

論文同時認為，多任務(wù)框架是更優(yōu)雅的一種設(shè)計方案，代表性企業(yè)有美國特斯拉、中國小鵬汽車等。方案中不同任務(wù)使用同一個特征提取器，具備便于任務(wù)拓展、節(jié)省計算資源等優(yōu)點。但不同任務(wù)之間仍存在預(yù)測不一致、表征沖突的問題。相比之下，端到端自動駕駛方案將感知、預(yù)測和規(guī)劃所有節(jié)點視為一個整體，將取得更優(yōu)的效果。

端到端大模型面臨的挑戰(zhàn)

深度強化學習DRL已經(jīng)被證實能夠解決無人駕駛中的部分問題，但還面臨很多挑戰(zhàn)。一是人工智能技術(shù)要真正應(yīng)用在汽車上，還需要制定相關(guān)的技術(shù)標準。二是DRL在解決復雜問題需要大量的訓練時間和反復模型優(yōu)化。三是需要設(shè)計一個穩(wěn)定的智能系統(tǒng)，如何解決仿真和現(xiàn)實之間的gap差距，這也許不是添加噪聲就能解決的問題。四是模型的精度和整個智能系統(tǒng)的架構(gòu)設(shè)計會影響DRL的可用性。

因此，基于深度強化學習的端到端大模型，也面臨著相應(yīng)的困難：一方面，用簡單的方式直接以傳感器信號作為輸入、以軌跡/控制作為輸出，能夠在仿真中取得較好結(jié)果，但缺乏可解釋性與實際應(yīng)用安全性，尤其是在復雜的城市道路場景。另一方面，對模型進行顯式設(shè)計，將整個架構(gòu)分為感知-預(yù)測-規(guī)劃模塊，使其具有部分中間結(jié)果表達。但這種方式面臨檢測結(jié)果在模塊間不可微導致無法端到端優(yōu)化，稠密BEV預(yù)測時長有限，過去-未來、物體-場景等多維度信息難以高效利用等困難。

因此，要想真正使得該項前沿技術(shù)大規(guī)模應(yīng)用在自動駕駛領(lǐng)域現(xiàn)階段來看還為時尚早，但深度強化學習的原理及潛力讓我們看到了未來實現(xiàn)真正超越人類駕駛水平的自動駕駛技術(shù)的希望。作為目前最火熱的研究方向，端到端大模型此次的進展無疑是喜人的，也給了從業(yè)者們更多的信心。

審核編輯：劉清

閱讀全文