chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一個使用傳統(tǒng)DAS和深度強(qiáng)化學(xué)習(xí)融合的自動駕駛框架

ml8z_IV_Technol ? 來源:未知 ? 作者:李倩 ? 2018-06-14 09:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

增強(qiáng)學(xué)習(xí)是最近幾年中機(jī)器學(xué)習(xí)領(lǐng)域的最新進(jìn)展。增強(qiáng)學(xué)習(xí)依靠與環(huán)境交互學(xué)習(xí),在相應(yīng)的觀測中采取最優(yōu)行為。行為的好壞可以通過環(huán)境給予的獎勵來確定。不同的環(huán)境有不同的觀測和獎勵。例如,駕駛中環(huán)境觀測是攝像頭和激光雷達(dá)采集到的周圍環(huán)境的圖像和點云,以及其他的傳感器的輸出,例如行駛速度、GPS定位、行駛方向。駕駛中的環(huán)境的獎勵根據(jù)任務(wù)的不同,可以通過到達(dá)終點的速度、舒適度和安全性等指標(biāo)確定。增強(qiáng)學(xué)習(xí)和傳統(tǒng)機(jī)器學(xué)習(xí)的最大區(qū)別是增強(qiáng)學(xué)習(xí)是一個閉環(huán)學(xué)習(xí)的系統(tǒng),增強(qiáng)學(xué)習(xí)算法選取的行為會直接影響到環(huán)境,進(jìn)而影響到該算法之后從環(huán)境中得到的觀測。

增強(qiáng)學(xué)習(xí)在無人駕駛中的應(yīng)用

關(guān)于安全自主駕駛的研究可以分為兩種方法:一是傳統(tǒng)的感知,規(guī)劃和控制框架,另一種是基于學(xué)習(xí)的方法?;趯W(xué)習(xí)的方法可以成功處理在計算機(jī)視覺領(lǐng)域的高維特征(如卷積神經(jīng)網(wǎng)絡(luò)(CNN))而廣受歡迎[5]-[7],強(qiáng)化學(xué)習(xí)算法可以最大化預(yù)期獎勵的總和。有越來越多的研究開始將這兩種技術(shù)結(jié)合,用于自動駕駛。對于車道保持,Rausch等人[8]提出了一種訓(xùn)練網(wǎng)絡(luò)的方法,該方法直接根據(jù)從前置攝像頭獲得的圖像預(yù)測轉(zhuǎn)向角。結(jié)果表明,該神經(jīng)網(wǎng)絡(luò)可以通過從前置攝像頭得到的原始圖像,自動學(xué)習(xí)車道等特征,來訓(xùn)練車輛的車道保持的轉(zhuǎn)向角度。 John等人[9]提出了混合框架,通過使用長短期記憶網(wǎng)絡(luò)(LSTM)為每個場景計算適當(dāng)?shù)霓D(zhuǎn)向角。每個網(wǎng)絡(luò)都會在特定道路場景的特定分區(qū)(如直線駕駛,右轉(zhuǎn)彎和左轉(zhuǎn)彎)中,對駕駛行為進(jìn)行建模。在考慮多種駕駛場景時,它在多個駕駛序列中運(yùn)行良好。 Al-Qizwini等人[10]提出了一種回歸網(wǎng)絡(luò),預(yù)測駕駛的可利用狀態(tài),如前置攝像機(jī)圖像中的交叉錯誤,航向誤差和障礙物距離,而不是通過使用GoogLeNet直接從前攝像機(jī)圖像預(yù)測轉(zhuǎn)向角[11 ] 。轉(zhuǎn)向角度,油門和制動都是使用基于if-else規(guī)則的算法計算出來的。

Sallab等[12]提出了一種在沒有障礙物的情況下,使用DQN(Deep Q Network)和DDAC(Deep Deterministic Actor Critic)學(xué)習(xí)車道保持駕駛策略的方法。他們直接掌握轉(zhuǎn)向,加速和減速,根據(jù)低維特征(如速度,軌道邊界位置)最大限度地提高預(yù)期的未來回報。因此,使用可應(yīng)用于連續(xù)作用的DDAC而非離散作用空間的DQN可以提高車道保持性能。 Zong等[13]提出了一種應(yīng)用DDPG [14]來躲避障礙物,學(xué)習(xí)轉(zhuǎn)向角和加速度值的方法。上述方法可以直接獲得控制車輛所需的合適的轉(zhuǎn)向角度、油門和制動量。然而,在這些情況下,每當(dāng)車輛的參數(shù)改變時,最佳策略就會改變。因此存在很大限制,即為了最佳策略要不斷進(jìn)行學(xué)習(xí)。

本文提出了一個使用傳統(tǒng)DAS和深度強(qiáng)化學(xué)習(xí)融合的自動駕駛框架。該框架在DAS功能(例如車道變換,巡航控制和車道保持等)下,以最大限度地提高平均速度和最少車道變化為規(guī)則,來確定超車次數(shù)。可行駛空間是根據(jù)行為水平定義的,利用駕駛策略可以學(xué)習(xí)車道保持,車道變更和巡航控制等行為。為了驗證所提出的算法,該算法在密集交通狀況的模擬中進(jìn)行了測試,并證明了隨著駕駛期間的學(xué)習(xí)進(jìn)展,平均速度,超車次數(shù)和車道變換次數(shù)方面性能得到改善。

Deep Q Learning Based High Level Driving Policy Determination

Kyushik Min,

Hayoung Kim and Kunsoo Huh, Member, IEEE

作者Kyushik Min,韓國漢陽大學(xué)機(jī)器監(jiān)測和控制實驗室博士生,研究方向為高級駕駛輔助系統(tǒng)(ADAS)和自動駕駛。

項目概述

該項目為Tensorflow Korea 主辦的2017濟(jì)州學(xué)習(xí)營項目。使用傳感器數(shù)據(jù)和相機(jī)圖像作為DRL算法的輸入。DRL算法根據(jù)輸入決定行駛動作。如果行動可能導(dǎo)致危險情況,ADAS可以控制車輛以避免碰撞。

高層自動駕駛決策的實現(xiàn)

1.馬爾科夫決策過程(MDP)

馬爾可夫決策過程(MDP)是決策的數(shù)學(xué)框架,它由元組組成,其中狀態(tài)集合S,行為集A,轉(zhuǎn)換模型T,獎勵函數(shù)R和折扣因子γ[15]。解決MDP問題的關(guān)鍵是找到一個策略,使給定的回報函數(shù)R的折扣回報期望總和最大化。然而,在最近的深度學(xué)習(xí)研究中,可以從大數(shù)據(jù)集有效地訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),并且可以通過使用從原始輸入中獲得的一些固定狀態(tài)φ(St)而不是狀態(tài)St來解決MDP 。事實上,深度神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺研究中,已經(jīng)訓(xùn)練出比手工標(biāo)記特征表現(xiàn)更好的算法。駕駛策略學(xué)習(xí)也是基于MDP進(jìn)行的,在該MDP中,主車輛與周圍的車輛和車道等環(huán)境相互作用。使用深度強(qiáng)化學(xué)習(xí)的優(yōu)勢可以更好的自主學(xué)習(xí),從而為駕駛決策學(xué)習(xí)定義了觀察狀態(tài)S,行動空間A和獎勵函數(shù)R。

2.感知

使用LIDAR傳感器數(shù)據(jù)和相機(jī)圖像數(shù)據(jù)構(gòu)建感知狀態(tài)。傳感器配置的總覆蓋范圍可以在上圖中看到。

障礙物距離可以從LIDAR傳感器獲得,也可以從前端攝像頭中獲得原始圖像來輔助感知。由于激光雷達(dá)的距離數(shù)據(jù)和來自相機(jī)的圖像數(shù)據(jù)具有完全不同的特點,因此本研究采用多模態(tài)輸入方案。

3.行動

駕駛決策的行動空間是在離散行動空間中定義的。當(dāng)我們利用傳統(tǒng)DAS的優(yōu)勢時,這個系統(tǒng)的每個動作都可能激活對應(yīng)的DAS功能。在縱向方向上,有三種動作:1.速度為V + Vcc的巡航控制,其中Vcc為額外目標(biāo)速度,設(shè)定為5km / h,2.當(dāng)前速度為V的巡航控制,3.速度為巡航控制 V - Vcc。這些縱向行動將觸發(fā)自主緊急制動(AEB)和自適應(yīng)巡航控制(ACC)。在橫向方向上,還有三種動作:1.保持車道,2.將車道變到左側(cè),3.將車道變到右側(cè)。由于自動駕駛車輛同時在縱向和橫向兩個方向上駕駛,我們定義了5個離散行為。(靜止,加速,減速,車道改變到左側(cè),車道改變到右側(cè))

4.獎勵

根據(jù)強(qiáng)化學(xué)習(xí)選擇不同的行動,將收到行動結(jié)果的獎勵。在MDP上解決的問題是找到一個能夠最大化未來預(yù)期價值獎勵的驅(qū)動策略。這意味著最佳駕駛策略可以完全不同,具體取決于獎勵的設(shè)計方式。因此,設(shè)計適當(dāng)?shù)莫剟顧C(jī)制對學(xué)習(xí)正確的駕駛策略非常重要。當(dāng)車輛在密集的交通情況下行駛時,應(yīng)該滿足以下三個條件:1.找到使車輛高速行駛的策略,2.以無碰撞的軌跡行駛,3.不頻繁地改變車道。 基于這三個條件來設(shè)計獎勵機(jī)制。

用于決策學(xué)習(xí)的DEEP RL算法

DQN在強(qiáng)化學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)相結(jié)合的游戲領(lǐng)域取得巨大成功之后,對深度強(qiáng)化學(xué)習(xí)進(jìn)行了各種研究[16]。尤其是,在基于DQN價值的深層強(qiáng)化學(xué)習(xí)[17] - [22]中進(jìn)行了大量研究。在此項研究中,深層增強(qiáng)學(xué)習(xí)算法由DQN [1],Double DQN [17]和Dueling DQN [19]組合得到最近的算法模型,其中的算法參考了Human-level Control Through Deep Reinforcement Learning[1],Deep Reinforcement Learning with Double Q-Learning[17],Prioritized Experience Replay[18],Dueling Network Architecture for Deep Reinforcement Learning[19]四篇論文中的算法。

項目代碼可以在Github上查找:

https://github.com/MLJejuCamp2017/DRL_based_SelfDrivingCarControl

下圖為最終的DQN模型。

仿真模擬

本文使用的模擬器是由 Unity 和 Unity ML-Agents 構(gòu)建的。模擬道路環(huán)境是由五車道組成的高速公路行車道。其他車輛在距離主車輛一定距離內(nèi)的隨機(jī)車道中心產(chǎn)生。另外,假定其他車輛在大多數(shù)情況下不會彼此碰撞,并且可以執(zhí)行五個動作(加速,減速,車道改變到右車道,車道改變到左車道,保持當(dāng)前狀態(tài))。其他車輛的各種行動以多種隨機(jī)方式出現(xiàn),改變了模擬環(huán)境,因此Agent 可以體驗許多不同的情況。模擬器的觀測結(jié)果有兩種類型:一種是圖像,另一種是激光雷達(dá)范圍陣列。由于前面有攝像頭,因此每一步都會觀察到原始像素圖像。 LIDAR傳感器檢測有一個360度的射線范圍,如果光線掃描到物體,它會返回主車輛和物體之間的距離。如果沒有障礙物,則返回模擬器每一步的最大感應(yīng)距離。

結(jié)果與結(jié)論

本文提出的駕駛策略算法使用Tensorflow 架構(gòu)[25]實現(xiàn)的,平均速度,車道變化次數(shù)和超車次數(shù)等數(shù)據(jù)都可以從中讀出。為驗證多輸入體系結(jié)構(gòu)的優(yōu)勢,該體系結(jié)構(gòu)分別將來自攝像機(jī)和LIDAR的數(shù)據(jù)通過CNN和LSTM相結(jié)合,另外還使用了兩個僅用攝像機(jī)輸入和LIDAR輸入的策略網(wǎng)絡(luò)作為對比。

比較三種不同的不同輸入的網(wǎng)絡(luò)架構(gòu):攝像頭,LIDAR,攝像頭和激光雷達(dá)。隨著訓(xùn)練的進(jìn)行,自動駕駛車輛會超越更多的車輛并以更快的速度行駛,而不會在每個輸入車輛的環(huán)境中,出現(xiàn)不必要的車道變化。結(jié)果顯示,多輸入架構(gòu)在平均速度和平均超車次數(shù)方面表現(xiàn)出最佳性能,分別為73.54km / h和42.2。但是,當(dāng)使用多輸入架構(gòu)時,車道變化的數(shù)量最多,其平均值為30.2。盡管所提出的算法的目標(biāo)是減少不必要的車道變化的數(shù)量,但多輸入架構(gòu)的結(jié)果在車道變化的數(shù)量方面是最高的。對于LIDAR和攝像頭架構(gòu)中,即使前車速度較慢,它們有時也會顯示跟隨前方車輛而不更改車道。因此,研究車道變化的數(shù)量是尋找最優(yōu)策略的關(guān)鍵。

在本文中,駕駛策略網(wǎng)絡(luò)充分利用傳統(tǒng)的DAS功能,在大多數(shù)情況下保證了車輛行駛的安全性。使用深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練的自主車輛,在模擬高速公路場景中成功駕駛,所提出的策略網(wǎng)絡(luò)使用多模式輸入,不會造成不必要的車道變化,在平均速度,車道變化次數(shù)和超車次數(shù)方面,車輛比具有單輸入的車輛更好地駕駛。這項研究的結(jié)果表明,自主車輛可以由受過深度強(qiáng)化學(xué)習(xí)訓(xùn)練的主管來控制。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • DAS
    DAS
    +關(guān)注

    關(guān)注

    1

    文章

    119

    瀏覽量

    32430
  • 自動駕駛
    +關(guān)注

    關(guān)注

    792

    文章

    14789

    瀏覽量

    178229
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    270

    瀏覽量

    11936

原文標(biāo)題:IEEE IV 2018:基于深度增強(qiáng)學(xué)習(xí)的高層駕駛決策研究

文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    多智能體強(qiáng)化學(xué)習(xí)(MARL)核心概念與算法概覽

    訓(xùn)練單個RL智能體的過程非常簡單,那么我們現(xiàn)在換一個場景,同時訓(xùn)練五智能體,而且每個都有自己的目標(biāo)、只能看到部分信息,還能互相幫忙。這就是多智能體強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 01-21 16:21 ?55次閱讀
    多智能體<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>(MARL)核心概念與算法概覽

    自動駕駛中常提的模仿學(xué)習(xí)是什么?

    當(dāng)談及自動駕駛模型學(xué)習(xí)時,經(jīng)常會提到模仿學(xué)習(xí)的概念。所謂模仿學(xué)習(xí),就是模型先看別人怎么做,然后學(xué)著去做。自動駕駛中的模仿
    的頭像 發(fā)表于 01-16 16:41 ?1836次閱讀

    自動駕駛中提到的“深度相機(jī)”是啥?

    自動駕駛的實現(xiàn)離不開各類傳感器的支持,其中純視覺方案成為很多技術(shù)方案的選擇,但由于攝像頭無法感知到環(huán)境深度信息,因此有部分技術(shù)方案提到了“深度相機(jī)”的技術(shù)。
    的頭像 發(fā)表于 12-13 13:35 ?2306次閱讀

    如何訓(xùn)練好自動駕駛端到端模型?

    [首發(fā)于智駕最前沿微信公眾號]最近有位小伙伴在后臺留言提問:端到端算法是怎樣訓(xùn)練的?是模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和離線強(qiáng)化學(xué)習(xí)這三類嗎?其實端到端(end-to-end)算法在自動駕駛、智能體
    的頭像 發(fā)表于 12-08 16:31 ?1293次閱讀
    如何訓(xùn)練好<b class='flag-5'>自動駕駛</b>端到端模型?

    VLA能解決自動駕駛中的哪些問題?

    、語言表達(dá)和動作控制這三者整合到統(tǒng)的模型框架中。 與傳統(tǒng)自動駕駛系統(tǒng)將感知、預(yù)測、規(guī)劃、控
    的頭像 發(fā)表于 11-25 08:53 ?346次閱讀
    VLA能解決<b class='flag-5'>自動駕駛</b>中的哪些問題?

    自動駕駛中常提的“強(qiáng)化學(xué)習(xí)”是啥?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛時,有些方案中會提到“強(qiáng)化學(xué)習(xí)(Reinforcement Learning,簡稱RL)”,強(qiáng)化學(xué)習(xí)類讓機(jī)器通過試錯來學(xué)會做決策的技術(shù)。
    的頭像 發(fā)表于 10-23 09:00 ?527次閱讀
    <b class='flag-5'>自動駕駛</b>中常提的“<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>”是<b class='flag-5'>個</b>啥?

    自動駕駛中常提的ODD是啥?

    [首發(fā)于智駕最前沿微信公眾號]在自動駕駛中,經(jīng)常會聽到概念,那就是ODD。所謂ODD,全稱為Operational Design Domain,中文常譯為“運(yùn)行設(shè)計域”或者“作業(yè)域”。直觀
    的頭像 發(fā)表于 09-22 09:04 ?769次閱讀
    <b class='flag-5'>自動駕駛</b>中常提的ODD是<b class='flag-5'>個</b>啥?

    端到端自動駕駛相較傳統(tǒng)自動駕駛到底有何提升?

    [首發(fā)于智駕最前沿微信公眾號]自動駕駛技術(shù)自誕生以來,便承載了人類對安全、高效、智能出行的美好憧憬。傳統(tǒng)自動駕駛系統(tǒng)以層次化、模塊化的架構(gòu)為主,將感知、定位、規(guī)劃與決策、控制四大核心功能分別拆解,由
    的頭像 發(fā)表于 09-02 09:09 ?684次閱讀
    端到端<b class='flag-5'>自動駕駛</b>相較<b class='flag-5'>傳統(tǒng)</b><b class='flag-5'>自動駕駛</b>到底有何提升?

    自動駕駛中Transformer大模型會取代深度學(xué)習(xí)嗎?

    持續(xù)討論。特別是在自動駕駛領(lǐng)域,部分廠商開始嘗試將多模態(tài)大模型(MLLM)引入到感知、規(guī)劃與決策系統(tǒng),引發(fā)了“傳統(tǒng)深度學(xué)習(xí)是否已過時”的激烈爭論。然而,從技術(shù)原理、算力成本、安全需求與
    的頭像 發(fā)表于 08-13 09:15 ?4034次閱讀
    <b class='flag-5'>自動駕駛</b>中Transformer大模型會取代<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>嗎?

    自動駕駛汽車是如何準(zhǔn)確定位的?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術(shù)的快速發(fā)展,車輛的精準(zhǔn)定位成為安全駕駛與路徑規(guī)劃的核心基礎(chǔ)。相比于傳統(tǒng)人類駕駛依賴路標(biāo)和視覺判斷,自動
    的頭像 發(fā)表于 06-28 11:42 ?1111次閱讀
    <b class='flag-5'>自動駕駛</b>汽車是如何準(zhǔn)確定位的?

    自動駕駛+大旅游跨界合作 小馬智行×嶺南控股簽署戰(zhàn)略合作框架協(xié)議

    6月27日,小馬智行與廣州嶺南集團(tuán)控股股份有限公司(下稱“嶺南控股”)簽署戰(zhàn)略合作框架協(xié)議,雙方將立足于各自優(yōu)勢,共同打造“自動駕駛+大旅游”的多元應(yīng)用場景,涵蓋自動駕駛文旅專線、IP聯(lián)名產(chǎn)品、科普
    的頭像 發(fā)表于 06-27 18:52 ?1282次閱讀

    新能源車軟件單元測試深度解析:自動駕駛系統(tǒng)視角

    )和AI模塊(如激光雷達(dá)目標(biāo)檢測)。例如,在測試自動駕駛路徑規(guī)劃模塊時,可同步注入CAN總線信號(車速、轉(zhuǎn)向角)和虛擬點云數(shù)據(jù)(模擬障礙物),實現(xiàn)多維度耦合驗證。 ? 智能覆蓋率引導(dǎo): ? 通過強(qiáng)化學(xué)習(xí)
    發(fā)表于 05-12 15:59

    AI將如何改變自動駕駛?

    自動駕駛帶來哪些變化?其實AI可以改變自動駕駛技術(shù)的各個環(huán)節(jié),從感知能力的提升到?jīng)Q策框架的優(yōu)化,從安全性能的增強(qiáng)到測試驗證的加速,AI可以讓自動駕駛從實驗室走向大規(guī)模商業(yè)化。 對于感知
    的頭像 發(fā)表于 05-04 09:58 ?722次閱讀

    自動駕駛大模型中常提的Token是啥?對自動駕駛有何影響?

    近年來,人工智能技術(shù)迅速發(fā)展,大規(guī)模深度學(xué)習(xí)模型(即大模型)在自然語言處理、計算機(jī)視覺、語音識別以及自動駕駛等多個領(lǐng)域取得了突破性進(jìn)展。自動駕駛作為未來智能交通的重要方向,其核心技術(shù)之
    的頭像 發(fā)表于 03-28 09:16 ?1150次閱讀

    BEVFusion —面向自動駕駛的多任務(wù)多傳感器高效融合框架技術(shù)詳解

    和高效融合機(jī)制,解決了多模態(tài)傳感器在幾何與語義任務(wù)中的權(quán)衡問題,成為自動駕駛多任務(wù)感知的標(biāo)桿框架其設(shè)計范式為后續(xù)研究提供了重要啟發(fā) ?**“統(tǒng)表示+輕量優(yōu)化”是多模態(tài)
    的頭像 發(fā)表于 02-26 20:33 ?6265次閱讀
    BEVFusion —面向<b class='flag-5'>自動駕駛</b>的多任務(wù)多傳感器高效<b class='flag-5'>融合</b><b class='flag-5'>框架</b>技術(shù)詳解