chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深入探討增強(qiáng)學(xué)習(xí)如何在無(wú)人駕駛中發(fā)揮作用

ml8z_IV_Technol ? 來(lái)源:未知 ? 作者:胡薇 ? 2018-07-31 09:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文著重介紹增強(qiáng)學(xué)習(xí)在無(wú)人駕駛中的應(yīng)用。增強(qiáng)學(xué)習(xí)的目的是通過(guò)和環(huán)境交互,學(xué)習(xí)如何在相應(yīng)觀測(cè)中采取最優(yōu)行為。相比傳統(tǒng)的機(jī)器學(xué)習(xí),它有以下優(yōu)勢(shì):首先,由于不需要標(biāo)注的過(guò)程,可以更有效地解決環(huán)境中存在的特殊情況。其次,可以把整個(gè)系統(tǒng)作為一個(gè)整體,從而對(duì)其中的一些模塊更加魯棒。最后,增強(qiáng)學(xué)習(xí)可以比較容易地學(xué)習(xí)到一系列行為。這些特性十分適用于自動(dòng)駕駛決策過(guò)程,我們?cè)诒疚纳钊胩接懺鰪?qiáng)學(xué)習(xí)如何在無(wú)人駕駛決策過(guò)程中發(fā)揮作用。

增強(qiáng)學(xué)習(xí)簡(jiǎn)介

增強(qiáng)學(xué)習(xí)是最近幾年中機(jī)器學(xué)習(xí)領(lǐng)域的最新進(jìn)展。增強(qiáng)學(xué)習(xí)的目的是通過(guò)和環(huán)境交互學(xué)習(xí)到如何在相應(yīng)的觀測(cè)中采取最優(yōu)行為。行為的好壞可以通過(guò)環(huán)境給的獎(jiǎng)勵(lì)來(lái)確定。不同的環(huán)境有不同的觀測(cè)和獎(jiǎng)勵(lì)。例如,駕駛中環(huán)境觀測(cè)是攝像頭和激光雷達(dá)采集到的周圍環(huán)境的圖像和點(diǎn)云,以及其他的傳感器的輸出,例如行駛速度、GPS定位、行駛方向。駕駛中的環(huán)境的獎(jiǎng)勵(lì)根據(jù)任務(wù)的不同,可以通過(guò)到達(dá)終點(diǎn)的速度、舒適度和安全性等指標(biāo)確定。

增強(qiáng)學(xué)習(xí)和傳統(tǒng)機(jī)器學(xué)習(xí)的最大區(qū)別是增強(qiáng)學(xué)習(xí)是一個(gè)閉環(huán)學(xué)習(xí)的系統(tǒng),增強(qiáng)學(xué)習(xí)算法選取的行為會(huì)直接影響到環(huán)境,進(jìn)而影響到該算法之后從環(huán)境中得到的觀測(cè)。傳統(tǒng)的機(jī)器學(xué)習(xí)通過(guò)把收集訓(xùn)練數(shù)據(jù)和模型學(xué)習(xí)作為兩個(gè)獨(dú)立的過(guò)程。例如,如果我們需要學(xué)習(xí)一個(gè)人臉?lè)诸惖哪P?。傳統(tǒng)機(jī)器學(xué)習(xí)方法首先需要雇傭標(biāo)注者標(biāo)注一批人臉圖像數(shù)據(jù),然后在這些數(shù)據(jù)中學(xué)習(xí)模型,最后我們可以把訓(xùn)練出來(lái)的人臉識(shí)別模型在現(xiàn)實(shí)的應(yīng)用中進(jìn)行測(cè)試。 如果發(fā)現(xiàn)測(cè)試結(jié)果不理想,那么我們需要分析模型中存在問(wèn)題,并且試著從數(shù)據(jù)收集或者模型訓(xùn)練中尋找原因,然后從這些步驟中解決這些問(wèn)題。對(duì)于同樣的問(wèn)題,增強(qiáng)學(xué)習(xí)采用的方法是通過(guò)在人臉識(shí)別的系統(tǒng)中嘗試進(jìn)行預(yù)測(cè),并且通過(guò)用戶反饋的滿意程度來(lái)調(diào)整自己的預(yù)測(cè),從而統(tǒng)一收集訓(xùn)練數(shù)據(jù)和模型學(xué)習(xí)的過(guò)程。增強(qiáng)學(xué)習(xí)和環(huán)境交互過(guò)程的框圖如圖1所示。

圖1 增強(qiáng)學(xué)習(xí)和環(huán)境交互的框圖

增強(qiáng)學(xué)習(xí)存在著很多傳統(tǒng)機(jī)器學(xué)習(xí)所不具備的挑戰(zhàn)。首先,因?yàn)樵谠鰪?qiáng)學(xué)習(xí)中沒(méi)有確定在每一時(shí)刻應(yīng)該采取哪個(gè)行為的信息,增強(qiáng)學(xué)習(xí)算法必須通過(guò)探索各種可能的行為才能判斷出最優(yōu)的行為。如何有效地在可能行為數(shù)量較多的情況下有效探索,是增強(qiáng)學(xué)習(xí)中最重要的問(wèn)題之一。其次,在增強(qiáng)學(xué)習(xí)中一個(gè)行為不僅可能會(huì)影響當(dāng)前時(shí)刻的獎(jiǎng)勵(lì),而且還可能會(huì)影響之后所有時(shí)刻的獎(jiǎng)勵(lì)。在最壞的情況下,一個(gè)好行為不會(huì)在當(dāng)前時(shí)刻獲得獎(jiǎng)勵(lì),而會(huì)在很多步都執(zhí)行正確后才能得到獎(jiǎng)勵(lì)。在這種情況下,增強(qiáng)學(xué)習(xí)需要判斷出獎(jiǎng)勵(lì)和很多步之前的行為有關(guān)非常有難度。

雖然增強(qiáng)學(xué)習(xí)存在很多挑戰(zhàn),它也能夠解決很多傳統(tǒng)的機(jī)器學(xué)習(xí)不能解決的問(wèn)題。首先,由于不需要標(biāo)注的過(guò)程, 增強(qiáng)學(xué)習(xí)可以更有效地解決環(huán)境中所存在著的特殊情況。比如,無(wú)人車環(huán)境中可能會(huì)出現(xiàn)行人和動(dòng)物亂穿馬路的特殊情況。只要我們的模擬器能夠模擬出這些特殊情況,增強(qiáng)學(xué)習(xí)就可以學(xué)習(xí)到怎么在這些特殊情況中做出正確的行為。其次,增強(qiáng)學(xué)習(xí)可以把整個(gè)系統(tǒng)作為一個(gè)整體的系統(tǒng),從而對(duì)其中的一些模塊更加魯棒。例如,自動(dòng)駕駛中的感知模塊不可能做到完全可靠。前一段時(shí)間,Tesla無(wú)人駕駛的事故就是因?yàn)樵趶?qiáng)光環(huán)境中感知模塊失效導(dǎo)致的。增強(qiáng)學(xué)習(xí)可以做到,即使在某些模塊失效的情況下也能做出穩(wěn)妥的行為。最后,增強(qiáng)學(xué)習(xí)可以比較容易學(xué)習(xí)到一系列行為。自動(dòng)駕駛中需要執(zhí)行一系列正確的行為才能成功的駕駛。如果只有標(biāo)注數(shù)據(jù),學(xué)習(xí)到的模型如果每個(gè)時(shí)刻偏移了一點(diǎn),到最后可能就會(huì)偏移非常多,產(chǎn)生毀滅性的后果。而增強(qiáng)學(xué)習(xí)能夠?qū)W會(huì)自動(dòng)修正偏移。

綜上所述,增強(qiáng)學(xué)習(xí)在自動(dòng)駕駛中有廣闊的前景。本文會(huì)介紹增強(qiáng)學(xué)習(xí)的常用算法以及其在自動(dòng)駕駛中的應(yīng)用。希望能夠激發(fā)這個(gè)領(lǐng)域的探索性工作。

增強(qiáng)學(xué)習(xí)算法

增強(qiáng)學(xué)習(xí)中的每個(gè)時(shí)刻t∈{0,1,2,…}中,我們的算法和環(huán)境通過(guò)執(zhí)行行為at進(jìn)行交互,可以得到觀測(cè)st和獎(jiǎng)勵(lì)rt。一般情況中,我們假設(shè)環(huán)境是存在馬爾科夫性質(zhì)的,即環(huán)境的變化完全可以通過(guò)狀態(tài)轉(zhuǎn)移概率Pass′=Pr{st+1=s′|st=s,at=a}刻畫(huà)出來(lái)。也就是說(shuō),環(huán)境的下一時(shí)刻觀測(cè)只和當(dāng)前時(shí)刻的觀測(cè)和行為有關(guān),和之前所有時(shí)刻的觀測(cè)和行為都沒(méi)有關(guān)系。而環(huán)境在t+1時(shí)刻返回的獎(jiǎng)勵(lì)在當(dāng)前狀態(tài)和行為確定下的期望可以表示為:Ras=E{rt+1|st=s,at=a}. 增強(qiáng)學(xué)習(xí)算法在每一個(gè)時(shí)刻執(zhí)行行為的策略可以通過(guò)概率π(s,a,θ)=Pr{at=a|st=s;θ}來(lái)表示。其中θ是需要學(xué)習(xí)的策略參數(shù)。我們需要學(xué)習(xí)到最優(yōu)的增強(qiáng)學(xué)習(xí)策略,也就是學(xué)習(xí)到能夠取得最高獎(jiǎng)勵(lì)的策略。

ρ(π)=E{∑t=1∞γt?1rt|s0,π (1)

其中γ是增強(qiáng)學(xué)習(xí)中的折扣系數(shù),用來(lái)表示在之后時(shí)刻得到的獎(jiǎng)勵(lì)折扣。同樣的獎(jiǎng)勵(lì),獲得的時(shí)刻越早,增強(qiáng)學(xué)習(xí)系統(tǒng)所感受到的獎(jiǎng)勵(lì)越高。

同時(shí),我們可以按照如下方式定義Q函數(shù)。Q函數(shù)Qpi(s,a)表示的是在狀態(tài)為s,執(zhí)行行為a之后的時(shí)刻都使用策略π選擇行為能夠得到的獎(jiǎng)勵(lì)。我們能夠?qū)W習(xí)到準(zhǔn)確的Q函數(shù),那么使Q函數(shù)最高的行為就是最優(yōu)行為。

Qπ(s,a)=E{∑k=1∞γk?1rr+k|st=s,at=a,π}=Es′[r+γQpi(s′,a′)|s,a,π] (2)

增強(qiáng)學(xué)習(xí)的目的,就是在給定的任意環(huán)境,通過(guò)對(duì)環(huán)境進(jìn)行探索學(xué)習(xí)到最佳的策略函數(shù)π最大化rho(π)。下面的章節(jié)中我們會(huì)簡(jiǎn)單介紹常用的增強(qiáng)學(xué)習(xí)算法。包括REINFORCE算法和Deep Q-learning算法。

REINFORCE算法

REINFORCE是最簡(jiǎn)單的reinforcement learning算法。其基本思想是通過(guò)在環(huán)境里面執(zhí)行當(dāng)前的策略直到一個(gè)回合結(jié)束(比如游戲結(jié)束),根據(jù)得到的獎(jiǎng)勵(lì)可以計(jì)算出當(dāng)前策略的梯度。我們可以用這個(gè)梯度更新當(dāng)前的策略得到新策略。在下面的回合,我們?cè)儆眯碌牟呗灾貜?fù)這個(gè)過(guò)程,一直到計(jì)算出的梯度足夠小為止。最后得到的策略就是最優(yōu)策略。

假設(shè)我們當(dāng)前的策略概率是πθ(x)=Pr{at=a|st=s;θ} (θ是策略參數(shù))。每個(gè)回合,算法實(shí)際執(zhí)行的行為at是按照概率π(x)采樣所得到的。算法在當(dāng)前回合時(shí)刻t獲得的獎(jiǎng)勵(lì)用rt表示。那么,策略梯度可以通過(guò)以下的公式計(jì)算。

?θρ(π)=∑t=1T▽?duì)萳ogπ(at|st;θ)Rt (3)

其中π(at|st;θ)是策略在觀測(cè)到st時(shí)選擇at的概率。Rt=∑Tt′=tγt′-trt′是算法在采取了當(dāng)前策略之后所獲得的總的折扣后的獎(jiǎng)勵(lì)。為了減少預(yù)測(cè)出梯度的方差。我們一般會(huì)使用(Rt-bt)來(lái)代替Rt。bt一般等于Eπ[Rt],也就是當(dāng)前t時(shí)刻的環(huán)境下使用策略π之后能獲得的折扣后獎(jiǎng)勵(lì)的期望。

計(jì)算出方差之后,我們可以使用θ=θ+▽?duì)圈?π)更新參數(shù)得到新的策略。

REINFORCE的核心思想是通過(guò)從環(huán)境中獲得的獎(jiǎng)勵(lì)判斷執(zhí)行行為的好壞。如果一個(gè)行為執(zhí)行之后獲得的獎(jiǎng)勵(lì)比較高,那么算出的梯度也會(huì)比較高,這樣在更新后的策略中該行為被采樣到的概率也會(huì)比較高。反之,對(duì)于執(zhí)行之后獲得獎(jiǎng)勵(lì)比較低的行為,因?yàn)橛?jì)算出的梯度低,更新后的策略中該行為被采樣到的概率也會(huì)比較低。通過(guò)在這個(gè)環(huán)境中反復(fù)執(zhí)行各種行為,REIFORCE可以大致準(zhǔn)確地估計(jì)出各個(gè)行為的正確梯度,從而對(duì)策略中各個(gè)行為的采樣概率做出相應(yīng)調(diào)整。

作為最簡(jiǎn)單的采樣算法,REINFORCE得到了廣泛應(yīng)用,例如學(xué)習(xí)視覺(jué)的注意力機(jī)制和學(xué)習(xí)序列模型的預(yù)測(cè)策略都用到了REINFORCE算法。事實(shí)證明,在模型相對(duì)簡(jiǎn)單,環(huán)境隨機(jī)性不強(qiáng)的環(huán)境下,REINFORCE算法可以達(dá)到很好的效果。

但是,REINFORCE算法也存在著它的問(wèn)題。首先,REINFORCE算法中,執(zhí)行了一個(gè)行為之后的所有獎(jiǎng)勵(lì)都被認(rèn)為是因?yàn)檫@個(gè)行為產(chǎn)生的,這顯然不合理。雖然在執(zhí)行了策略足夠多的次數(shù)然后對(duì)計(jì)算出的梯度進(jìn)行平均之后,REINFORCE以很大概率計(jì)算出正確的梯度。但是在實(shí)際實(shí)現(xiàn)中,處于效率考慮,同一個(gè)策略在更新之前不可能在環(huán)境中執(zhí)行太多次。在這種情況下,REINFORCE計(jì)算出的梯度有可能會(huì)有比較大的誤差。其次,REINFROCE算法有可能會(huì)收斂到一個(gè)局部最優(yōu)點(diǎn)。如果我們已經(jīng)學(xué)到了一個(gè)策略,這個(gè)策略中大部分的行為都以近似1的概率采樣到。那么,即使這個(gè)策略不是最優(yōu)的,REINFORCE算法也很難學(xué)習(xí)到如何改進(jìn)這個(gè)策略。因?yàn)槲覀兺耆珱](méi)有執(zhí)行其他采樣概率為0的行為,無(wú)法知道這些行為的好壞。最后,REINFORCE算法之后在環(huán)境存在回合的概念的時(shí)候才能夠使用。如果不存在環(huán)境的概念,REINFORCE算法也無(wú)法使用。

最近,DeepMind提出了使用Deep Q-learning算法學(xué)習(xí)策略,克服了REINFORCE算法的缺點(diǎn),在Atari游戲?qū)W習(xí)這樣的復(fù)雜的任務(wù)中取得了令人驚喜的效果。

Deep Q-learning

Deep Q-learning是一種基于Q函數(shù)的增強(qiáng)學(xué)習(xí)算法。該算法對(duì)于復(fù)雜的每步行為之間存在較強(qiáng)的相關(guān)性環(huán)境有很好的效果。Deep Q-learning學(xué)習(xí)算法的基礎(chǔ)是Bellman公式。我們?cè)谇懊娴恼鹿?jié)已經(jīng)介紹了Q函數(shù)的定義,如下所示。

Qpi(s,a)=E{∑k=1∞γk-1rr+k|st=s,at=a,π}=Es’[r+γQpi(s’,a’)|s,a,π] (4)

如果我們學(xué)習(xí)到了最優(yōu)行為對(duì)應(yīng)的Q函數(shù)Q*(s,a),那么這個(gè)函數(shù)應(yīng)該滿足下面的Bellman公式。

Q*(s,a)=Es’[r+γmaxa’Q*(s,a)|s,a] (5)

另外,如果學(xué)習(xí)到了最優(yōu)行為對(duì)應(yīng)的Q函數(shù)Q*(s,a),那么我們?cè)诿恳粫r(shí)刻得到了觀察st之后,選擇使得Q*(s,a)最高的行為做為執(zhí)行的行為at。

我們可以用一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)計(jì)算Q函數(shù),用Q(s,a;w)來(lái)表示。其中w是神經(jīng)網(wǎng)絡(luò)的參數(shù)。我們希望學(xué)習(xí)出來(lái)的Q函數(shù)滿足Bellman公式。因此可以定義下面的損失函數(shù)。這個(gè)函數(shù)的Bellman公式的L2誤差如下。

L(w)=E[(r+γmaxa’Q*(s’,a’;w)-Q(s,a;w))2](6)

其中r是在s的觀測(cè)執(zhí)行行為a后得到的獎(jiǎng)勵(lì),s′是執(zhí)行行為a之后下一個(gè)時(shí)刻的觀測(cè)。這個(gè)公式的前半部分r+γmaxa′Q*(s′,a′,w)也被稱為目標(biāo)函數(shù)。我們希望預(yù)測(cè)出的Q函數(shù)能夠和通過(guò)這個(gè)時(shí)刻得到的獎(jiǎng)勵(lì)及下個(gè)時(shí)刻狀態(tài)得到的目標(biāo)函數(shù)盡可能接近。通過(guò)這個(gè)損失函數(shù),我們可以計(jì)算出如下梯度。

?L(w)?w=E[(r+γmaxa’Q*(s’,a’;w)-Q(s,a;w))?Q(s,a;w?w) (7)

可以通過(guò)計(jì)算出的梯度,使用梯度下降算法更新參數(shù)w。

使用深度神經(jīng)網(wǎng)絡(luò)來(lái)逼近Q函數(shù)存在很多問(wèn)題。首先,在一個(gè)回合內(nèi)采集到的各個(gè)時(shí)刻的數(shù)據(jù)是存在著相關(guān)性的。因此,如果我們使用了一個(gè)回合內(nèi)的全部數(shù)據(jù),那么我們計(jì)算出的梯度是有偏的。其次,由于取出使Q函數(shù)最大的行為這個(gè)操作是離散的,即使Q函數(shù)變化很小,我們所得到的行為也可能差別很大。這個(gè)問(wèn)題會(huì)導(dǎo)致訓(xùn)練時(shí)策略出現(xiàn)震蕩。最后,Q函數(shù)的動(dòng)態(tài)范圍有可能會(huì)很大,并且我們很難預(yù)先知道Q函數(shù)的動(dòng)態(tài)范圍。因?yàn)?,我們?duì)一個(gè)環(huán)境沒(méi)有足夠的了解的時(shí)候,很難計(jì)算出這個(gè)環(huán)境中可能得到的最大獎(jiǎng)勵(lì)。這個(gè)問(wèn)題會(huì)使Q-learning工程梯度可能會(huì)很大,導(dǎo)致訓(xùn)練不穩(wěn)定。

首先,Deep Q-learning算法使用了經(jīng)驗(yàn)回放算法。其基本思想是記住算法在這個(gè)環(huán)境中執(zhí)行的歷史信息。這個(gè)過(guò)程和人類的學(xué)習(xí)過(guò)程類似。人類在學(xué)習(xí)執(zhí)行行為的策略時(shí),不會(huì)只通過(guò)當(dāng)前執(zhí)行的策略結(jié)果進(jìn)行學(xué)習(xí),而還會(huì)利用之前的歷史執(zhí)行策略經(jīng)驗(yàn)進(jìn)行學(xué)習(xí)。因此,經(jīng)驗(yàn)回放算法將之前算法在一個(gè)環(huán)境中的所有經(jīng)驗(yàn)都存放起來(lái)。在學(xué)習(xí)的時(shí)候,可以從經(jīng)驗(yàn)中采樣出一定數(shù)量的跳轉(zhuǎn)信息(st,at,rt+1,st+1),也就是當(dāng)處于環(huán)境,然后利用這些信息計(jì)算出梯度學(xué)習(xí)模型。因?yàn)椴煌奶D(zhuǎn)信息是從不同回合中采樣出來(lái)的,所以它們之間不存在強(qiáng)相關(guān)性。這個(gè)采樣過(guò)程還可以解決同一個(gè)回合中的各個(gè)時(shí)刻的數(shù)據(jù)相關(guān)性問(wèn)題。

而且,Deep Q-learning算法使用了目標(biāo)Q網(wǎng)絡(luò)來(lái)解決學(xué)習(xí)過(guò)程中的震蕩問(wèn)題。我們可以定義一個(gè)目標(biāo)Q網(wǎng)絡(luò)Q(s,a;w-)。這個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)和用來(lái)執(zhí)行的Q網(wǎng)絡(luò)結(jié)構(gòu)完全相同,唯一不同就是使用的參數(shù)w-。我們的目標(biāo)函數(shù)可以通過(guò)目標(biāo)Q網(wǎng)絡(luò)計(jì)算。

r+γmaxa’Q*(s’,a’;w-) (8)

目標(biāo)Q網(wǎng)絡(luò)參數(shù)在很長(zhǎng)時(shí)間內(nèi)保持不變,每當(dāng)在Q網(wǎng)絡(luò)學(xué)習(xí)了一定時(shí)間之后,可以Q網(wǎng)絡(luò)的參數(shù)w替換目標(biāo)Q網(wǎng)絡(luò)的參數(shù)w-。這樣目標(biāo)函數(shù)在很長(zhǎng)的時(shí)間里保持穩(wěn)定??梢越鉀Q學(xué)習(xí)過(guò)程中的震蕩問(wèn)題。

最后,為了防止Q函數(shù)的值太大導(dǎo)致梯度不穩(wěn)定。Deep Q-learning的算法對(duì)獎(jiǎng)勵(lì)設(shè)置了最大和最小值(一般設(shè)置為[-1, +1])。我們會(huì)把所有獎(jiǎng)勵(lì)縮放到這個(gè)范圍。這樣算法計(jì)算出的梯度更加穩(wěn)定。

Q-learning算法的框圖如圖2所示。

圖2 Q-learning算法框圖

因?yàn)槭褂昧松疃壬窠?jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)Q函數(shù),Deep Q-learning算可以直接以圖像作為輸入學(xué)習(xí)復(fù)雜的策略。其中一個(gè)例子是學(xué)習(xí)Atari游戲。這是計(jì)算機(jī)游戲的早期形式,一般圖像比較粗糙,但要玩好需要對(duì)圖像進(jìn)行理解,并且執(zhí)行復(fù)雜的策略,例如躲避,發(fā)射子彈,走迷宮等。一些Atari游戲的例子如圖3所示,其中包含了一個(gè)簡(jiǎn)單的賽車游戲。

Deep Q-learning算法在沒(méi)有任何額外知識(shí)的情況下,完全以圖像和獲得的獎(jiǎng)勵(lì)進(jìn)行輸入。在大部分Atari游戲中都大大超過(guò)了人類性能。這是深度學(xué)習(xí)或者增強(qiáng)學(xué)習(xí)出現(xiàn)前完全不可能完成的任務(wù)。Atari游戲是第一個(gè)Deep Q-learning解決了用其他算法都無(wú)法解決的問(wèn)題,充分顯示了將深度學(xué)習(xí)和增強(qiáng)學(xué)習(xí)結(jié)合的優(yōu)越性和前景。

使用增強(qiáng)學(xué)習(xí)幫助決策

現(xiàn)有的深度增強(qiáng)學(xué)習(xí)解決的問(wèn)題中,我們執(zhí)行的行為一般只對(duì)環(huán)境有短期影響。例如,在Atari賽車游戲中,我們只需要控制賽車的方向和速度讓賽車沿著跑道行駛,并且躲避其他賽車就可以獲得最優(yōu)的策略。但是對(duì)于更復(fù)雜決策的情景,我們無(wú)法只通過(guò)短期獎(jiǎng)勵(lì)得到最優(yōu)策略。一個(gè)典型的例子是走迷宮。在走迷宮這個(gè)任務(wù)中,判斷一個(gè)行為是否是最優(yōu)無(wú)法從短期的獎(jiǎng)勵(lì)來(lái)得到。只有當(dāng)走到終點(diǎn)時(shí),才能得到獎(jiǎng)勵(lì)。在這種情況下,直接學(xué)習(xí)出正確的Q函數(shù)非常困難。我們只有把基于搜索的和基于增強(qiáng)學(xué)習(xí)的算法結(jié)合,才能有效解決這類問(wèn)題。

基于搜索算法一般是通過(guò)搜索樹(shù)來(lái)實(shí)現(xiàn)的。搜索樹(shù)既可以解決一個(gè)玩家在環(huán)境中探索的問(wèn)題(例如走迷宮),也可以解決多個(gè)玩家競(jìng)爭(zhēng)的問(wèn)題(例如圍棋)。我們以圍棋為例,講解搜索樹(shù)的基本概念。圍棋游戲有兩個(gè)玩家,分別由白子和黑子代表。圍棋棋盤(pán)中線的交叉點(diǎn)是可以下子的地方。兩個(gè)玩家分別在棋盤(pán)下白子和黑子。一旦一片白子或黑子被相反顏色的子包圍,那么這片子就會(huì)被提掉,重新成為空白的區(qū)域。游戲的最后,所有的空白區(qū)域都被占領(lǐng)或是包圍。占領(lǐng)和包圍區(qū)域比較大的一方獲勝。

在圍棋這個(gè)游戲中,我們從環(huán)境中得到的觀測(cè)st是棋盤(pán)的狀態(tài),也就是白子和黑子的分布。我們執(zhí)行的行為是所下白子或者黑子的位置。而我們最后得到的獎(jiǎng)勵(lì)可以根據(jù)游戲是否取勝得到。取勝的一方+1,失敗的一方-1。游戲進(jìn)程可以通過(guò)如下搜索樹(shù)來(lái)表示:搜索樹(shù)中的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)著一種棋盤(pán)狀態(tài),每一條邊對(duì)應(yīng)著一個(gè)可能的行為。在如圖4所示的搜索樹(shù)中,黑棋先行,樹(shù)的根節(jié)點(diǎn)對(duì)應(yīng)著棋盤(pán)的初始狀態(tài)s0。a1和a2對(duì)應(yīng)著黑棋兩種可能的下子位置(實(shí)際的圍棋中,可能的行為遠(yuǎn)比兩種多)。每個(gè)行為ai對(duì)應(yīng)著一個(gè)新的棋盤(pán)的狀態(tài)si1。接下來(lái)該白棋走,白棋同樣有兩種走法b1和b2,對(duì)于每個(gè)棋盤(pán)的狀態(tài)si1,兩種不同的走法又會(huì)生成兩種不同狀態(tài)。如此往復(fù),一直到游戲結(jié)束,我們就可以在葉子節(jié)點(diǎn)中獲得游戲結(jié)束時(shí)黑棋獲得的獎(jiǎng)勵(lì)。我們可以通過(guò)這些獎(jiǎng)勵(lì)獲得最佳的狀態(tài)。

圖4 搜索樹(shù)的例子

通過(guò)這個(gè)搜索樹(shù),如果給定黑棋和白棋的策略π=[π1,π2],我們可以定義黑棋的值函數(shù)為黑棋在雙方分別執(zhí)行策略π1和π2時(shí),最后黑棋能獲得獎(jiǎng)勵(lì)的期望。

vπ(s)=Eπ[Gt|St=s] (9)

黑棋需要尋找的最優(yōu)策略需要最優(yōu)化最壞的情況下,黑棋所能得到的獎(jiǎng)勵(lì)。我們定義這個(gè)值函數(shù)為最小最大值函數(shù)。黑棋的最優(yōu)策略就是能夠達(dá)到這個(gè)值函數(shù)的策略π1。

v*(s)=maxπ1minπ2vπ(s) (10)

如果我們能夠窮舉搜索樹(shù)的每個(gè)節(jié)點(diǎn),那么我們可以很容易地用遞歸方式計(jì)算出最小最大值函數(shù)和黑棋的最優(yōu)策略。但在實(shí)際的圍棋中,每一步黑棋和白棋可以采用的行為個(gè)數(shù)非常多,而搜索樹(shù)的節(jié)點(diǎn)數(shù)目隨著樹(shù)的深度指數(shù)增長(zhǎng)。因此,我們無(wú)法枚舉所有節(jié)點(diǎn)計(jì)算出準(zhǔn)確的最小最大值函數(shù),而只能通過(guò)學(xué)習(xí)v(s;w)~v*(s)作為近似最小最大值函數(shù)。我們可以通過(guò)兩種方法使用這個(gè)近似函數(shù)。首先,我們可以使用這個(gè)近似函數(shù)確定搜索的優(yōu)先級(jí)。對(duì)于一個(gè)節(jié)點(diǎn),白棋或者黑棋可能有多種走法,我們應(yīng)該優(yōu)先搜索產(chǎn)生最小最大值函數(shù)比較高節(jié)點(diǎn)的行為,因?yàn)樵趯?shí)際游戲中,真實(shí)玩家一般會(huì)選擇這些相對(duì)比較好的行為。其次,我們可以使用這個(gè)近似函數(shù)來(lái)估計(jì)非葉子節(jié)點(diǎn)的最小最大值。如果這些節(jié)點(diǎn)的最小最大值非常低,那么這些節(jié)點(diǎn)幾乎不可能對(duì)應(yīng)著最優(yōu)策略。我們?cè)偎阉鞯臅r(shí)候也不用考慮這些節(jié)點(diǎn)。

因此主要問(wèn)題是如何學(xué)習(xí)到近似最小最大值函數(shù)v(s;w)。我們可以使用兩個(gè)學(xué)習(xí)到的圍棋算法自己和自己玩圍棋游戲。然后通過(guò)增強(qiáng)學(xué)習(xí)算法更新近似最小最大值函數(shù)的參數(shù)w。在玩完了一局游戲之后,我們可以使用類似REINFORCE算法的更新方式:

▽w=α(Gt-v(st;w))▽wv(st;w) (11)

在這個(gè)式子中Gt表示的是在t時(shí)刻之后獲得的獎(jiǎng)勵(lì)。因?yàn)樵趪暹@個(gè)游戲中,我們只在最后時(shí)刻獲得獎(jiǎng)勵(lì)。所以Gt對(duì)應(yīng)的是最后獲得的獎(jiǎng)勵(lì)。我們也可以使用類似Q-learning的方式用TD誤差來(lái)更新參數(shù)。

▽w=α(v(st+1;w)-v(st;w))▽wv(st;w)(12)

因?yàn)閲暹@個(gè)游戲中,我們只在最后時(shí)刻獲得獎(jiǎng)勵(lì)。一般使用REINFORCE算法的更新方式效果比較好。在學(xué)習(xí)出一個(gè)好的近似最小最大值函數(shù)之后,可以大大加快搜索效率。這和人學(xué)習(xí)圍棋的過(guò)程類似,人在學(xué)習(xí)圍棋的過(guò)程中,會(huì)對(duì)特定的棋行形成感覺(jué),能一眼就判斷出棋行的好壞,而不用對(duì)棋的發(fā)展進(jìn)行推理。這就是通過(guò)學(xué)習(xí)近似最小最大值函數(shù)加速搜索的過(guò)程。

通過(guò)學(xué)習(xí)近似最小最大值函數(shù),Google DeepMind在圍棋領(lǐng)域取得了突飛猛進(jìn)。在今年三月進(jìn)行的比賽中,AlphaGo以四比一戰(zhàn)勝了圍棋世界冠軍李世石。AlphaGo的核心算法就是通過(guò)歷史棋局和自己對(duì)弈學(xué)習(xí)近似最小最大值函數(shù)。AlphaGo的成功充分的顯示了增強(qiáng)學(xué)習(xí)和搜索結(jié)合在需要長(zhǎng)期規(guī)劃問(wèn)題上的潛力。不過(guò),需要注意的是,現(xiàn)有將增強(qiáng)學(xué)習(xí)和搜索結(jié)合的算法只能用于確定性的環(huán)境中。確定性的環(huán)境中給定一個(gè)觀測(cè)和一個(gè)行為,下一個(gè)觀測(cè)是確定的,并且這個(gè)轉(zhuǎn)移函數(shù)是已知的。在環(huán)境非確定,并且轉(zhuǎn)移函數(shù)未知的情況下,如何把增強(qiáng)學(xué)習(xí)和搜索結(jié)合還是增強(qiáng)學(xué)習(xí)領(lǐng)域中沒(méi)有解決的問(wèn)題。

自動(dòng)駕駛的決策介紹

自動(dòng)駕駛的人工智能包含了感知、決策和控制三個(gè)方面。感知指的是如何通過(guò)攝像頭和其他傳感器輸入解析出周圍環(huán)境的信息,例如有哪些障礙物,障礙物的速度和距離,道路的寬度和曲率等。這個(gè)部分是自動(dòng)駕駛的基礎(chǔ),是當(dāng)前自動(dòng)駕駛研究的重要方向,在前文我們已經(jīng)有講解??刂剖侵府?dāng)我們有了一個(gè)目標(biāo),例如右轉(zhuǎn)30度,如何通過(guò)調(diào)整汽車的機(jī)械參數(shù)達(dá)到這個(gè)目標(biāo)。這個(gè)部分已經(jīng)有相對(duì)比較成熟的算法能夠解決,不在本文的討論范圍之內(nèi)。本節(jié),我們著重講解自動(dòng)駕駛的決策部分。

自動(dòng)駕駛的決策是指給定感知模塊解析出的環(huán)境信息如何控制汽車的行為來(lái)達(dá)到駕駛目標(biāo)。例如,汽車加速、減速、左轉(zhuǎn)、右轉(zhuǎn)、換道、超車都是決策模塊的輸出。決策模塊不僅需要考慮到汽車的安全和舒適性,保證盡快到達(dá)目標(biāo)地點(diǎn),還需要在旁邊車輛惡意駕駛的情況下保證乘客安全。因此,決策模塊一方面需要對(duì)行車計(jì)劃進(jìn)行長(zhǎng)期規(guī)劃,另一方面還需要對(duì)周圍車輛和行人的行為進(jìn)行預(yù)測(cè)。而且,自動(dòng)駕駛中的決策模塊對(duì)安全和可靠性有著嚴(yán)格要求?,F(xiàn)有自動(dòng)駕駛的決策模塊一般根據(jù)規(guī)則構(gòu)建,雖然可以應(yīng)付大部分駕駛情況,對(duì)于駕駛中可能出現(xiàn)的各種突發(fā)情況,基于規(guī)則的決策系統(tǒng)不可能枚舉到所有突發(fā)情況。我們需要一種自適應(yīng)系統(tǒng)來(lái)應(yīng)對(duì)駕駛環(huán)境中出現(xiàn)的各種突發(fā)情況。

現(xiàn)有自動(dòng)駕駛的決策系統(tǒng)大部分基于規(guī)則,該系統(tǒng)大部分可以用有限狀態(tài)機(jī)表示。例如,自動(dòng)駕駛的高層行為可以分為向左換道、向右換道、跟隨、緊急停車。決策系統(tǒng)根據(jù)目標(biāo)可以決定執(zhí)行高層行為。根據(jù)需要執(zhí)行的高層行為,決策系統(tǒng)可以用相應(yīng)的規(guī)則生成出底層行為。基于規(guī)則決策系統(tǒng)的主要缺點(diǎn)是缺乏靈活性。對(duì)于所有的突發(fā)情況,都需要寫(xiě)一個(gè)決策。這種方式很難對(duì)所有的突發(fā)系統(tǒng)面面俱到。

自動(dòng)駕駛模擬器

自動(dòng)駕駛的決策過(guò)程中,模擬器起著非常重要的作用。決策模擬器負(fù)責(zé)對(duì)環(huán)境中常見(jiàn)的場(chǎng)景進(jìn)行模擬,例如車道情況、路面情況、障礙物分布和行為、天氣等。同時(shí)還可以將真實(shí)場(chǎng)景中采集到的數(shù)據(jù)進(jìn)行回放。決策模擬器的接口和真車的接口保持一致,這樣可以保證在真車上使用的決策算法可以直接在模擬器上運(yùn)行。除了決策模擬器之外,自動(dòng)駕駛的模擬器還包含了感知模擬器和控制模擬器,用來(lái)驗(yàn)證感知和控制模塊。

自動(dòng)駕駛模擬器的第一個(gè)重要功能是驗(yàn)證。在迭代決策算法的過(guò)程中,我們需要比較容易地衡量算法性能。比如,需要確保新決策算法在之前能夠正確運(yùn)行和常見(jiàn)的場(chǎng)景都能夠安全運(yùn)行。我們還需要根據(jù)新決策算法對(duì)常見(jiàn)場(chǎng)景的安全性、快捷性、舒適性打分。我們不可能每次在更新算法時(shí)都在實(shí)際場(chǎng)景中測(cè)試,這時(shí)有一個(gè)能可靠反映真實(shí)場(chǎng)景的無(wú)人駕駛模擬器是非常重要的。

模擬器的另一個(gè)重要的功能是進(jìn)行增強(qiáng)學(xué)習(xí)??梢阅M出各種突發(fā)情況,然后增強(qiáng)學(xué)習(xí)算法利用其在這些突發(fā)情況中獲得的獎(jiǎng)勵(lì),學(xué)習(xí)如何應(yīng)對(duì)。這樣,只要能夠模擬出足夠的突發(fā)情況,增強(qiáng)學(xué)習(xí)算法就可以學(xué)習(xí)到對(duì)應(yīng)的處理方法,而不用每種突發(fā)情況都單獨(dú)寫(xiě)規(guī)則處理。而且,模擬器也可以根據(jù)之前增強(qiáng)學(xué)習(xí)對(duì)于突發(fā)情況的處理結(jié)果,盡量產(chǎn)生出當(dāng)前的增強(qiáng)學(xué)習(xí)算法無(wú)法解決的突發(fā),從而增強(qiáng)學(xué)習(xí)效率。

綜上所述,自動(dòng)駕駛模擬器對(duì)決策模塊的驗(yàn)證和學(xué)習(xí)都有著至關(guān)重要的作用,是無(wú)人駕駛領(lǐng)域的核心技術(shù)。如何創(chuàng)建出能夠模擬出真實(shí)場(chǎng)景、覆蓋大部分突發(fā)情況、并且和真實(shí)的汽車接口兼容的模擬器,是自動(dòng)駕駛研發(fā)的難點(diǎn)之一。

增強(qiáng)學(xué)習(xí)在自動(dòng)駕駛中的應(yīng)用和展望

增強(qiáng)學(xué)習(xí)在自動(dòng)駕駛中很有前景。我們?cè)赥ORCS模擬器中使用增強(qiáng)學(xué)習(xí)進(jìn)行了探索性的工作。TORCS是一個(gè)賽車模擬器。玩家的任務(wù)是超過(guò)其他AI車,以最快速度達(dá)到終點(diǎn)。雖然TORCS中的任務(wù)和真實(shí)的自動(dòng)駕駛?cè)蝿?wù)還有很大區(qū)別。但其中算法的性能非常容易評(píng)估。TORCS模擬器如圖5所示。增強(qiáng)學(xué)習(xí)算法一般可以以前方和后方看到的圖像作為輸入,也可以環(huán)境狀態(tài)作為輸入(例如速度,離賽道邊緣的距離和跟其他車的距離)。

圖5 TORCS模擬器截圖

我們這里使用了環(huán)境狀態(tài)作為輸入。使用Deep Q-learning做為學(xué)習(xí)算法學(xué)習(xí)。環(huán)境獎(jiǎng)勵(lì)定義為在單位時(shí)刻車輛沿跑道的前進(jìn)距離。另外,如果車出了跑道或者和其他的車輛相撞,會(huì)得到額外懲罰。環(huán)境狀態(tài)包括車輛的速度、加速度、離跑道的左右邊緣的距離,以及跑道的切線夾角,在各個(gè)方向上最近的車的距離等等。車的行為包括向上換擋、向下?lián)Q擋、加速、減速、向左打方向盤(pán)、向右打方向盤(pán)等等。

與普通的Deep Q-learning相比,我們做了以下的改進(jìn)。首先,使用了多步TD算法進(jìn)行更新。多步TD算法能比單步算法每次學(xué)習(xí)時(shí)看到更多的執(zhí)行部數(shù),因此也能更快地收斂。其次,我們使用了Actor-Critic的架構(gòu)。它把算法的策略函數(shù)和值函數(shù)分別使用兩個(gè)網(wǎng)絡(luò)表示。這樣的表示有兩個(gè)優(yōu)點(diǎn):1. 策略函數(shù)可以使用監(jiān)督學(xué)習(xí)的方式進(jìn)行初始化學(xué)習(xí)。2. 在環(huán)境比較復(fù)雜的時(shí)候,學(xué)習(xí)值函數(shù)非常的困難。把策略函數(shù)和值函數(shù)分開(kāi)學(xué)習(xí)可以降低策略函數(shù)學(xué)習(xí)的難度。

使用了改進(jìn)后的Deep Q-learning算法,我們學(xué)習(xí)到的策略在TORCS中可以實(shí)現(xiàn)沿跑到行走,換道,超車等行為?;具_(dá)到了TORCS環(huán)境中的基本駕駛的需要。Google DeepMind直接使用圖像作為輸入,也獲得了很好的效果,但訓(xùn)練的過(guò)程要慢很多。

現(xiàn)有的增強(qiáng)學(xué)習(xí)算法在自動(dòng)駕駛模擬環(huán)境中獲得了很有希望的結(jié)果。但是可以看到,如果需要增強(qiáng)學(xué)習(xí)真正能夠在自動(dòng)駕駛的場(chǎng)景下應(yīng)用,還需要有很多改進(jìn)。第一個(gè)改進(jìn)方向是增強(qiáng)學(xué)習(xí)的自適應(yīng)能力?,F(xiàn)有的增強(qiáng)學(xué)習(xí)算法在環(huán)境性質(zhì)發(fā)生改變時(shí),需要試錯(cuò)很多次才能學(xué)習(xí)到正確的行為。而人在環(huán)境發(fā)生改變的情況下,只需要很少次試錯(cuò)就可以學(xué)習(xí)到正確的行為。如何只用非常少量樣本學(xué)習(xí)到正確的行為是增強(qiáng)學(xué)習(xí)能夠?qū)嵱玫闹匾獥l件。

第二個(gè)重要的改進(jìn)方向是模型的可解釋性。現(xiàn)在增強(qiáng)學(xué)習(xí)中的策略函數(shù)和值函數(shù)都是由深度神經(jīng)網(wǎng)絡(luò)表示的,其可解釋性比較差,在實(shí)際的使用中出了問(wèn)題,很難找到原因,也比較難以排查。在自動(dòng)駕駛這種人命關(guān)天的任務(wù)中,無(wú)法找到原因是完全無(wú)法接受的。

第三個(gè)重要的改進(jìn)方向是推理和想象能力。人在學(xué)習(xí)的過(guò)程中很多時(shí)候需要有一定的推理和想象能力。比如,在駕駛時(shí),不用親身嘗試,也知道危險(xiǎn)的行為會(huì)帶來(lái)毀滅性的后果。 這是因?yàn)槿祟悓?duì)這個(gè)世界有一個(gè)足夠好的模型來(lái)推理和想象做出相應(yīng)行為可能會(huì)發(fā)生的后果。這種能力不僅對(duì)于存在危險(xiǎn)行為的環(huán)境下下非常重要,在安全的環(huán)境中也可以大大加快收斂速度。

只有在這些方向做出了實(shí)質(zhì)突破,增強(qiáng)學(xué)習(xí)才能真正使用到自動(dòng)駕駛或是機(jī)器人這種重要的任務(wù)場(chǎng)景中。希望更多有志之士能投身這項(xiàng)研究,為人工智能的發(fā)展貢獻(xiàn)出自己的力量。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 無(wú)人駕駛
    +關(guān)注

    關(guān)注

    99

    文章

    4176

    瀏覽量

    123552
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    789

    文章

    14321

    瀏覽量

    170632

原文標(biāo)題:增強(qiáng)學(xué)習(xí)在無(wú)人駕駛中的應(yīng)用

文章出處:【微信號(hào):IV_Technology,微信公眾號(hào):智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    智行者科技無(wú)人駕駛小巴落地海南

    。這條串聯(lián)城市地標(biāo)的示范線路,正是智行者以"無(wú)人駕駛大腦"重塑日常公共出行的縮影——通過(guò)高效、安全、可持續(xù)的無(wú)人駕駛小巴,為智能出行注入全新動(dòng)能。
    的頭像 發(fā)表于 06-11 10:34 ?574次閱讀

    什么是低速無(wú)人駕駛,讓你一分鐘秒懂 #無(wú)人駕駛 #5g無(wú)人駕駛 #低速無(wú)人駕駛

    無(wú)人駕駛
    星創(chuàng)易聯(lián)
    發(fā)布于 :2025年06月05日 15:27:49

    易控智駕發(fā)布礦山無(wú)人駕駛應(yīng)用落地成果

    近日,“易路相伴 智約共贏”無(wú)人駕駛礦用車規(guī)模化應(yīng)用成果發(fā)布會(huì)在三亞順利召開(kāi)。作為全球領(lǐng)先的礦山無(wú)人駕駛公司,易控智駕發(fā)布了礦山無(wú)人駕駛應(yīng)用落地成果,成為行業(yè)首個(gè)突破落地1000臺(tái)無(wú)人駕駛
    的頭像 發(fā)表于 03-04 11:25 ?593次閱讀

    DeepSeek眼中的礦山無(wú)人駕駛

    “AI百曉生”——DeepSeek的爆火,引發(fā)了一場(chǎng)向AI測(cè)問(wèn)未來(lái)的熱潮。而對(duì)礦山無(wú)人駕駛這個(gè)領(lǐng)域的發(fā)展,DeepSeek會(huì)給出怎樣的答案?
    的頭像 發(fā)表于 02-27 10:24 ?506次閱讀

    為什么聊自動(dòng)駕駛的越來(lái)越多,聊無(wú)人駕駛的越來(lái)越少?

    無(wú)人駕駛”與“自動(dòng)駕駛”,傻傻分不清楚?就在之前的一篇文章中,引用了王傳福的一句話,其說(shuō)的是無(wú)人駕駛是“扯淡”( 相關(guān)閱讀: 無(wú)人駕駛是“扯淡”?是皇帝的新裝?),隨后也有小伙伴問(wèn),
    的頭像 發(fā)表于 02-23 10:52 ?561次閱讀
    為什么聊自動(dòng)<b class='flag-5'>駕駛</b>的越來(lái)越多,聊<b class='flag-5'>無(wú)人駕駛</b>的越來(lái)越少?

    深入探討試驗(yàn)機(jī)數(shù)據(jù)采集系統(tǒng)在力學(xué)試驗(yàn)室中發(fā)揮作用

    萬(wàn)能機(jī)及壓力機(jī)設(shè)備的特殊性、數(shù)據(jù)無(wú)法實(shí)時(shí)采集的現(xiàn)狀、綜合管理需求以及數(shù)據(jù)聯(lián)動(dòng)分析需求等方面,深入探討試驗(yàn)機(jī)數(shù)據(jù)采集系統(tǒng)在力學(xué)試驗(yàn)室中的作用。 一、萬(wàn)能機(jī)及壓力機(jī)設(shè)備的特殊性對(duì)數(shù)據(jù)采集系統(tǒng)的需求 萬(wàn)能試驗(yàn)機(jī)和壓
    的頭像 發(fā)表于 02-22 11:27 ?566次閱讀
    <b class='flag-5'>深入探討</b>試驗(yàn)機(jī)數(shù)據(jù)采集系統(tǒng)在力學(xué)試驗(yàn)室<b class='flag-5'>中發(fā)揮</b>的<b class='flag-5'>作用</b>

    小馬智行第六代無(wú)人駕駛Robotaxi亮相香港國(guó)際機(jī)場(chǎng)

    小馬智行進(jìn)軍又一國(guó)際大都會(huì)。近日,香港機(jī)場(chǎng)管理局宣布,載客無(wú)人車最快將在明年底前運(yùn)行。期間,香港機(jī)場(chǎng)管理局向媒體展示了多款無(wú)人駕駛車輛,這些無(wú)人駕駛車型中的大部分已經(jīng)或即將在機(jī)場(chǎng)投入使用。小馬智行第六代
    的頭像 發(fā)表于 01-03 17:07 ?880次閱讀

    測(cè)速雷達(dá)與無(wú)人駕駛技術(shù)的結(jié)合 測(cè)速雷達(dá)故障排除技巧

    測(cè)速雷達(dá)與無(wú)人駕駛技術(shù)的結(jié)合 測(cè)速雷達(dá)作為無(wú)人駕駛汽車環(huán)境感知系統(tǒng)的核心技術(shù)之一,發(fā)揮著至關(guān)重要的作用。它通過(guò)發(fā)射無(wú)線電波并接收其反射信號(hào),能夠精確測(cè)量車輛的速度,并獲取周圍環(huán)境中其他
    的頭像 發(fā)表于 12-05 17:18 ?1029次閱讀

    UWB模塊如何助力無(wú)人駕駛技術(shù)

    無(wú)人駕駛技術(shù)飛速發(fā)展的今天,精確的定位和通信能力成為了實(shí)現(xiàn)安全、高效自動(dòng)駕駛的關(guān)鍵。超寬帶(UWB)技術(shù)以其獨(dú)特的優(yōu)勢(shì),正在成為這一領(lǐng)域的新寵。 一、UWB技術(shù)簡(jiǎn)介 超寬帶技術(shù)是一種無(wú)線通信技術(shù)
    的頭像 發(fā)表于 10-31 14:05 ?908次閱讀

    特斯拉推出無(wú)人駕駛Model Y

    北京時(shí)間10月11日,特斯拉“WE,ROBOT”發(fā)布會(huì)正式舉行,在特斯拉發(fā)布會(huì)上,特斯拉推出無(wú)人駕駛Model Y。 在發(fā)布會(huì)上;埃隆·馬斯克乘坐Robotaxi亮相。馬斯克透露預(yù)計(jì)特斯拉明年將在
    的頭像 發(fā)表于 10-11 16:05 ?1613次閱讀

    百度計(jì)劃海外推出蘿卜快跑無(wú)人駕駛服務(wù)

    百度正積極拓展其無(wú)人駕駛網(wǎng)約車服務(wù)至中國(guó)境外,意在增強(qiáng)全球競(jìng)爭(zhēng)力。據(jù)悉,百度有意在中國(guó)香港、新加坡及中東地區(qū)測(cè)試和部署其蘿卜快跑(Apollo Go)無(wú)人駕駛出租車服務(wù)。
    的頭像 發(fā)表于 10-11 15:43 ?642次閱讀

    工控一體機(jī)如何在車間發(fā)揮作用

    工控一體機(jī)在車間中發(fā)揮著重要作用,具體表現(xiàn)在以下幾個(gè)方面:
    的頭像 發(fā)表于 09-10 09:35 ?549次閱讀

    【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】+ 簡(jiǎn)單建議

    這本書(shū)以其系統(tǒng)性的框架和深入淺出的講解,為讀者繪制了一幅時(shí)間序列分析與機(jī)器學(xué)習(xí)融合應(yīng)用的宏偉藍(lán)圖。作者不僅扎實(shí)地構(gòu)建了時(shí)間序列分析的基礎(chǔ)知識(shí),更巧妙地展示了機(jī)器學(xué)習(xí)何在這一領(lǐng)域
    發(fā)表于 08-12 11:21

    TS RadiMation測(cè)試軟件如何在脈沖抗擾度測(cè)試中發(fā)揮作用?

    放電 (ESD) 測(cè)試 ● 電快速瞬變 (EFT) /脈沖群抗擾度(Burst)測(cè)試 ● 浪涌抗擾度測(cè)試 今天為您介紹,TS RadiMation測(cè)試軟件 如何在脈沖抗擾度測(cè)試中發(fā)揮作用,實(shí)現(xiàn)測(cè)試自動(dòng)化! 一、靜電放電測(cè)試 下圖為ESD配置屏幕。工程師必須選擇測(cè)試級(jí)別和脈
    的頭像 發(fā)表于 07-26 10:47 ?618次閱讀
    TS RadiMation測(cè)試軟件如<b class='flag-5'>何在</b>脈沖抗擾度測(cè)試<b class='flag-5'>中發(fā)揮作用</b>?

    5G賦能車聯(lián)網(wǎng),無(wú)人駕駛引領(lǐng)未來(lái)出行

    無(wú)人駕駛車聯(lián)網(wǎng)應(yīng)用已成為智能交通領(lǐng)域的重要發(fā)展趨勢(shì)。隨著無(wú)人駕駛技術(shù)的不斷進(jìn)步和5G網(wǎng)絡(luò)的廣泛部署,5G工業(yè)路由器在無(wú)人駕駛車聯(lián)網(wǎng)中的應(yīng)用日益廣泛,為無(wú)人駕駛車輛提供了穩(wěn)定、高效、低時(shí)
    的頭像 發(fā)表于 07-24 10:10 ?1197次閱讀
    5G賦能車聯(lián)網(wǎng),<b class='flag-5'>無(wú)人駕駛</b>引領(lǐng)未來(lái)出行