chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自動(dòng)駕駛中常提的離線強(qiáng)化學(xué)習(xí)是什么?

智駕最前沿 ? 來源:智駕最前沿 ? 作者:智駕最前沿 ? 2026-02-07 09:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

[首發(fā)于智駕最前沿微信公眾號(hào)]在之前談及自動(dòng)駕駛模型學(xué)習(xí)時(shí),詳細(xì)聊過強(qiáng)化學(xué)習(xí)的作用,由于強(qiáng)化學(xué)習(xí)能讓大模型通過交互學(xué)到策略,不需要固定的規(guī)則,從而給自動(dòng)駕駛的落地創(chuàng)造了更多可能。

wKgZPGmGk5SAahjzAAA4H4eb0K4593.jpg

強(qiáng)化學(xué)習(xí)示意圖,圖片源自:網(wǎng)絡(luò)

但強(qiáng)化學(xué)習(xí)本身是需要不斷試錯(cuò)的,如果采用這種學(xué)習(xí)方式在真實(shí)道路中不斷嘗試,一定會(huì)導(dǎo)致不可控的事故。于是就有人提出一種猜測(cè),能不能利用已經(jīng)存在的大量行駛?cè)罩尽?a target="_blank">仿真記錄和人類駕駛數(shù)據(jù),在訓(xùn)練過程中完全不與真實(shí)環(huán)境交互,從而訓(xùn)練出一個(gè)靠譜的決策模塊?

離線強(qiáng)化學(xué)習(xí)就是基于此提出的方案。離線強(qiáng)化學(xué)習(xí)先收集一大堆過去的經(jīng)驗(yàn)(含狀態(tài)、動(dòng)作、后果/獎(jiǎng)勵(lì)等),然后把這些經(jīng)驗(yàn)當(dāng)成教材,讓模型在離線狀態(tài)下學(xué)習(xí)策略,而不是去真實(shí)交通場(chǎng)景中試錯(cuò)。這樣做的好處是安全、低成本、能重復(fù)利用現(xiàn)有數(shù)據(jù);但也帶來了不少問題,我們后面會(huì)詳細(xì)說。

wKgZO2mGk5SAVX6aAAAQo00DEvw274.jpg

離線強(qiáng)化學(xué)習(xí)的技術(shù)挑戰(zhàn)

離線強(qiáng)化學(xué)習(xí)在訓(xùn)練階段只能訪問一個(gè)固定的數(shù)據(jù)集,這個(gè)數(shù)據(jù)集是由若干次交互生成的記錄集合;訓(xùn)練算法不能再向環(huán)境發(fā)出動(dòng)作來采集新的樣本。這個(gè)改變會(huì)帶來分布覆蓋問題、估值偏差問題以及評(píng)估難題。

離線強(qiáng)化學(xué)習(xí)訓(xùn)練大模型時(shí),提供的歷史數(shù)據(jù)來源于某些已有的行為策略或人為駕駛習(xí)慣,數(shù)據(jù)中可能壓根沒有某些狀態(tài)-動(dòng)作對(duì)。如果訓(xùn)練出的策略在部署時(shí)選擇了數(shù)據(jù)中極少或根本沒有覆蓋的動(dòng)作,算法對(duì)這些動(dòng)作的價(jià)值估計(jì)將會(huì)非常不可靠。

在離線數(shù)據(jù)里,有些動(dòng)作要么出現(xiàn)得很少,要么干脆沒出現(xiàn)過。按理說,模型對(duì)這些動(dòng)作應(yīng)該非常謹(jǐn)慎才對(duì)。但強(qiáng)化學(xué)習(xí)算法在估計(jì)動(dòng)作價(jià)值(Q值)時(shí),會(huì)因?yàn)槿鄙僬鎸?shí)數(shù)據(jù)支撐,反而會(huì)把這些動(dòng)作估得特別好。導(dǎo)致的結(jié)果就是,模型會(huì)覺得這個(gè)操作收益很高,然后在學(xué)策略時(shí)越來越偏向這些現(xiàn)實(shí)中并不安全、甚至根本不可行的行為。

除此之外,離線強(qiáng)化學(xué)習(xí)在訓(xùn)練時(shí)無法在真實(shí)交通環(huán)境中驗(yàn)證策略,只能依賴離線的估計(jì)方法或仿真,這使得對(duì)學(xué)習(xí)到的策略的可靠性驗(yàn)證變得更復(fù)雜。為了解決分布偏差和估值問題,離線強(qiáng)化學(xué)習(xí)算法還必須加入保守項(xiàng)、不確定性估計(jì)、行為約束等,這些都會(huì)增加實(shí)現(xiàn)難度與調(diào)參成本。

wKgZO2mGk5WAZY72AAAR42n7O-I493.jpg

離線強(qiáng)化學(xué)習(xí)的主流思路

現(xiàn)階段,離線強(qiáng)化學(xué)習(xí)使用較多的實(shí)現(xiàn)方式就是行為克隆,即把問題轉(zhuǎn)成監(jiān)督學(xué)習(xí),直接用歷史狀態(tài)去預(yù)測(cè)歷史動(dòng)作,學(xué)會(huì)“模仿人類駕駛”。行為克隆實(shí)現(xiàn)簡(jiǎn)單、訓(xùn)練穩(wěn)定,但它的上限被數(shù)據(jù)中人類駕駛的質(zhì)量限制,且無法處理數(shù)據(jù)中沒有覆蓋到的新場(chǎng)景。

為了解決行為克隆存在的問題,出現(xiàn)了以價(jià)值估計(jì)為核心、但帶有保守性約束的離線強(qiáng)化學(xué)習(xí)算法,主要有“行為約束”及“保守估值”兩種策略。行為約束也就是在優(yōu)化策略時(shí),直接限制新策略不能偏離已有數(shù)據(jù)太遠(yuǎn);保守估值策略是在估計(jì)行動(dòng)價(jià)值時(shí),對(duì)數(shù)據(jù)中不存在的行動(dòng)進(jìn)行刻意懲罰。這些做法都是為了壓低不切實(shí)際的樂觀估計(jì),讓學(xué)習(xí)過程更可靠。

還有一種思路是先學(xué)習(xí)一個(gè)環(huán)境動(dòng)力學(xué)模型,然后在模型中進(jìn)行規(guī)劃或策略優(yōu)化,這一思路的關(guān)鍵在于如何讓模型在不確定或預(yù)測(cè)不可靠的區(qū)域加入懲罰或不信任度折扣,避免因模型錯(cuò)誤導(dǎo)致的危險(xiǎn)動(dòng)作。

此外,還有一些如ensemble(集成)不確定性估計(jì)、用置信區(qū)間控制決策、或把離線學(xué)習(xí)作為預(yù)訓(xùn)練基座,然后在受控的仿真或沙箱里做有限的在線微調(diào)的方法用于實(shí)現(xiàn)模型學(xué)習(xí)。

在實(shí)際應(yīng)用中,這些方法常會(huì)被組合使用,行為克隆可作為穩(wěn)定的初始策略;保守Q學(xué)習(xí)或批量約束方法能進(jìn)一步提升策略性能;而基于模型的規(guī)劃與不確定性估計(jì)則充當(dāng)風(fēng)險(xiǎn)控制的補(bǔ)充。需要強(qiáng)調(diào)的是,無論采用何種方法,數(shù)據(jù)的多樣性與質(zhì)量始終是決定成效的根本,如果缺乏對(duì)某些場(chǎng)景的覆蓋,任何算法都難以實(shí)現(xiàn)安全可靠的泛化。

wKgZO2mGk5aAUxQKAAASG3BOmsQ173.jpg

自動(dòng)駕駛?cè)绾斡煤秒x線強(qiáng)化學(xué)習(xí)?

自動(dòng)駕駛?cè)绾斡煤秒x線強(qiáng)化學(xué)習(xí)?首先要做的是要規(guī)劃好數(shù)據(jù)收集體系。除了日常駕駛?cè)罩?,還要主動(dòng)合成和收集如夜間、逆光、大雨、大霧、臨時(shí)施工場(chǎng)景、行人異常行為等邊緣情況的樣本。仿真在這里的作用非常重要,它可以彌補(bǔ)現(xiàn)實(shí)場(chǎng)景中稀缺的數(shù)據(jù),但必須和真實(shí)數(shù)據(jù)結(jié)合。

接著就是要做好分階段訓(xùn)練流程,在大模型學(xué)習(xí)的整個(gè)鏈路中,可以把離線強(qiáng)化學(xué)習(xí)當(dāng)作預(yù)訓(xùn)練的手段,可以先在大規(guī)模歷史數(shù)據(jù)上訓(xùn)練出一個(gè)“穩(wěn)健基線”;然后在高保真仿真里對(duì)該策略做更多場(chǎng)景覆蓋測(cè)試;最后就是進(jìn)行受控上線(比如先在特定區(qū)域、低速、有人監(jiān)控的條件下運(yùn)行),在實(shí)際運(yùn)行中以“shadowmode(影子模式)”不斷記錄策略決策與真實(shí)駕駛者行為的差異,收集新數(shù)據(jù)用于后續(xù)離線微調(diào)。

在進(jìn)行大模型部署時(shí),一定要有強(qiáng)制的安全層和退回機(jī)制。不管策略多完善,都要有獨(dú)立的安全監(jiān)控,當(dāng)感知或決策模塊檢測(cè)到高不確定性、模型越界或可能造成人員傷害的風(fēng)險(xiǎn)時(shí),系統(tǒng)應(yīng)降級(jí)到更保守的控制邏輯,或者直接交由人為接管。

wKgZPGmGk5eAKP_9AAB4wKdjTwI480.jpg

圖片源自:網(wǎng)絡(luò)

評(píng)估和指標(biāo)體系的設(shè)定也要更加嚴(yán)謹(jǐn)。單靠訓(xùn)練時(shí)的“平均回報(bào)”或離線估計(jì)不足以判斷部署的安全性,其中需要包括不確定性分布、最差-k%情況、OPE(離線策略評(píng)估)方法、以及通過仿真和小規(guī)模上線驗(yàn)證得到的指標(biāo)等多維度指標(biāo)。

對(duì)于自動(dòng)駕駛來說,監(jiān)管與責(zé)任框架必須要預(yù)先設(shè)計(jì)好。在真實(shí)交通環(huán)境中,任何決策一旦出問題,就會(huì)牽扯到責(zé)任認(rèn)定、修復(fù)補(bǔ)救和合規(guī)審查,離線強(qiáng)化學(xué)習(xí)的訓(xùn)練日志與決策解釋將是重要證據(jù)。因此,要保證數(shù)據(jù)可追溯、策略版本可回滾、并保留充分的審計(jì)記錄。

wKgZO2mGk5eAFhTuAAASAJELks8946.jpg

最后的話

雖然離線強(qiáng)化學(xué)習(xí)面臨著“數(shù)據(jù)決定上限”與“分布外泛化難”的問題,但其給現(xiàn)實(shí)世界應(yīng)用,尤其是自動(dòng)駕駛這類安全敏感任務(wù),提供了一個(gè)非常有價(jià)值的實(shí)現(xiàn)路徑。它緩和了“強(qiáng)化學(xué)習(xí)的潛力”與“現(xiàn)實(shí)世界的安全約束”之間的矛盾,使我們能利用海量歷史經(jīng)驗(yàn)去訓(xùn)練智能策略。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    793

    文章

    14878

    瀏覽量

    179762
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    自動(dòng)駕駛中常的占用網(wǎng)絡(luò)檢測(cè)存在哪些問題?

    自動(dòng)駕駛感知技術(shù)在過去幾年中經(jīng)歷了很大的變化,從最初的二維圖像檢測(cè)到鳥瞰圖投影,再到如今備受關(guān)注的占用網(wǎng)絡(luò),感知技術(shù)的提升,讓自動(dòng)駕駛的能力越來越強(qiáng)。
    的頭像 發(fā)表于 02-24 15:53 ?936次閱讀

    自動(dòng)駕駛中常的“深度估計(jì)”是個(gè)啥?

    [首發(fā)于智駕最前沿微信公眾號(hào)]當(dāng)我們看一張照片時(shí),可以通過肉眼自然地判斷照片中的物體遠(yuǎn)近,這種對(duì)于空間和距離的感知,對(duì)于人類來說是本能,是從幼兒時(shí)期開始就形成的一種能力。 對(duì)于自動(dòng)駕駛汽車來說
    的頭像 發(fā)表于 02-16 13:18 ?1.7w次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“深度估計(jì)”是個(gè)啥?

    強(qiáng)化學(xué)習(xí)會(huì)讓自動(dòng)駕駛模型學(xué)習(xí)更快嗎?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在談及自動(dòng)駕駛大模型訓(xùn)練時(shí),有的技術(shù)方案會(huì)采用模仿學(xué)習(xí),而有些會(huì)采用強(qiáng)化學(xué)習(xí)。同樣作為大模型的訓(xùn)練方式,強(qiáng)化學(xué)習(xí)有何不同?又有什么特點(diǎn)呢? 什么是
    的頭像 發(fā)表于 01-31 09:34 ?636次閱讀
    <b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>會(huì)讓<b class='flag-5'>自動(dòng)駕駛</b>模型<b class='flag-5'>學(xué)習(xí)</b>更快嗎?

    自動(dòng)駕駛中常的模仿學(xué)習(xí)是什么?

    當(dāng)談及自動(dòng)駕駛模型學(xué)習(xí)時(shí),經(jīng)常會(huì)提到模仿學(xué)習(xí)的概念。所謂模仿學(xué)習(xí),就是模型先看別人怎么做,然后學(xué)著去做。自動(dòng)駕駛中的模仿
    的頭像 發(fā)表于 01-16 16:41 ?1988次閱讀

    自動(dòng)駕駛中常的世界模型是什么?

    在很多廠家的技術(shù)方案中,會(huì)提到世界模型的介紹。世界模型,就是自動(dòng)駕駛系統(tǒng)內(nèi)部用來表示外部世界并預(yù)測(cè)未來演變的一組模型或表征。換句話說,世界模型就是把傳感器看到的東西(攝像頭畫面、激光雷達(dá)點(diǎn)云、雷達(dá)
    的頭像 發(fā)表于 01-05 16:23 ?887次閱讀

    如何訓(xùn)練好自動(dòng)駕駛端到端模型?

    [首發(fā)于智駕最前沿微信公眾號(hào)]最近有位小伙伴在后臺(tái)留言提問:端到端算法是怎樣訓(xùn)練的?是模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)離線強(qiáng)化學(xué)習(xí)這三類嗎?其實(shí)端到端(end-to-end)算法在
    的頭像 發(fā)表于 12-08 16:31 ?1422次閱讀
    如何訓(xùn)練好<b class='flag-5'>自動(dòng)駕駛</b>端到端模型?

    大模型中常的快慢思考會(huì)對(duì)自動(dòng)駕駛產(chǎn)生什么影響?

    2024年7月,理想汽車發(fā)布的基于端到端模型、VLM視覺語言模型和世界模型的全新自動(dòng)駕駛技術(shù)架構(gòu)標(biāo)志著其全棧自研的智能駕駛研發(fā)進(jìn)入了新階段。該架構(gòu)的算法原型創(chuàng)新性地受到了諾貝爾獎(jiǎng)得主丹尼爾·卡尼曼
    的頭像 發(fā)表于 11-22 10:59 ?2496次閱讀
    大模型<b class='flag-5'>中常</b><b class='flag-5'>提</b>的快慢思考會(huì)對(duì)<b class='flag-5'>自動(dòng)駕駛</b>產(chǎn)生什么影響?

    自動(dòng)駕駛中常的“強(qiáng)化學(xué)習(xí)”是個(gè)啥?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在談及自動(dòng)駕駛時(shí),有些方案中會(huì)提到“強(qiáng)化學(xué)習(xí)(Reinforcement Learning,簡(jiǎn)稱RL)”,強(qiáng)化學(xué)習(xí)是一類讓機(jī)器通過試錯(cuò)來學(xué)會(huì)做決策的技術(shù)。簡(jiǎn)單理解
    的頭像 發(fā)表于 10-23 09:00 ?658次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>”是個(gè)啥?

    自動(dòng)駕駛中常的“專家數(shù)據(jù)”是個(gè)啥?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在談及自動(dòng)駕駛時(shí),經(jīng)常會(huì)聽到一個(gè)概念,那便是“專家數(shù)據(jù)”。專家數(shù)據(jù),說白了就是“按理應(yīng)該這么做”的那類示范數(shù)據(jù)。它不是隨機(jī)抓來的日志,也不是隨便標(biāo)注的標(biāo)簽,而是來源可靠
    的頭像 發(fā)表于 10-09 09:33 ?592次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“專家數(shù)據(jù)”是個(gè)啥?

    自動(dòng)駕駛中常的ODD是個(gè)啥?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在自動(dòng)駕駛中,經(jīng)常會(huì)聽到一個(gè)概念,那就是ODD。所謂ODD,全稱為Operational Design Domain,中文常譯為“運(yùn)行設(shè)計(jì)域”或者“作業(yè)域”。直觀一點(diǎn)
    的頭像 發(fā)表于 09-22 09:04 ?898次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的ODD是個(gè)啥?

    自動(dòng)駕駛中常的硬件在環(huán)是個(gè)啥?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在談及自動(dòng)駕駛技術(shù)時(shí),經(jīng)常會(huì)提及一個(gè)技術(shù),那就是硬件在環(huán),所謂的硬件在環(huán)是個(gè)啥?對(duì)于自動(dòng)駕駛來說有啥作用?今天智駕最前沿就帶大家來聊聊這一技術(shù)。 所謂硬件在環(huán)
    的頭像 發(fā)表于 08-14 08:54 ?1233次閱讀

    自動(dòng)駕駛中常的世界模型是個(gè)啥?

    [首發(fā)于智駕最前沿微信公眾號(hào)]隨著自動(dòng)駕駛技術(shù)的不斷成熟,車輛需要在復(fù)雜多變的道路環(huán)境中安全地行駛,這就要求系統(tǒng)不僅能“看見”周圍的世界,還要能“理解”和“推測(cè)”未來的變化。世界模型可以被看作一種
    的頭像 發(fā)表于 06-24 08:53 ?1122次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的世界模型是個(gè)啥?

    自動(dòng)駕駛中常的“點(diǎn)云”是個(gè)啥?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在自動(dòng)駕駛系統(tǒng)中,點(diǎn)云技術(shù)作為三維空間感知的核心手段,為車輛提供了精確的距離和形狀信息,從而實(shí)現(xiàn)目標(biāo)檢測(cè)、環(huán)境建模、定位與地圖構(gòu)建等關(guān)鍵功能。那所謂的“點(diǎn)云”,到底是個(gè)
    的頭像 發(fā)表于 05-21 09:04 ?1117次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“點(diǎn)云”是個(gè)啥?

    自動(dòng)駕駛中常的“NOA”是個(gè)啥?

    近年來,自動(dòng)駕駛技術(shù)發(fā)展迅速,業(yè)界不斷探索如何在復(fù)雜交通場(chǎng)景中實(shí)現(xiàn)真正的無人駕駛。城市NOA作為自動(dòng)駕駛的一項(xiàng)前沿技術(shù),正成為各大廠商相互爭(zhēng)奪的關(guān)鍵技術(shù)。 何為NOA? NOA,全稱
    的頭像 發(fā)表于 04-09 09:03 ?3060次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“NOA”是個(gè)啥?

    自動(dòng)駕駛大模型中常的Token是個(gè)啥?對(duì)自動(dòng)駕駛有何影響?

    近年來,人工智能技術(shù)迅速發(fā)展,大規(guī)模深度學(xué)習(xí)模型(即大模型)在自然語言處理、計(jì)算機(jī)視覺、語音識(shí)別以及自動(dòng)駕駛等多個(gè)領(lǐng)域取得了突破性進(jìn)展。自動(dòng)駕駛作為未來智能交通的重要方向,其核心技術(shù)之一便是對(duì)海量
    的頭像 發(fā)表于 03-28 09:16 ?1333次閱讀