chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用非參數(shù)方法提高強(qiáng)化學(xué)習(xí)的樣本效率

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:Samuele Tosatto ? 2022-04-28 14:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人工智能和自主學(xué)習(xí)的最新發(fā)展表明,在棋盤(pán)游戲和電腦游戲等任務(wù)中取得了令人印象深刻的成果。然而,學(xué)習(xí)技術(shù)的適用性主要局限于模擬環(huán)境。

這種不適用于實(shí)際場(chǎng)景的主要原因之一是樣本效率低下,無(wú)法保證最先進(jìn)的強(qiáng)化學(xué)習(xí)的安全運(yùn)行。在強(qiáng)化學(xué)習(xí)理論中,你想根據(jù)一個(gè)特定的指標(biāo)來(lái)改善一個(gè)代理的行為。為了改進(jìn)這個(gè)度量,代理可以與環(huán)境交互,從中收集觀(guān)察結(jié)果和獎(jiǎng)勵(lì)。可以用兩種不同的方式進(jìn)行改進(jìn): 論政策 和 非保險(xiǎn)單 。

在政策性案例中,必須通過(guò)代理人與環(huán)境的直接互動(dòng)來(lái)實(shí)現(xiàn)改進(jìn)。這種改進(jìn)在數(shù)學(xué)上很簡(jiǎn)單,但由于不允許重復(fù)使用樣本,因此阻礙了樣本效率。當(dāng)代理行為得到改善時(shí),代理必須與環(huán)境重新交互以生成新的 on 策略樣本。例如,在學(xué)習(xí)的早期階段, agentMIG 不適合與物理環(huán)境直接交互,因?yàn)樗男袨槭请S機(jī)的。在模擬任務(wù)中,樣本的可用性是無(wú)限的,有害行為的應(yīng)用沒(méi)有危險(xiǎn)。然而,對(duì)于實(shí)際應(yīng)用,這些問(wèn)題是嚴(yán)重的。

在關(guān)閉策略的情況下,可以通過(guò)與其他代理完成的環(huán)境的交互來(lái)改進(jìn)代理的行為。這允許樣本重用和更安全的交互,因?yàn)榕c環(huán)境交互的代理可以是專(zhuān)家。例如,人類(lèi)可以通過(guò)移動(dòng)機(jī)械臂來(lái)采集樣本。

政策外改善的缺點(diǎn)是難以獲得可靠的估計(jì)。在目前的技術(shù)狀況下,所提出的技術(shù)要么具有高偏差,要么具有高方差。此外,有些技術(shù)對(duì)必須如何與環(huán)境進(jìn)行交互有著具體而強(qiáng)烈的要求。

在這篇文章中,我討論了非參數(shù)非政策梯度( NOPG ),它具有更好的偏差方差權(quán)衡,并且對(duì)如何生成非政策樣本沒(méi)有什么要求。 NOPG 是由 Darmstadt 的智能自治系統(tǒng)實(shí)驗(yàn)室開(kāi)發(fā)的,已經(jīng)被證明可以有效地解決一些經(jīng)典的控制問(wèn)題,并克服了目前最先進(jìn)的非策略梯度估計(jì)中存在的一些問(wèn)題。有關(guān)詳細(xì)信息,請(qǐng)參見(jiàn) 非參數(shù)的政策外政策梯度 。

強(qiáng)化學(xué)習(xí)與政策外梯度

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子領(lǐng)域,其中一個(gè)代理(我在這篇文章中稱(chēng)之為策略)與環(huán)境交互并觀(guān)察環(huán)境的狀態(tài)和獎(jiǎng)勵(lì)信號(hào)。代理人的目標(biāo)是使累計(jì)折扣報(bào)酬最大化,如下式所示:

latex.php?latex=J%5E%5Cpi+%3D+%5Cmathbb%7BE%7D%5Cleft%5B%5Csum_t+%5Cgamma%5Etr_t%5Cright%5D&bg=ffffff&fg=000&s=0

代理通常由一組參數(shù)來(lái)參數(shù)化使得它能夠利用梯度優(yōu)化使強(qiáng)化學(xué)習(xí)目標(biāo)最大化。坡度關(guān)于策略參數(shù)通常是未知的,并且很難以分析形式獲得。因此,你不得不用樣本來(lái)近似它。利用非策略樣本估計(jì)梯度主要有兩種方法:半梯度法和重要性抽樣法。

半梯度

這些方法在梯度展開(kāi)中減少了一個(gè)項(xiàng),這導(dǎo)致了估計(jì)量的偏差。理論上,這個(gè)偏差項(xiàng)仍然足夠低,足以保證梯度收斂到正確的解。然而,當(dāng)引入其他近似源(例如有限樣本或臨界近似)時(shí),不能保證收斂到最優(yōu)策略。在實(shí)踐中,經(jīng)常會(huì)觀(guān)察到性能不佳。

重要性抽樣

這些方法都是基于重要性抽樣校正的。這種估計(jì)通常會(huì)受到高方差的影響,并且這種方差在強(qiáng)化學(xué)習(xí)環(huán)境中會(huì)被放大,因?yàn)樗鼤?huì)隨著情節(jié)的長(zhǎng)度而倍增。涉及重要性抽樣的技術(shù)需要已知的隨機(jī)策略和基于軌跡的數(shù)據(jù)(與環(huán)境的順序交互)。因此,在這種情況下,不允許不完整的數(shù)據(jù)或基于人的交互。

非參數(shù)非政策梯度估計(jì)

強(qiáng)化學(xué)習(xí)理論的一個(gè)重要組成部分是 Bellman 方程。 Bellman 方程遞歸地定義了以下值函數(shù):

pYYBAGJqL7iAdB5pAAAdEG7Z69M420.png

求梯度的一種方法是用非參數(shù)技術(shù)近似 Bellman 方程,并進(jìn)行解析求解。具體來(lái)說(shuō),可以構(gòu)造一個(gè)非參數(shù)的報(bào)酬函數(shù)和轉(zhuǎn)移函數(shù)模型。

通過(guò)增加采樣數(shù)和減少內(nèi)核帶寬,您將向右收斂到無(wú)偏解。更準(zhǔn)確地說(shuō),當(dāng)方差縮小到零時(shí),這個(gè)估計(jì)量是一致的。

非參數(shù) Bellman 方程的求解涉及到一組線(xiàn)性方程組的求解,該方程組可以通過(guò)矩陣反演或共軛梯度等近似迭代方法獲得。這兩種方法都是重線(xiàn)性代數(shù)運(yùn)算,因此適合與 GPUs 并行計(jì)算。

求解非參數(shù) Bellman 方程后,梯度的計(jì)算變得非常簡(jiǎn)單,可以使用自動(dòng)微分工具,如 TensorFlow 或 PyTorch 來(lái)獲得。這些工具具有易于使用的 GPU 支持,與以前僅使用 CPU 的實(shí)現(xiàn)相比,這些工具已經(jīng)被證明實(shí)現(xiàn)了相當(dāng)大的加速。

特別是, IASL 團(tuán)隊(duì)在配備了四個(gè) NVIDIA V100 GPUs 的 NVIDIA DGX 站 上測(cè)試了 TensorFlow 和 PyTorch 兩種算法。由于 NVIDIA DGX 站提供的 20 個(gè) NVIDIA 核有助于利用多處理技術(shù)進(jìn)行多次評(píng)估,因此該機(jī)器非常適合于實(shí)證評(píng)估。有關(guān)實(shí)現(xiàn)代碼的更多信息,請(qǐng)參見(jiàn) 非參數(shù)政策外政策梯度 。

實(shí)證分析

為了評(píng)估 NOPG 相對(duì)于經(jīng)典的非政策梯度方法的性能,例如深度確定性策略梯度,或具有重要抽樣校正的 G-POMDP ,團(tuán)隊(duì)選擇了一些經(jīng)典的低維控制任務(wù):

線(xiàn)性二次型調(diào)節(jié)器

OpenAI 健身房秋千

手推車(chē)和電桿( Quanser 平臺(tái))

OpenAI 健身山地車(chē)

我的團(tuán)隊(duì)的分析表明,與最先進(jìn)的技術(shù)相比,這種方法更具優(yōu)勢(shì)。在表示為 NOPG-S 和 NOPG-D 的圖中,我們分別展示了隨機(jī)策略和確定性策略的算法:

PWIS (路徑重要性抽樣)

DPG ( deterministicpolicy gradient ),一種半梯度方法

DDPG ( deep deterministicy policy gradient ),在其經(jīng)典的在線(xiàn)和離線(xiàn)模式下

該團(tuán)隊(duì)使用 OpenAI 基線(xiàn) 對(duì)在線(xiàn)版本的 DDPG 進(jìn)行編碼。

坡度的質(zhì)量

pYYBAGJqMBiAEGWHAAEqugswRAs005.png

圖 1 LQR 任務(wù)中的梯度方向。與 DPG 技術(shù)相比,方差是有利的。

圖 1 描述了參數(shù)空間中的漸變方向。真梯度( TG )是理想的梯度方向。當(dāng) PWIS 的方差較大時(shí), DPG 表現(xiàn)出較大的偏差,兩種方法都無(wú)法優(yōu)化策略。相反,這種同時(shí)具有隨機(jī)和確定性策略的方法顯示出更好的偏差/方差權(quán)衡,并允許更好和一致的策略改進(jìn)。

學(xué)習(xí)曲線(xiàn)

poYBAGJqMPSAC2JPAAED649PFzI321.png

圖 2 該算法( NOPG-D , NOPG-S )比其他基線(xiàn)具有更好的采樣效率。在實(shí)際系統(tǒng)上,驗(yàn)證了所學(xué)習(xí)策略對(duì)車(chē)輛穩(wěn)定性的有效性。

圖 2 描述了算法關(guān)于一些經(jīng)典基線(xiàn)的學(xué)習(xí)曲線(xiàn)。該算法使用較少的樣本,取得了較好的效果。 cartpole 的最終策略已經(jīng)在一個(gè)真實(shí)的 cartpole 上進(jìn)行了測(cè)試,如右圖所示。

從人類(lèi)示范中學(xué)習(xí)

該算法可以處理基于人類(lèi)的數(shù)據(jù),而重要性抽樣技術(shù)并不直接適用。在這個(gè)實(shí)驗(yàn)中,研究小組提供了次優(yōu)的,人類(lèi)演示的山地車(chē)任務(wù)軌跡。

poYBAGJqMA2ATCWjAADv75ksEa8838.png

圖3 在左邊,提供了關(guān)于演示次數(shù)的算法學(xué)習(xí)曲線(xiàn)。該圖附有 95% 的置信區(qū)間。右邊是一個(gè)人類(lèi)演示和隨后的政策在空間狀態(tài)下的表現(xiàn)的例子。

左邊的圖 3 顯示, NOPG 可以在只有兩個(gè)次優(yōu)的演示或軌跡的情況下獲得一個(gè)有效的策略。然而,更大的數(shù)字有助于它學(xué)習(xí)稍微好一點(diǎn)的政策。右邊是一個(gè)人類(lèi)演示的例子(橙色)和策略?xún)?yōu)化的結(jié)果(綠色)。人體在位置和速度空間的演示是次優(yōu)的,因?yàn)樗枰嗟牟襟E來(lái)達(dá)到目標(biāo)位置。即使人類(lèi)的演示是次優(yōu)的,算法也能找到一個(gè)接近最優(yōu)的策略。

今后的工作

博世人工智能中心 的一個(gè)應(yīng)用是節(jié)流閥控制器。節(jié)流閥是用來(lái)調(diào)節(jié)流體或氣體流量的技術(shù)裝置。由于其復(fù)雜的動(dòng)力學(xué)和物理約束,該裝置的控制具有挑戰(zhàn)性。

由于參數(shù)設(shè)置困難,設(shè)計(jì)最先進(jìn)的控制器(如 PID 控制器)非常耗時(shí)。強(qiáng)化學(xué)習(xí)似乎特別適合這種應(yīng)用。然而,政策外數(shù)據(jù)的可用性加上系統(tǒng)的低維性(系統(tǒng)可以用襟翼的角度和角速度來(lái)描述),使得它特別適合于 NOPG 方法。

結(jié)論

在這篇文章中,您研究了非政策梯度估計(jì)的問(wèn)題。最先進(jìn)的技術(shù),如半梯度法和重要性抽樣法,往往不能提供一個(gè)可靠的估計(jì)。我討論了 NOPG ,它是在達(dá)姆施塔特的 智能自治系統(tǒng)( IAS ) 實(shí)驗(yàn)室開(kāi)發(fā)的。

在經(jīng)典和低維任務(wù)(如 LQR 、擺起擺錘和 cartopole )上, NOPG 方法是樣本有效的,與基線(xiàn)相比安全(也就是說(shuō),它可以向人類(lèi)專(zhuān)家學(xué)習(xí))。雖然重要性抽樣不適用,但該方法也能從次優(yōu)的人類(lèi)演示數(shù)據(jù)中學(xué)習(xí)。然而,由于非參數(shù)方法不適用于高維問(wèn)題,該算法僅限于低維任務(wù)。您可以研究深度學(xué)習(xí)技術(shù)的適用性,以允許降維,以及 Bellman 方程的不同近似值的使用,從而克服非參數(shù)技術(shù)的問(wèn)題。

關(guān)于作者

Samuele Tosatto 是達(dá)姆施塔特理工大學(xué)的博士生。他的主要研究方向是將強(qiáng)化學(xué)習(xí)應(yīng)用于現(xiàn)實(shí)世界的機(jī)器人技術(shù)。他認(rèn)為,獲得更有效的學(xué)習(xí)算法對(duì)于縮短強(qiáng)化學(xué)習(xí)與實(shí)際機(jī)器人技術(shù)之間的差距至關(guān)重要。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 控制器
    +關(guān)注

    關(guān)注

    114

    文章

    17100

    瀏覽量

    184225
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    29730

    瀏覽量

    212839
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122793
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA Isaac Lab可用環(huán)境與強(qiáng)化學(xué)習(xí)腳本使用指南

    Lab 是一個(gè)適用于機(jī)器人學(xué)習(xí)的開(kāi)源模塊化框架,其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,Isaac Lab 同時(shí)支持模仿學(xué)習(xí)(模仿人類(lèi))和強(qiáng)化學(xué)習(xí)(在嘗試和錯(cuò)誤中進(jìn)行學(xué)習(xí)),為所有機(jī)器
    的頭像 發(fā)表于 07-14 15:29 ?527次閱讀
    NVIDIA Isaac Lab可用環(huán)境與<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>腳本使用指南

    18個(gè)常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

    本來(lái)轉(zhuǎn)自:DeepHubIMBA本文系統(tǒng)講解從基本強(qiáng)化學(xué)習(xí)方法到高級(jí)技術(shù)(如PPO、A3C、PlaNet等)的實(shí)現(xiàn)原理與編碼過(guò)程,旨在通過(guò)理論結(jié)合代碼的方式,構(gòu)建對(duì)強(qiáng)化學(xué)習(xí)算法的全面理解。為確保內(nèi)容
    的頭像 發(fā)表于 04-23 13:22 ?403次閱讀
    18個(gè)常用的<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法整理:從基礎(chǔ)<b class='flag-5'>方法</b>到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

    嵌入式AI技術(shù)之深度學(xué)習(xí):數(shù)據(jù)樣本預(yù)處理過(guò)程中使用合適的特征變換對(duì)深度學(xué)習(xí)的意義

    和模擬一切規(guī)律,但實(shí)際上,這個(gè)過(guò)程效率非常低,需要消耗大量的存儲(chǔ)空間描述網(wǎng)絡(luò)的參數(shù),并且需要大量的數(shù)據(jù)樣本覆蓋規(guī)律可能涉及到的情景。 優(yōu)秀的數(shù)學(xué)家們?cè)谶^(guò)往的研究中,已經(jīng)發(fā)現(xiàn)和總結(jié)出了一些描述規(guī)律的
    的頭像 發(fā)表于 04-02 18:21 ?881次閱讀

    詳解RAD端到端強(qiáng)化學(xué)習(xí)后訓(xùn)練范式

    受限于算力和數(shù)據(jù),大語(yǔ)言模型預(yù)訓(xùn)練的 scalinglaw 已經(jīng)趨近于極限。DeepSeekR1/OpenAl01通過(guò)強(qiáng)化學(xué)習(xí)后訓(xùn)練涌現(xiàn)了強(qiáng)大的推理能力,掀起新一輪技術(shù)革新。
    的頭像 發(fā)表于 02-25 14:06 ?590次閱讀
    詳解RAD端到端<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>后訓(xùn)練范式

    高強(qiáng)度鋼點(diǎn)焊技術(shù)研究進(jìn)展與應(yīng)用前景

    點(diǎn)焊是一種利用電極將工件局部加熱至熔化狀態(tài),通過(guò)加壓使金屬之間形成牢固連接的焊接方法。對(duì)于高強(qiáng)度鋼而言,點(diǎn)焊技術(shù)需要解決的關(guān)鍵問(wèn)題包括:如何保證焊接接頭的強(qiáng)度和韌性,減少焊接缺陷,提高生產(chǎn)效率
    的頭像 發(fā)表于 02-20 08:46 ?443次閱讀
    <b class='flag-5'>高強(qiáng)</b>度鋼點(diǎn)焊技術(shù)研究進(jìn)展與應(yīng)用前景

    數(shù)字化轉(zhuǎn)型背景下的設(shè)備管理系統(tǒng)進(jìn)化論

    從臺(tái)賬管理到智能中樞,設(shè)備管理技術(shù)演進(jìn)史。數(shù)字化轉(zhuǎn)型戰(zhàn)略深度綁定。實(shí)時(shí)感知網(wǎng)絡(luò),振動(dòng)監(jiān)測(cè)系統(tǒng),效率提高。5G+TSN,降低運(yùn)維成本。強(qiáng)化學(xué)習(xí)參數(shù)優(yōu)化。數(shù)字孿生,優(yōu)化運(yùn)維
    的頭像 發(fā)表于 02-10 10:07 ?353次閱讀
    數(shù)字化轉(zhuǎn)型背景下的設(shè)備管理系統(tǒng)進(jìn)化論

    如何提高SMT生產(chǎn)效率

    在競(jìng)爭(zhēng)激烈的電子制造領(lǐng)域,SMT生產(chǎn)線(xiàn)的效率直接影響到企業(yè)的競(jìng)爭(zhēng)力。 1. 生產(chǎn)流程優(yōu)化 1.1 精益生產(chǎn) 精益生產(chǎn)是一種旨在減少浪費(fèi)、提高效率的生產(chǎn)管理方法。通過(guò)識(shí)別和消除生產(chǎn)過(guò)程中的
    的頭像 發(fā)表于 01-10 16:28 ?1527次閱讀

    如何提高半導(dǎo)體設(shè)備防震基座的制造效率?

    如何提高半導(dǎo)體設(shè)備防震基座的制造效率?-江蘇泊蘇系統(tǒng)集成有限公司提高半導(dǎo)體設(shè)備防震基座的制造效率是一個(gè)綜合性的過(guò)程,需要從多個(gè)方面進(jìn)行優(yōu)化和改進(jìn),以下是一些可行的
    的頭像 發(fā)表于 01-08 15:06 ?451次閱讀
    如何<b class='flag-5'>提高</b>半導(dǎo)體設(shè)備防震基座的制造<b class='flag-5'>效率</b>?

    怎樣提高三坐標(biāo)測(cè)量機(jī)的測(cè)量效率

    提高三坐標(biāo)測(cè)量機(jī)的測(cè)量效率是許多制造和質(zhì)量控制領(lǐng)域中的一個(gè)關(guān)鍵問(wèn)題。三坐標(biāo)測(cè)量機(jī)(CMM)是一種精密的測(cè)量設(shè)備,用于檢測(cè)零件的幾何尺寸和形狀。以下是一些提高三坐標(biāo)測(cè)量機(jī)測(cè)量效率
    的頭像 發(fā)表于 12-19 10:20 ?1082次閱讀

    螞蟻集團(tuán)收購(gòu)邊塞科技,吳翼出任強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室首席科學(xué)家

    近日,專(zhuān)注于模型賽道的初創(chuàng)企業(yè)邊塞科技宣布被螞蟻集團(tuán)收購(gòu)。據(jù)悉,此次交易完成后,邊塞科技將保持獨(dú)立運(yùn)營(yíng),而原投資人已全部退出。 與此同時(shí),螞蟻集團(tuán)近期宣布成立強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室,旨在推動(dòng)大模型強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 11-22 11:14 ?1567次閱讀

    如何提高CNC加工效率

    程是指刀具在沒(méi)有切削材料的情況下移動(dòng)的距離。通過(guò)優(yōu)化刀具路徑,減少不必要的移動(dòng),可以顯著提高加工效率。使用高級(jí)的CAM軟件可以自動(dòng)生成更高效的刀具路徑。 1.2 優(yōu)化切削參數(shù) 切削參數(shù)
    的頭像 發(fā)表于 11-12 09:18 ?1973次閱讀

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是一種機(jī)器學(xué)習(xí)方法,它通過(guò)與環(huán)境的交互來(lái)學(xué)習(xí)如何做出決策,以最大化累積獎(jiǎng)勵(lì)。PyTorch 是一個(gè)流行的開(kāi)源機(jī)器學(xué)習(xí)庫(kù),
    的頭像 發(fā)表于 11-05 17:34 ?1041次閱讀

    Pytorch深度學(xué)習(xí)訓(xùn)練的方法

    掌握這 17 種方法,最省力的方式,加速你的 Pytorch 深度學(xué)習(xí)訓(xùn)練。
    的頭像 發(fā)表于 10-28 14:05 ?652次閱讀
    Pytorch深度<b class='flag-5'>學(xué)習(xí)</b>訓(xùn)練的<b class='flag-5'>方法</b>

    谷歌AlphaChip強(qiáng)化學(xué)習(xí)工具發(fā)布,聯(lián)發(fā)科天璣芯片率先采用

    近日,谷歌在芯片設(shè)計(jì)領(lǐng)域取得了重要突破,詳細(xì)介紹了其用于芯片設(shè)計(jì)布局的強(qiáng)化學(xué)習(xí)方法,并將該模型命名為“AlphaChip”。據(jù)悉,AlphaChip有望顯著加速芯片布局規(guī)劃的設(shè)計(jì)流程,并幫助芯片在性能、功耗和面積方面實(shí)現(xiàn)更優(yōu)表現(xiàn)。
    的頭像 發(fā)表于 09-30 16:16 ?694次閱讀

    測(cè)徑儀:提升低合金高強(qiáng)度鋼軋制品質(zhì)的關(guān)鍵設(shè)備

    的正常運(yùn)行和檢測(cè)精度。 建立備件庫(kù)存管理制度,確保在設(shè)備出現(xiàn)故障時(shí)能夠及時(shí)更換損壞的部件,減少停機(jī)時(shí)間,提高生產(chǎn)效率。 結(jié)語(yǔ) 要想實(shí)現(xiàn)高品質(zhì)低合金高強(qiáng)度鋼軋制,需要從多個(gè)方面入手,包括采用高精度檢測(cè)設(shè)備
    發(fā)表于 09-26 16:50