chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解決量子神經(jīng)網(wǎng)絡(luò)消失梯度問(wèn)題 更好利用 NISQ 設(shè)備資源

Tensorflowers ? 來(lái)源: Andrea Skolik ? 作者: Andrea Skolik ? 2020-09-02 16:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

文 /大眾汽車公司和萊頓大學(xué)的 Andrea Skolik

3 月初,Google 與滑鐵盧大學(xué)和大眾汽車公司共同發(fā)布了 TensorFlow Quantum(TFQ)。TensorFlow Quantum 是一個(gè)量子機(jī)器學(xué)習(xí) (QML) 軟件框架,允許研究員聯(lián)合使用 Cirq 和 TensorFlow 的功能。Cirq 和 TFQ 都用于模擬噪聲中等規(guī)模量子 (NISQ) 的設(shè)備。這些設(shè)備當(dāng)前仍處于實(shí)驗(yàn)階段,因此未經(jīng)糾錯(cuò),還會(huì)受到噪聲輸出的影響。

本文介紹的訓(xùn)練策略可以解決量子神經(jīng)網(wǎng)絡(luò) (QNN) 中的消失梯度問(wèn)題,并更好地利用 NISQ 設(shè)備提供的資源。

量子神經(jīng)網(wǎng)絡(luò)

訓(xùn)練 QNN 與訓(xùn)練經(jīng)典神經(jīng)網(wǎng)絡(luò)沒(méi)有太大不同,區(qū)別僅在于優(yōu)化量子電路的參數(shù)而不是優(yōu)化網(wǎng)絡(luò)權(quán)重。量子電路的外形如下所示:

用于四個(gè)量子位分類任務(wù)的簡(jiǎn)化 QNN

電路從左到右讀取,每條水平線對(duì)應(yīng)量子計(jì)算機(jī)寄存器中的一個(gè)量子位,每個(gè)量子位都初始化為零狀態(tài)。方框表示對(duì)按順序執(zhí)行的量子位的參數(shù)化運(yùn)算(或“門”)。在這種情況下,我們有三種不同類型的運(yùn)算,X、Y 和 Z。垂直線表示兩個(gè)量子邏輯門,可用于在 QNN 中產(chǎn)生糾纏 - 一種使量子計(jì)算機(jī)勝過(guò)經(jīng)典計(jì)算機(jī)的資源。我們?cè)诿總€(gè)量子位上將一層表示為一個(gè)運(yùn)算,然后將一系列的門連接成對(duì)的量子位,產(chǎn)生糾纏。

上圖為用于學(xué)習(xí) MNIST 數(shù)字分類的簡(jiǎn)化 QNN。

首先,將數(shù)據(jù)集編碼為量子態(tài)。使用數(shù)據(jù)編碼層來(lái)完成這一操作,上圖中標(biāo)記為橙色。在這種情況下,我們將輸入數(shù)據(jù)轉(zhuǎn)換為向量,并將向量值用作數(shù)據(jù)編碼層運(yùn)算的參數(shù) d ?;诖溯斎雸?zhí)行電路中藍(lán)色標(biāo)記的部分,這一部分代表 QNN 的可訓(xùn)練門,用 p表示。

量子電路的最后一個(gè)運(yùn)算是測(cè)量。計(jì)算期間,量子設(shè)備對(duì)經(jīng)典位串的疊加執(zhí)行運(yùn)算。當(dāng)我們?cè)陔娐飞蠄?zhí)行讀出時(shí),疊加狀態(tài)坍縮為一個(gè)經(jīng)典位串,這就是最后的計(jì)算輸出。所謂的量子態(tài)坍縮是概率性的,要獲得確定性結(jié)果,我們需要對(duì)多個(gè)測(cè)量結(jié)果取平均值。

上圖中,綠色標(biāo)記的部分是第三個(gè)量子位上的測(cè)量,這些測(cè)量結(jié)果用于預(yù)測(cè) MNIST 樣本的標(biāo)簽。將其與真實(shí)數(shù)據(jù)標(biāo)簽對(duì)比,并像經(jīng)典神經(jīng)網(wǎng)絡(luò)一樣計(jì)算損失函數(shù)的梯度。由于參數(shù)優(yōu)化是經(jīng)典計(jì)算機(jī)使用 Adam 等優(yōu)化器處理,因此這些類型的 QNN 稱為“混合量子經(jīng)典算法”。

消失的梯度,又稱貧瘠高原

事實(shí)證明,QNN 與經(jīng)典神經(jīng)網(wǎng)絡(luò)一樣,也存在消失梯度的問(wèn)題。由于 QNN 中梯度消失的原因與經(jīng)典神經(jīng)網(wǎng)絡(luò)有著本質(zhì)的不同,因此采用了一個(gè)新術(shù)語(yǔ):貧瘠高原 (Barren Plateaus)。本文不探討這一重要現(xiàn)象的所有細(xì)節(jié),建議感興趣的讀者閱讀首次介紹 QNN 訓(xùn)練景觀 (Training Landscapes) 中貧瘠高原的文章。

簡(jiǎn)而言之,當(dāng)量子電路被隨機(jī)初始化,就會(huì)出現(xiàn)貧瘠高原 - 在上述電路中,這意味著隨機(jī)選擇運(yùn)算及其參數(shù)。這是訓(xùn)練參數(shù)化量子電路的一個(gè)重點(diǎn)問(wèn)題,并且會(huì)隨著量子位數(shù)量和電路中層數(shù)的增加而越發(fā)嚴(yán)重,如下圖所示。

梯度方差根據(jù)隨機(jī)電路中量子位和層數(shù)的變化而衰減

對(duì)于下面介紹的算法,關(guān)鍵在于電路中添加的層越多,梯度的方差就越小。另一方面,類似于經(jīng)典神經(jīng)網(wǎng)絡(luò),QNN 的表示能力也隨著深度的增加而增加。這里的問(wèn)題是,隨著電路尺寸的增加,優(yōu)化景觀在很多位置都會(huì)趨于平坦,以至于難以找到局部最小值。

注意,對(duì)于 QNN,輸出通過(guò)多次測(cè)量的平均值進(jìn)行估算。想要估算的量越小,獲得準(zhǔn)確結(jié)果所需的測(cè)量就越多。如果這些量與測(cè)量不確定性或硬件噪聲造成的影響相比要小得多,這些量就無(wú)法可靠確定,電路優(yōu)化基本上會(huì)變成隨機(jī)游走。

為了成功訓(xùn)練 QNN,必須避免參數(shù)的隨機(jī)初始化,同時(shí)也要阻止 QNN 在訓(xùn)練過(guò)程中由于梯度變小而隨機(jī)化,例如在接近局部最小值的時(shí)候。為此,我們可以限制 QNN 的架構(gòu)(例如,通過(guò)選擇某些門配置,這需要根據(jù)當(dāng)前任務(wù)調(diào)整架構(gòu)),或控制參數(shù)的更新,使其不會(huì)變得隨機(jī)。

分層學(xué)習(xí)

在我們與 Volkswagen Data:Lab(Andrea Skolik、Patrick van der Smagt、Martin Leib)和 Google AI Quantum(Jarrod R. McClean、Masoud Mohseni)網(wǎng)絡(luò)聯(lián)合發(fā)表的論文 Layerwise learning for quantum neural networks 中,我們介紹了一種避免初始化在高原上并避免網(wǎng)絡(luò)在訓(xùn)練過(guò)程中在高原上結(jié)束的方法。接下來(lái)是一個(gè)關(guān)于 MNIST 數(shù)字二進(jìn)制分類學(xué)習(xí)任務(wù)的分層學(xué)習(xí) (Layerwise Learning) 示例。首先,我們需要定義待堆疊的層的結(jié)構(gòu)。當(dāng)前的學(xué)習(xí)任務(wù)未經(jīng)任何假設(shè),因此各層選擇的布局與上圖相同:一層由每個(gè)初始化為零的量子位上的隨機(jī)門和兩個(gè)量子邏輯門組成,兩個(gè)量子邏輯門連接量子位以實(shí)現(xiàn)糾纏。

我們指定了若干個(gè)起始層,在本例中只有一個(gè),將在訓(xùn)練過(guò)程中始終保持活躍狀態(tài),并指定訓(xùn)練每組層的周期數(shù)。另外兩個(gè)超參數(shù)是每個(gè)步驟中添加的新層數(shù),以及一次被最大訓(xùn)練的層數(shù)。在這里選擇一種配置,其中每個(gè)步驟中添加兩個(gè)層,并凍結(jié)除起始層之外的所有先前層的參數(shù),以在每個(gè)步驟中僅訓(xùn)練三個(gè)層。將每組層訓(xùn)練 10 個(gè)周期,然后重復(fù)此過(guò)程十次,直到電路總共由 21 層組成。這里的事實(shí)依據(jù)是淺層電路會(huì)比深層電路產(chǎn)生更大梯度,由此避免了高原上的初始化。

這提供了一個(gè)優(yōu)化過(guò)程的良好起點(diǎn),可以繼續(xù)訓(xùn)練更大的連續(xù)層集。對(duì)另一個(gè)超參數(shù),我們定義了算法第二階段一起訓(xùn)練的層的百分比。在此將電路分成兩半,交替訓(xùn)練兩個(gè)部分,其中不活動(dòng)部分的參數(shù)始終凍結(jié)。一個(gè)所有分區(qū)都訓(xùn)練過(guò)一次的訓(xùn)練序列稱為掃描,對(duì)這個(gè)電路執(zhí)行掃描,直到損失收斂。當(dāng)完整參數(shù)集始終完成訓(xùn)練時(shí),我們將這種情況稱為“完全深度學(xué)習(xí)”(Complete Depth Learning),一個(gè)欠佳的更新步驟會(huì)影響整個(gè)電路并將其引入隨機(jī)配置,導(dǎo)致無(wú)從逃脫的貧瘠高原。

接下來(lái)將我們的訓(xùn)練策略與訓(xùn)練 QNN 的標(biāo)準(zhǔn)技術(shù) CDL 進(jìn)行比較。為了得到公平的結(jié)果,我們使用與先前 LL 策略生成的電路架構(gòu)完全相同的電路架構(gòu),但現(xiàn)在在每一步中同時(shí)更新所有參數(shù)。為了給 CDL 提供訓(xùn)練的機(jī)會(huì),參數(shù)將優(yōu)化為零,而不是隨機(jī)優(yōu)化。由于無(wú)法使用真正的量子計(jì)算機(jī),因此我們模擬 QNN 的概率輸出,并選擇一個(gè)相對(duì)較低的值來(lái)估計(jì) QNN 每次預(yù)測(cè)的測(cè)量次數(shù)——此例中為 10。假設(shè)真正的量子計(jì)算機(jī)上的采樣率為 10kHZ,我們可以估算出訓(xùn)練運(yùn)行的實(shí)驗(yàn)性掛鐘時(shí)間,如下所示:

不同學(xué)習(xí)率 η 的分層深度學(xué)習(xí)和完全深度學(xué)習(xí)的比較。每種配置訓(xùn)練了 100 個(gè)電路,并對(duì)最終測(cè)試誤差低于 0.5(圖例中成功運(yùn)行的次數(shù))的電路取平均值

通過(guò)少量的測(cè)量,可以研究 LL 和 CDL 方法不同梯度幅度的影響:如果梯度值較大,則與較小值相比,10 次測(cè)量可以提供更多信息。執(zhí)行參數(shù)更新的信息越少,損失的方差就越大,執(zhí)行錯(cuò)誤更新的風(fēng)險(xiǎn)也就越大,這將使更新的參數(shù)隨機(jī)化,并導(dǎo)致 QNN 進(jìn)入高原。這一方差可以通過(guò)更小的學(xué)習(xí)率降低,因此上圖比較了學(xué)習(xí)率不同的 LL 和 CDL 策略。

值得注意的是,CDL 運(yùn)行的測(cè)試誤差會(huì)隨運(yùn)行時(shí)間的增加而增加,最初看起來(lái)像是過(guò)擬合。然而,這張圖中的每條曲線都是多次運(yùn)行的平均值,實(shí)際情況是,越來(lái)越多的 CDL 運(yùn)行在訓(xùn)練過(guò)程中隨機(jī)化,無(wú)法恢復(fù)。如圖例所示,與 CDL 相比,LL 運(yùn)行中有更大一部分在測(cè)試集上實(shí)現(xiàn)了小于 0.5 的分類誤差,所用時(shí)間也更少。

綜上所述,分層學(xué)習(xí)提高了在更少訓(xùn)練時(shí)間內(nèi)成功訓(xùn)練 QNN 的概率,總體上具有更好的泛化誤差,這在 NISQ 設(shè)備上尤其實(shí)用。
原文標(biāo)題:介紹量子神經(jīng)網(wǎng)絡(luò)訓(xùn)練策略,解決消失梯度問(wèn)題

文章出處:【微信公眾號(hào):TensorFlow】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:介紹量子神經(jīng)網(wǎng)絡(luò)訓(xùn)練策略,解決消失梯度問(wèn)題

文章出處:【微信號(hào):tensorflowers,微信公眾號(hào):Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的比較

    BP神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)在多個(gè)方面存在顯著差異,以下是對(duì)兩者的比較: 一、結(jié)構(gòu)特點(diǎn) BP神經(jīng)網(wǎng)絡(luò) : BP神經(jīng)網(wǎng)絡(luò)是一種多層的前饋神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 02-12 15:53 ?665次閱讀

    如何優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率

    訓(xùn)練過(guò)程中發(fā)生震蕩,甚至無(wú)法收斂到最優(yōu)解;而過(guò)小的學(xué)習(xí)率則會(huì)使模型收斂速度緩慢,容易陷入局部最優(yōu)解。因此,正確設(shè)置和調(diào)整學(xué)習(xí)率對(duì)于訓(xùn)練高效、準(zhǔn)確的神經(jīng)網(wǎng)絡(luò)模型至關(guān)重要。 二、學(xué)習(xí)率優(yōu)化算法 梯度下降法及其變種 : 標(biāo)準(zhǔn)梯
    的頭像 發(fā)表于 02-12 15:51 ?938次閱讀

    什么是BP神經(jīng)網(wǎng)絡(luò)的反向傳播算法

    神經(jīng)網(wǎng)絡(luò)(即反向傳播神經(jīng)網(wǎng)絡(luò))的核心,它建立在梯度下降法的基礎(chǔ)上,是一種適合于多層神經(jīng)元網(wǎng)絡(luò)的學(xué)習(xí)算法。該算法通過(guò)計(jì)算每層網(wǎng)絡(luò)的誤差,并將這
    的頭像 發(fā)表于 02-12 15:18 ?766次閱讀

    人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法

    在上一篇文章中,我們介紹了傳統(tǒng)機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)和多種算法。在本文中,我們會(huì)介紹人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法,供各位老師選擇。 01 人工神經(jīng)網(wǎng)絡(luò) ? 人工神經(jīng)網(wǎng)絡(luò)模型之所
    的頭像 發(fā)表于 01-09 10:24 ?1188次閱讀
    人工<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的原理和多種<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>架構(gòu)方法

    卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的比較

    在深度學(xué)習(xí)領(lǐng)域,神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于各種任務(wù),如圖像識(shí)別、自然語(yǔ)言處理和游戲智能等。其中,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)是兩種常見(jiàn)的模型。 1. 結(jié)構(gòu)差異 1.1 傳統(tǒng)神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 11-15 14:53 ?1869次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)的常見(jiàn)調(diào)參技巧

    循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,簡(jiǎn)稱RNN)是一種用于處理序列數(shù)據(jù)的深度學(xué)習(xí)模型,它能夠捕捉時(shí)間序列中的動(dòng)態(tài)特征。然而,RNN的訓(xùn)練往往比傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)更具
    的頭像 發(fā)表于 11-15 10:13 ?744次閱讀

    訓(xùn)練RNN時(shí)如何避免梯度消失

    在處理長(zhǎng)序列數(shù)據(jù)時(shí),RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))模型可能會(huì)面臨梯度消失的問(wèn)題,這是由于反向傳播過(guò)程中,由于連續(xù)的乘法操作,梯度會(huì)指數(shù)級(jí)地衰減,導(dǎo)致較早的時(shí)間步的輸入對(duì)較后時(shí)間步的
    的頭像 發(fā)表于 11-15 10:01 ?1025次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)的優(yōu)化技巧

    循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,簡(jiǎn)稱RNN)是一種用于處理序列數(shù)據(jù)的深度學(xué)習(xí)模型,它能夠捕捉時(shí)間序列中的動(dòng)態(tài)特征。然而,RNN在訓(xùn)練過(guò)程中可能會(huì)遇到梯度消失
    的頭像 發(fā)表于 11-15 09:51 ?764次閱讀

    RNN模型與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的區(qū)別

    神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)領(lǐng)域中的一種強(qiáng)大工具,它們能夠模擬人腦處理信息的方式。隨著技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡(luò)的類型也在不斷增加,其中循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(如前饋
    的頭像 發(fā)表于 11-15 09:42 ?1125次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)與其他機(jī)器學(xué)習(xí)算法的比較

    神經(jīng)網(wǎng)絡(luò) 原理 LSTM是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),能夠?qū)W習(xí)長(zhǎng)期依賴信息。它通過(guò)引入門控機(jī)制(輸入門、遺忘門、輸出門)來(lái)控制信息的流動(dòng),從而解決了傳統(tǒng)RNN在處理長(zhǎng)序列數(shù)據(jù)時(shí)的梯度消失
    的頭像 發(fā)表于 11-13 10:17 ?2143次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)在圖像處理中的應(yīng)用

    長(zhǎng)短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),它能夠?qū)W習(xí)長(zhǎng)期依賴關(guān)系。雖然LSTM最初是為處理序列數(shù)據(jù)設(shè)計(jì)的,但近年來(lái),它在圖像處理領(lǐng)域也展現(xiàn)出了巨大的潛力。 LSTM基本原理
    的頭像 發(fā)表于 11-13 10:12 ?1618次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)的調(diào)參技巧

    長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),它能夠?qū)W習(xí)長(zhǎng)期依賴信息。在實(shí)際應(yīng)用中,LSTM網(wǎng)絡(luò)的調(diào)參是一個(gè)復(fù)雜且關(guān)鍵的過(guò)程,直接影響
    的頭像 發(fā)表于 11-13 10:01 ?1859次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)RNN的區(qū)別

    在深度學(xué)習(xí)領(lǐng)域,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)因其能夠處理序列數(shù)據(jù)而受到廣泛關(guān)注。然而,傳統(tǒng)RNN在處理長(zhǎng)序列時(shí)存在梯度消失梯度爆炸的問(wèn)題。為了解決這一問(wèn)題,LSTM(長(zhǎng)短期記憶)
    的頭像 發(fā)表于 11-13 09:58 ?1213次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)在時(shí)間序列預(yù)測(cè)中的應(yīng)用

    LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),它能夠?qū)W習(xí)長(zhǎng)期依賴關(guān)系。與傳統(tǒng)的RNN相比,LSTM通過(guò)引入門控機(jī)制(輸入門、遺忘門、輸出門)來(lái)解決梯度消失梯度爆炸的問(wèn)題,使其能夠處理
    的頭像 發(fā)表于 11-13 09:54 ?2049次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)的基本原理 如何實(shí)現(xiàn)LSTM神經(jīng)網(wǎng)絡(luò)

    廣泛應(yīng)用。 LSTM神經(jīng)網(wǎng)絡(luò)的基本原理 1. 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的局限性 傳統(tǒng)的RNN在處理長(zhǎng)序列數(shù)據(jù)時(shí)會(huì)遇到梯度消失梯度爆炸的問(wèn)題,
    的頭像 發(fā)表于 11-13 09:53 ?1583次閱讀