chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

無(wú)殘差連接或歸一化層,也能成功訓(xùn)練深度transformer

CVer ? 來(lái)源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-12-12 11:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

首次!無(wú)殘差連接或歸一化層,也能成功訓(xùn)練深度transformer。

盡管取得了很多顯著的成就,但訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)(DNN)的實(shí)踐進(jìn)展在很大程度上獨(dú)立于理論依據(jù)。大多數(shù)成功的現(xiàn)代 DNN 依賴殘差連接和歸一化層的特定排列,但如何在新架構(gòu)中使用這些組件的一般原則仍然未知,并且它們?cè)诂F(xiàn)有架構(gòu)中的作用也依然未能完全搞清楚。

殘差架構(gòu)是最流行和成功的,最初是在卷積神經(jīng)網(wǎng)絡(luò)(CNN)的背景下開(kāi)發(fā)的,后來(lái)自注意力網(wǎng)絡(luò)中產(chǎn)生了無(wú)處不在的 transformer 架構(gòu)。殘差架構(gòu)之所以取得成功,一種原因是與普通 DNN 相比具有更好的信號(hào)傳播能力,其中信號(hào)傳播指的是幾何信息通過(guò) DNN 層的傳輸,并由內(nèi)核函數(shù)表示。

最近,使用信號(hào)傳播原則來(lái)訓(xùn)練更深度的 DNN 并且殘差架構(gòu)中沒(méi)有殘差連接和 / 或歸一化層的參與,成為了社區(qū)感興趣的領(lǐng)域。原因有兩個(gè):首先驗(yàn)證了殘差架構(gòu)有效性的信號(hào)傳播假設(shè),從而闡明對(duì) DNN 可解釋性的理解;其次這可能會(huì)實(shí)現(xiàn)超越殘差范式的 DNN 可訓(xùn)練性的一般原則和方法。

對(duì)于 CNN,Xiao et al. (2018)的工作表明,通過(guò)更好初始化提升的信號(hào)傳播能夠高效地訓(xùn)練普通深度網(wǎng)絡(luò),盡管與殘差網(wǎng)絡(luò)比速度顯著降低。Martens et al. (2021) 的工作提出了 Deep Kernel Shaping (DKS),使用激活函數(shù)轉(zhuǎn)換來(lái)控制信號(hào)傳播,使用 K-FAC 等強(qiáng)二階優(yōu)化器在 ImageNet 上實(shí)現(xiàn)了普通網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)的訓(xùn)練速度相等。Zhang et al. (2022) 的工作將 DKS 擴(kuò)展到了更大類的激活函數(shù),在泛化方面也實(shí)現(xiàn)了接近相等。

信號(hào)傳播中需要分析的關(guān)鍵量是 DNN 的初始化時(shí)間內(nèi)核,或者更準(zhǔn)確地說(shuō),是無(wú)限寬度限制下的近似內(nèi)核。對(duì)于多層感知機(jī)(MLP)以及使用 Delta 初始化的 CNN,該內(nèi)核可以編寫為僅包含 2D 函數(shù)的簡(jiǎn)單層遞歸,以便于進(jìn)行直接分析??鐚?transformer 的內(nèi)核演化更加復(fù)雜,因此 DKS 等現(xiàn)有方法不適用 transformer 或?qū)嶋H上任何包含自注意力層的架構(gòu)。

在 MLP 中,信號(hào)傳播是通過(guò)查看(一維)內(nèi)核的行為來(lái)判斷的,而 transformer 中的信號(hào)傳播可以通過(guò)查看(高維)內(nèi)核矩陣在網(wǎng)絡(luò)層中的演化來(lái)判斷。

該研究必須避免一種情況:對(duì)角線元素隨深度增加快速增長(zhǎng)或收縮,這與不受控制的激活范數(shù)有關(guān),可能導(dǎo)致飽和損失或數(shù)值問(wèn)題。避免秩崩潰(rank collapse)對(duì)于深度 transformer 的可訓(xùn)練性是必要的,而是否可以訓(xùn)練深度無(wú)殘差 transformer 仍是一個(gè)懸而未決的問(wèn)題。

ICLR 2023 盲審階段的這篇論文解決了這個(gè)問(wèn)題,首次證明了無(wú)需殘差連接或歸一化層時(shí)也可能成功訓(xùn)練深度 transformer。為此,他們研究了深度無(wú)殘差 transformer 中的信號(hào)傳播和秩崩潰問(wèn)題,并推導(dǎo)出三種方法來(lái)阻止它們。具體而言,方法中使用了以下組合:參數(shù)初始化、偏置矩陣和位置相關(guān)的重縮放,并強(qiáng)調(diào)了 transformer 中信號(hào)傳播特有的幾種復(fù)雜性,包括與位置編碼和因果掩蔽的交互。研究者實(shí)證證明了他們的方法可以生成可訓(xùn)練的深度無(wú)殘差 transformer。

在實(shí)驗(yàn)部分,在 WikiText-103 和 C4 數(shù)據(jù)集上,研究者展示了使用他們主要的方法——指數(shù)信號(hào)保持注意力(Exponential Signal Preserving Attention, E-SPA),可以通過(guò)延長(zhǎng)大約五倍的訓(xùn)練時(shí)間使得標(biāo)準(zhǔn) transformer 與文中無(wú)殘差 transformer 的訓(xùn)練損失相當(dāng)。此外通過(guò)將這一方法與殘差連接結(jié)合,研究者還表明無(wú)歸一化層的 transformer 能夠?qū)崿F(xiàn)與標(biāo)準(zhǔn) transformer 相當(dāng)?shù)挠?xùn)練速度。

e0e3e806-7989-11ed-8abf-dac502259ad0.png

論文地址:https://openreview.net/pdf?id=NPrsUQgMjKK

對(duì)于這篇論文,Google AI 首席工程師 Rohan Anil 認(rèn)為是 Transformer 架構(gòu)向前邁出的一大步,還是一個(gè)基礎(chǔ)性的改進(jìn)。

e0ebbaa4-7989-11ed-8abf-dac502259ad0.jpg

構(gòu)造無(wú)捷徑可訓(xùn)練的深層 Transformer

迄今為止,糾正 Transformer 秩崩潰(rank collapse)的唯一策略依賴于殘差連接,該方式跳過(guò)了自注意力層固有的可訓(xùn)練性問(wèn)題。與此相反,該研究直接解決這個(gè)問(wèn)題。首先通過(guò)注意力層更好地理解信號(hào)傳播,然后根據(jù)見(jiàn)解(insights)進(jìn)行修改,以在深度 transformer 中實(shí)現(xiàn)對(duì)忠實(shí)信號(hào)的傳輸,無(wú)論是否使用殘差連接,都可以對(duì)信號(hào)進(jìn)行訓(xùn)練。

具體而言,首先,該研究對(duì)僅存在注意力的深度 vanilla transformer 進(jìn)行了一下簡(jiǎn)單設(shè)置,之后他們假設(shè)該 transformer 具有單一頭(h = 1)設(shè)置或具有多頭設(shè)置,其中注意力矩陣 A 在不同頭之間不會(huì)變化。如果塊 l≤L 初始化時(shí)有注意力矩陣 A_l,則最終塊的表示形式為 X_L:

e0f425ea-7989-11ed-8abf-dac502259ad0.png

對(duì)于上式而言,如果e0fb45c8-7989-11ed-8abf-dac502259ad0.pnge1088a3a-7989-11ed-8abf-dac502259ad0.png采用正交初始化,那么e113b00e-7989-11ed-8abf-dac502259ad0.png就可以在初始化時(shí)正交。

在上述假設(shè)下,如果采用e11a3e4c-7989-11ed-8abf-dac502259ad0.png表示跨位置輸入核矩陣,經(jīng)過(guò)一些簡(jiǎn)化處理后,可以得到如下公式:

e120a7a0-7989-11ed-8abf-dac502259ad0.png

從這個(gè)簡(jiǎn)化公式(深度僅注意力 transformer 中的核矩陣)中,可以確定對(duì) (A_l)_l 的三個(gè)要求:

e127bdba-7989-11ed-8abf-dac502259ad0.png

必須在每個(gè)塊中表現(xiàn)良好,避免退化情況,如秩崩潰和爆炸 / 消失的對(duì)角線值;

A_l 必須是元素非負(fù) ?l;

A_l 應(yīng)該是下三角?l,以便與因果掩碼注意力兼容。

在接下來(lái)的 3.1 和 3.2 節(jié)中,該研究專注于尋找滿足上述需求的注意力矩陣,他們提出了 3 種方法 E-SPA、U-SPA 和 Value-Skipinit,每種方法都用來(lái)控制 transformer 的注意力矩陣,即使在很深的深度也能實(shí)現(xiàn)忠實(shí)的信號(hào)傳播。此外,3.3 節(jié)演示了如何修改 softmax 注意力以實(shí)現(xiàn)這些注意力矩陣。

下圖中,該研究對(duì)提出的兩個(gè) SPA 方案進(jìn)行了驗(yàn)證,U-SPA 和 E-SPA,結(jié)果顯示即使在網(wǎng)絡(luò)較深時(shí)也能成功地避免僅注意力 vanilla transformers 中的秩崩潰現(xiàn)象。

e12eaf44-7989-11ed-8abf-dac502259ad0.png

實(shí)驗(yàn)

WikiText-103 基線:首先,該研究驗(yàn)證了沒(méi)有殘差連接的標(biāo)準(zhǔn)深度 transformer 是不可訓(xùn)練的,即使它們有歸一化層 (LN) 和 transformed 激活,但本文的方法可以解決這個(gè)問(wèn)題。如圖 2 所示,可以清楚地看到,從標(biāo)準(zhǔn) transformer 中移除殘差連接使其不可訓(xùn)練,訓(xùn)練損失穩(wěn)定在 7.5 左右。正如圖 1 所示,標(biāo)準(zhǔn) transformer 遭受了秩崩潰。

e13c5f5e-7989-11ed-8abf-dac502259ad0.png

另一方面,該研究提出的 E-SPA 方法優(yōu)于 U-SPA 和 Value-Skipinit。然而,與本文無(wú)殘差方法相比,帶有殘差和 LN 的默認(rèn) transformer 仍然保持訓(xùn)練速度優(yōu)勢(shì)。

在表 1 中,該研究使用提出的方法評(píng)估了 MLP 塊中不同激活函數(shù)的影響,以及 LN 在無(wú)殘差 transformer 的使用。可以看到在深度為 36 處,本文方法針對(duì)一系列激活實(shí)現(xiàn)了良好的訓(xùn)練性能:DKS-transformed GeLU、TAT-transformed Leaky ReLU 以及 untransformed GeLU ,但不是 untransformed Sigmoid。通過(guò)實(shí)驗(yàn)還看到,層歸一化對(duì)于訓(xùn)練速度而言相對(duì)不重要,甚至在使用 SPA 時(shí)對(duì) transformed activation 的激活有害,因?yàn)?SPA 已經(jīng)具有控制激活規(guī)范的內(nèi)置機(jī)制。

e1495182-7989-11ed-8abf-dac502259ad0.png

在圖 3 中,我們看到一種不需要更多迭代就能匹配默認(rèn) transformer 訓(xùn)練損失的方法是使用歸一化殘差連接。

e1523fc2-7989-11ed-8abf-dac502259ad0.png

表 2 顯示帶有歸一化殘差和 LN 的 E-SPA 優(yōu)于默認(rèn)的 PreLN transformer。

e15c70b4-7989-11ed-8abf-dac502259ad0.png

下圖 4(a)表明 E-SPA 再次優(yōu)于其他方法;4(b)表明訓(xùn)練損失差距可以通過(guò)簡(jiǎn)單地增加訓(xùn)練時(shí)間來(lái)消除。

e1660f48-7989-11ed-8abf-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4832

    瀏覽量

    107368
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    155

    瀏覽量

    6881
  • dnn
    dnn
    +關(guān)注

    關(guān)注

    0

    文章

    61

    瀏覽量

    9478

原文標(biāo)題:ICLR盲審階段被審稿人贊不絕口的論文:會(huì)是Transformer架構(gòu)的一大創(chuàng)新嗎?

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【團(tuán)購(gòu)】獨(dú)家全套珍藏!龍哥LabVIEW視覺(jué)深度學(xué)習(xí)實(shí)戰(zhàn)課(11大系列課程,共5000+分鐘)

    直是行業(yè)痛點(diǎn)。課程提供獨(dú)家開(kāi)發(fā)的labview調(diào)用框架,實(shí)現(xiàn)從模型訓(xùn)練(Python)到部署(LabVIEW)的無(wú)縫銜接,已成功應(yīng)用于DIP、AOI、鋰電池產(chǎn)線的視覺(jué)檢測(cè)工位。 二、職業(yè)發(fā)展: 目前
    發(fā)表于 12-04 09:28

    【團(tuán)購(gòu)】獨(dú)家全套珍藏!龍哥LabVIEW視覺(jué)深度學(xué)習(xí)實(shí)戰(zhàn)課程(11大系列課程,共5000+分鐘)

    直是行業(yè)痛點(diǎn)。課程提供獨(dú)家開(kāi)發(fā)的labview調(diào)用框架,實(shí)現(xiàn)從模型訓(xùn)練(Python)到部署(LabVIEW)的無(wú)縫銜接,已成功應(yīng)用于DIP、AOI、鋰電池產(chǎn)線的視覺(jué)檢測(cè)工位。 二、職業(yè)發(fā)展: 目前
    發(fā)表于 12-03 13:50

    構(gòu)建CNN網(wǎng)絡(luò)模型并優(yōu)化的一般化建議

    的尺寸不宜過(guò)大,3*3或者1*1等小尺寸的卷積核(濾波器)對(duì)于實(shí)現(xiàn)輕量級(jí)模型是十分必要的。 3)添加歸一化和驗(yàn)證檢查點(diǎn):歸一化可以調(diào)整模型的概率分布得到標(biāo)準(zhǔn)化分布,從而提升迭代和
    發(fā)表于 10-28 08:02

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的些經(jīng)驗(yàn)

    , batch_size=512, epochs=20)總結(jié) 這個(gè)核心算法中的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練過(guò)程,是用來(lái)對(duì)MNIST手寫數(shù)字圖像進(jìn)行分類的。模型將圖像作為輸入,通過(guò)卷積和池提取圖像的特征,然后通過(guò)全
    發(fā)表于 10-22 07:03

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    、Transformer 模型的后繼者 二、用創(chuàng)新方法實(shí)現(xiàn)深度學(xué)習(xí)AI芯片 1、基于開(kāi)源RISC-V的AI加速器 RISC-V是種開(kāi)源、模塊的指令集架構(gòu)(ISA)。優(yōu)勢(shì)如下: ①模
    發(fā)表于 09-12 17:30

    基于瑞芯微RK3576的resnet50訓(xùn)練部署教程

    堆疊得到的,但當(dāng)網(wǎng)絡(luò)堆疊到深度時(shí),就會(huì)出現(xiàn)退化問(wèn)題。網(wǎng)絡(luò)的特點(diǎn)是容易優(yōu)化,并且能夠通過(guò)增加相當(dāng)?shù)?b class='flag-5'>深度來(lái)提高準(zhǔn)確率。其內(nèi)部的
    的頭像 發(fā)表于 09-10 11:19 ?1239次閱讀
    基于瑞芯微RK3576的resnet50<b class='flag-5'>訓(xùn)練</b>部署教程

    TFT液晶顯示屏為什么會(huì)顯示影、如何解決

    TFT液晶屏(Thin-Film Transistor Liquid Crystal Display)顯示影(稱為圖像殘留)是個(gè)涉及物理和電子原理的現(xiàn)象。 、為什么工業(yè)TFT液
    發(fā)表于 09-08 09:04

    自動(dòng)駕駛中Transformer大模型會(huì)取代深度學(xué)習(xí)嗎?

    [首發(fā)于智駕最前沿微信公眾號(hào)]近年來(lái),隨著ChatGPT、Claude、文心言等大語(yǔ)言模型在生成文本、對(duì)話交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學(xué)習(xí)”這
    的頭像 發(fā)表于 08-13 09:15 ?4071次閱讀
    自動(dòng)駕駛中<b class='flag-5'>Transformer</b>大模型會(huì)取代<b class='flag-5'>深度</b>學(xué)習(xí)嗎?

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】第三章:探索 DeepSeek - V3 技術(shù)架構(gòu)的奧秘

    深度,讓我明白追求極致性能需要在諸多矛盾中找到精妙的平衡點(diǎn)。 四、Transformer 中的 MoE Transformer 中的 MoE 部分,呈現(xiàn)了模塊創(chuàng)新帶來(lái)的機(jī)遇與困境。
    發(fā)表于 07-20 15:07

    NVMe高速傳輸之?dāng)[脫XDMA設(shè)計(jì)之七:系統(tǒng)初始

    直接采用PCIe實(shí)現(xiàn)NVMe功能,它的系統(tǒng)初始流程主要分為鏈路訓(xùn)練、PCIe 初始和 NVMe 初始, 分別實(shí)現(xiàn) PCIe鏈路連接、
    發(fā)表于 07-04 09:14

    Transformer架構(gòu)中解碼器的工作流程

    解碼器的作用主要是制作文本序列。與編碼器類似,解碼器配備了組類似的子。它具有兩個(gè)Multi-Head attention,個(gè)點(diǎn)前饋
    的頭像 發(fā)表于 06-10 14:32 ?1139次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)中解碼器的工作流程

    為什么屏蔽要“單端接地”

    的電容耦合部分衰減,但無(wú)法形成閉合的低阻抗路徑,屏蔽效果遠(yuǎn)弱于接地狀態(tài)。 可能成為“天線” : 未接地的屏蔽可能因長(zhǎng)度和頻率形成諧振結(jié)構(gòu),像天線樣接收輻射電磁波,反而放大干
    發(fā)表于 04-10 14:55

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功怎么處理?

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功咋辦,試了好幾個(gè)模型壓縮了不行,ram占用過(guò)大,有無(wú)解決方案?
    發(fā)表于 03-11 07:18

    歸一化在電機(jī)控制中究竟有什么用?(可下載)

    大家好,今天我們來(lái)了解歸一化在電機(jī)控制中的作用,那么首先我們需要先了解下歸 的概念,這樣才能更好的了解電機(jī)控制中為什么會(huì)經(jīng)常用到
    發(fā)表于 02-28 14:14 ?1次下載

    BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系

    ),是種多層前饋神經(jīng)網(wǎng)絡(luò),它通過(guò)反向傳播算法進(jìn)行訓(xùn)練。BP神經(jīng)網(wǎng)絡(luò)由輸入、個(gè)多個(gè)隱藏
    的頭像 發(fā)表于 02-12 15:15 ?1631次閱讀