chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

深度學習:transformers的近期工作成果綜述

恬靜簡樸1 ? 來源:恬靜簡樸1 ? 作者:恬靜簡樸1 ? 2022-10-19 10:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

transformers的近期工作成果綜述

基于 transformer 的雙向編碼器表示(BERT)和微軟的圖靈自然語言生成(T-NLG)等模型已經(jīng)在機器學習世界中廣泛的用于自然語言處理(NLP)任務,如機器翻譯、文本摘要、問題回答、蛋白質(zhì)折疊預測,甚至圖像處理任務。

在本文中,對基于transformer 的工作成果做了一個簡單的總結,將最新的transformer 研究成果(特別是在2021年和2022年發(fā)表的研究成果)進行詳細的調(diào)研。

這張圖與一篇調(diào)查論文[Tay 2022]中的圖相似,但被調(diào)transformers會更新并且它們的整體分類也有很大的不同。

poYBAGNPWyeAM2fwAAFk3sRxWGg654.jpg

如圖所示,主要類別包括計算復雜度、魯棒性、隱私性、近似性和模型壓縮等等。本文文字和專業(yè)術語較多,并且均翻譯自論文原文,如有錯誤(很可能)請諒解。

計算復雜度

一些研究方向是以各種方式解決transformer的O(N2)計算復雜度。transformer的關鍵問題之一是它與輸入序列長度相關的二次復雜度。這意味著我們必須為每一層和注意頭計算N*N個注意矩陣。人們嘗試了各種方法來降低這種O(N2)復雜度,包括使用緩存體系結構。

Sparse transformer是解決這種復雜性的流行方法之一。每個輸出位置從輸入位置的一個子集計算權重。如果子集是√(N),那么transformer的復雜度降低到O(N *√(N)),并允許它處理更大范圍的依賴關系。

Longformer使用了帶窗口的局部注意力(對于窗口大小為w的窗口,每個令牌會注意到兩邊的w/2個令牌,而不是整個輸入)并且使用特殊令牌的任務驅(qū)動的全局注意力進行組合。

另一項被稱為BigBird [Manzil 2020]的工作使用了圖稀疏化技術。它使用一種稱為Watts-Strogatz圖的特殊圖,它近似于一個完整的圖可以實現(xiàn)輸入序列的線性復雜度。作者表明在標準精度假設下,BigBird是圖靈完備的。他們還評估BigBird在遠距離依賴的任務上的表現(xiàn),特別是在提取基因組序列(如DNA)和預測結果染色質(zhì)譜方面

Linformer使用線性投影和低秩因子分解的組合逼近點積注意運算[Wang2020]。

上面許多基于稀疏矩陣操作的transformer可能需要稀疏矩陣乘法操作,這種方式并不是在所有體系結構上都可用。他們也傾向于堆疊更多的注意力層來彌補稀疏性,從而導致總體上的算力的增加。對于某些操作,如softmax操作也可能不容易;還有多項式probit運算也不容易稀疏化。

谷歌提出了一個廣義注意框架Performer,可以根據(jù)不同的相似性度量或內(nèi)核來指定廣泛的注意力機制。他們通過積極的正交隨機特征(Favor+)算法來實現(xiàn)注意力的機制。他們還表明可以通過指數(shù)函數(shù)和隨機高斯投影的組合來近似普通的softmax注意。Performer在蛋白質(zhì)序列預測任務等方面優(yōu)于標準模型。

Wang等[Wang 2021]提出了一種用于無卷積的密集預測的金字塔視覺transformer(PVT)。這一問題克服了基于VIT的模型在將密集的預測任務時遇到了困難,PVT有助于各種像素級密度預測,并且不需要卷積和非最大抑制,如目標檢測方法。采用漸進式收縮金字塔和空間減少注意力可以很容易地連接transformer。最后在圖像分類、目標檢測、實例和語義分割等任務中PVT也是可用的。

Liu等人[Liu 2021]討論了transformer從語言領域到視覺領域的適應問題,方法包括大量視覺實體的差異和與文本中的文字相比的圖像的高分辨率像素差異。為了解決這個問題,作者提出了Swin Transformer [Lui 2021],這是一種分層方法,其表示是使用移位窗口計算。該技術更有效地克服了自注意力局部窗口不重疊的問題。

Chu等人[Chu 2021]討論了空間注意對于transformer在各種任務中的性能成功的重要性。作者提出了兩個簡單而高效的體系結構:twin - pcpvt和twin - svt。twin -pcpvt使用可分離的深度卷積注意機(depth-wise convolution attention machine),又被稱為空間分離自注意力(spatial-separable self-attention - SSSA)。SSSA使用兩種類型的注意力操作:本地分組的自注意力(LSA)和全局次采樣的注意力(GSA)。LSA處理細粒度和短距離信息,而GSA則處理長距離序列和全局信息。另一個方法twin - svt同時使用LSA和帶有矩陣乘法的GSA。

光譜的復雜性

通過將自注意網(wǎng)絡替換為混合輸入令牌的線性轉(zhuǎn)換,可以設計高效的transformer來加速編碼器架構。transformer的自注意層被參數(shù)化的傅里葉變換(Fnet)取代[Lee-Thorp 2022],然后是一個非線性和前饋網(wǎng)絡。與BERT相比,該網(wǎng)絡速度快80%,可以達到傳統(tǒng)transformer性能的92%到97%。

The Global Frequency network(GFnet) [Rao 2022]提出了一種用于令牌混合的深度全局卷積。GFnet涉及三個步驟:通過快速傅里葉變換(FFT)進行空間令牌混合、頻率門控和反FFT進行令牌分解。GFnet不涉及信道混合,隨著序列長度的增加,對于高像素的圖像來說消耗非常大,而且不具有自適應能力。

Guibias等人[Guibias 2022]將令牌混合任務定義為一種操作符學習任務,該任務是學習在無限尺寸空間中連續(xù)函數(shù)之間的映射。Li等人[Li 2020]討論了使用傅里葉神經(jīng)算符(FNO)求解偏微分方程(PDE)。FNO在連續(xù)域中工作良好。

將FNO應用于高分辨率圖像輸入的視覺域,需要對PDE的FNO設計體系結構進行修改。這是因為高分辨路圖像由于邊緣和其他結構而具有不連續(xù)性。信道混合FNO與信道大小有關,具有二次復雜度。信道混合權重采用塊對角線結構來解決信道混合問題。作者在MLP層的令牌之間共享權重以提高參數(shù)效率,并使用軟閾值在頻域引入稀疏性以進行泛化。這些解決方案結合稱為自適應傅里葉神經(jīng)算子(AFNO)。

Bai等人[Bai 2022]提出了HAT方法(High-frequency components via Adversarial Training),該方法在訓練階段對組件進行高頻擾動。HAT方法通過添加對抗性擾動改變訓練圖像的高頻成分,然后用改變后的圖像訓練ViT [Bai 2022]模型,這樣可以提高模型性能,使模型更魯棒。

魯棒性

Shao等[Shao 2021]利分析了transformer模型的魯棒性。作者使用白盒攻擊進行了一個實驗。他們觀察到與卷積神經(jīng)網(wǎng)絡(CNNs)相比,ViT具有更好的對抗魯棒性。ViT特征包含低層信息,對對抗攻擊提供了優(yōu)越的魯棒性,并指出與增加尺寸或增加層數(shù)的純transformer模型相比,cnn和transformer的組合具有更好的魯棒性。他們還發(fā)現(xiàn)預訓練更大的數(shù)據(jù)集并不能提高魯棒性。對于一個穩(wěn)健的模型,情況正好相反。

Bhojanapalli等人[Bhojanapalli 2021]調(diào)查了ViT模型和resnet模型針對對抗實例、自然實例和常見破壞的各種魯棒性度量。作者研究了對輸入和模型擾動的魯棒性。無論是從輸入還是從模型中去除任何一層,transformer都是魯棒的。

Paul等人[Paul 2022]研究了ViT [Dosovitskiy 2020]、cnn和Big Transformer[Kolesnikov 2020]方法的魯棒性。Paul等人[Paul 2022]在ImageNet數(shù)據(jù)集上對ViTs的魯棒性進行了基準測試。結果在表r中。通過6個實驗,作者驗證了與CNN和Big Transformer相比,ViT在魯棒性方面有了提高。這些實驗的結果包括:

實驗1:注意力是提高魯棒性的關鍵。

實驗2:預訓練的作用很重要。

實驗3:ViT對圖像遮蔽具有較好的魯棒性。

實驗4:傅里葉頻譜分析顯示ViT的靈敏度較低。

實驗5:對抗性擾動在能量譜中擴散得更廣。

實驗6:ViT對輸入擾動有更平滑的損失。

pYYBAGNPWyiAGQ4gAAB6s4_zFhM679.jpg

根據(jù)Park等人[Park 2022]的研究,與cnn相比ViT [Dosovitskiy 2020]在捕獲圖像高頻成分方面的效率較低。HAT [Bai 2022]是對現(xiàn)有transformer模型在頻率角度的影響進行進一步研究的結果。HAT使用RandAugment方法對輸入圖像的進行高頻分量擾動。Wu等人[Wu 2022]研究了易受對抗實例影響的transformer模型的問題。這個問題(對對抗性噪聲的脆弱性)在cnn中是通過對抗性訓練來處理的。但在transformer中,由于自注意計算的二次復雜度,對抗訓練的計算成本很高。AGAT方法采用了一種有效的注意引導對抗機制,在對抗訓練過程中使用注意引導下降策略去除每一層嵌入的確定性補丁。

隱私

預訓練的transformer模型部署在云上。基于云的模型部署中的一個主要問題與數(shù)據(jù)中隱私問題有關。主要的隱私問題是用戶數(shù)據(jù)(如搜索歷史、醫(yī)療記錄和銀行賬戶)的暴露。目前的研究重點是在transformer模型推理中保護隱私。

論文[Huang 2020]介紹了TextHide,一種保護隱私的聯(lián)邦學習技術,但這種方法適用于基于句子的任務,如機器翻譯、情緒分析、轉(zhuǎn)述生成任務),而不是基于令牌的任務(如名稱實體識別和語義角色標記)。

DP-finetune [Kerrigan 2020]差分隱私(DP)方法允許量化保護數(shù)據(jù)敏感性的程度。但是訓練DP算法會降低模型的質(zhì)量,但是可以在私有數(shù)據(jù)集上使用公共基礎模型進行調(diào)優(yōu)來部分解決。

Gentry等人[Gentry 2009]提出了一種用homomorphic encryption(HE)中的密文保護隱私的方法。但是transformer的模型中GELU [Hendrycks 2016]激活的計算復雜性,HE解決方案只支持加法和乘法。

論文[Chen 2022]在transformer中基于HE [Boemer 2019, Boemer 2020]的解上提出了一種通過級數(shù)逼近的The - x方法。the - x方法在SoftMax和GELU等層的幫助下,用一系列近似代替非多項式操作,去掉池器層,添加歸一化層,使用知識蒸餾技術。THE-X方法使用BERT-Tiny Model進行評估[Wang 2018],并對CONLL2003 [Sang2003]任務進行了基準測試。

Li等人[Li 2022]使用差分隱私算法解決了性能下降和高計算開銷的問題。這樣可以使用更大的預訓練語言模型來處理,也可以通過在中等語料庫上使用DP優(yōu)化進行微調(diào)的對齊預訓練過程來進行微調(diào)。

近似性

論文[Ruthotto 2019]是最早為ResNets等深度神經(jīng)網(wǎng)絡提供基于偏微分方程(PDEs)的理論基礎的論文之一。更具體地說,作者證明了殘差cnn可以解釋為時空微分方程的離散化。在理論表征的基礎上,Ruthotto還提出了具有特殊性質(zhì)的雙曲和拋物線cnn等新模型。

殘差網(wǎng)絡也被解釋為常微分方程的歐拉離散化。但歐拉法求解精度不高,由于是一階方法,存在截斷誤差。ODE Transformers [Bei 2022]的作者使用了經(jīng)典的高階方法(Runge Kutta)來構建Transformer塊。他們在三個序列生成任務上評估了ODE Transformers 。這些任務證明了ODE是有效的,包括抽象摘要、機器翻譯和語法糾正。在這個方向上的另一項努力是TransEvolve [Dutta 2021],它提供了一個Transformer架構,與ODE類似,但以多粒子動態(tài)系統(tǒng)為模型。

Transformers 已經(jīng)被證明相當于通用計算引擎[Kevin 2022]。作者提出了一種稱為Frozen pretrain transformer (FPT)的結構,它可以在單一模態(tài)(如用于語言建模的文本數(shù)據(jù))上進行訓練,并識別跨模態(tài)有用的抽象(如特征表示)。他們采用GPT,只對自然語言數(shù)據(jù)進行預訓練,并對其輸入和輸出層以及層歸一化參數(shù)和位置嵌入進行微調(diào)。這使得FPT在完成蛋白質(zhì)折疊預測、數(shù)值計算甚至圖像分類等各種任務時,可以與完全從零開始訓練的transformer進行比較。

模型壓縮

Touvron等人[Touvron 2021]提出了一種基于蒸餾技術(Deit)的高效transformer模型。它使用一種依賴于蒸餾令牌的師生策略,以確保學生通過注意力從老師那里學習。

Bao等人[Bao 2021]向預訓練的VIT提出了一個遮蔽圖像模型任務。作者提出了一種基于自監(jiān)督的視覺表示模型,即來自圖像transformer的雙向編碼器表示(BEiT),它遵循了為自然語言處理領域開發(fā)的BERT [Kenton 2019]方法。在這種方法中,每個圖像被認為是兩個視圖:一個是大小為16 x 16像素的圖像補丁,另一個是離散的可視標記。將原始圖像標記為可視標記,并對部分圖像補丁進行隨機掩碼,然后將其饋送給預訓練的骨干transformer。訓練BEiT后,模型可以針對下游任務進行微調(diào)。

作者:Dr. Vijay Srinivas Agneeswaran

學習 人工智能技術與咨詢

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 深度學習
    +關注

    關注

    73

    文章

    5589

    瀏覽量

    123884
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何深度學習機器視覺的應用場景

    深度學習視覺應用場景大全 工業(yè)制造領域 復雜缺陷檢測:處理傳統(tǒng)算法難以描述的非標準化缺陷模式 非標產(chǎn)品分類:對形狀、顏色、紋理多變的產(chǎn)品進行智能分類 外觀質(zhì)量評估:基于學習的外觀質(zhì)量標準判定 精密
    的頭像 發(fā)表于 11-27 10:19 ?28次閱讀

    兆芯處理器近期適配成果推薦

    近期,基于開先KX-7000、開勝KH-50000/KH-40000等高性能自主處理器平臺,兆芯與多家產(chǎn)業(yè)生態(tài)伙伴合作,共同完成了包括AI加速卡、企業(yè)級/消費級SSD、顯卡、公共廣播/數(shù)字會議
    的頭像 發(fā)表于 10-15 15:47 ?716次閱讀

    如何在機器視覺中部署深度學習神經(jīng)網(wǎng)絡

    圖 1:基于深度學習的目標檢測可定位已訓練的目標類別,并通過矩形框(邊界框)對其進行標識。 在討論人工智能(AI)或深度學習時,經(jīng)常會出現(xiàn)“神經(jīng)網(wǎng)絡”、“黑箱”、“標注”等術語。這些概
    的頭像 發(fā)表于 09-10 17:38 ?666次閱讀
    如何在機器視覺中部署<b class='flag-5'>深度</b><b class='flag-5'>學習</b>神經(jīng)網(wǎng)絡

    深度學習對工業(yè)物聯(lián)網(wǎng)有哪些幫助

    深度學習作為人工智能的核心分支,通過模擬人腦神經(jīng)網(wǎng)絡的層級結構,能夠自動從海量工業(yè)數(shù)據(jù)中提取復雜特征,為工業(yè)物聯(lián)網(wǎng)(IIoT)提供了從數(shù)據(jù)感知到智能決策的全鏈路升級能力。以下從技術賦能、場景突破
    的頭像 發(fā)表于 08-20 14:56 ?743次閱讀

    自動駕駛中Transformer大模型會取代深度學習嗎?

    [首發(fā)于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領域的驚艷表現(xiàn),“Transformer架構是否正在取代傳統(tǒng)深度學習”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?3897次閱讀
    自動駕駛中Transformer大模型會取代<b class='flag-5'>深度</b><b class='flag-5'>學習</b>嗎?

    深度學習遇上嵌入式資源困境,特征空間如何破局?

    近年來,隨著人工智能(AI)技術的迅猛發(fā)展,深度學習(Deep Learning)成為最熱門的研究領域之一。在語音識別、圖像識別、自然語言處理等領域,深度學習取得了顯著
    發(fā)表于 07-14 14:50 ?1106次閱讀
    當<b class='flag-5'>深度</b><b class='flag-5'>學習</b>遇上嵌入式資源困境,特征空間如何破局?

    活動名單公布!學電路設計分享學習心得、技術疑問及實戰(zhàn)成果,贏取專屬禮品!

    激勵學員分享學習心得、提出技術問題、展示實戰(zhàn)成果,打造活躍的技術交流社區(qū),并為學員提供與講師直接互動的機會。 本課程主要從怎樣設計一個完整的項目入手,跟大家講解了元器件的類別,熟悉元器件的封裝,功率如何計算
    發(fā)表于 05-14 09:53

    虹軟與TI聯(lián)合亮相慕尼黑上海電子展 展示智能駕駛領域的合作成果

    的合作成果,重點展出了基于TI平臺的智能駕駛解決方案,涵蓋主動安全、駕駛輔助、泊車輔助等關鍵功能模塊,具備成熟的量產(chǎn)可行性與平臺兼容性,吸引了眾多專業(yè)觀眾駐足交流。 虹軟構建多層級感知矩陣,布局智駕全場景應用 作為視覺AI領域的核心技術提供商,虹軟長期
    的頭像 發(fā)表于 04-17 10:25 ?1348次閱讀
    虹軟與TI聯(lián)合亮相慕尼黑上海電子展 展示智能駕駛領域的合<b class='flag-5'>作成果</b>

    永磁同步電機參數(shù)辨識研究綜述

    參數(shù)辨識的技術成果,再對 PMSM 辨識方法進行歸納和比較,最后,揭示 PMSM 參數(shù)辨識過程中亟需關注的研究問題并 展望其未來的發(fā)展方向,旨在實現(xiàn) PMSM 系統(tǒng)的高效可靠運行。純分享帖,點擊附件查看全文*附件:永磁同步電機參數(shù)辨識研究綜述.pdf
    發(fā)表于 03-26 14:13

    兆芯CPU近期適配認證成果

    近期,基于開先KX-7000、開勝KH-40000等系列自主處理器,兆芯與國內(nèi)多家產(chǎn)業(yè)伙伴攜手展開應用適配認證工作,完成了包括網(wǎng)卡、磁盤陣列控制卡、PCIe4.0高速SSD,以及分布式數(shù)據(jù)庫、數(shù)據(jù)
    的頭像 發(fā)表于 03-12 10:15 ?1081次閱讀

    在OpenVINO?工具套件的深度學習工作臺中無法導出INT8模型怎么解決?

    無法在 OpenVINO? 工具套件的深度學習 (DL) 工作臺中導出 INT8 模型
    發(fā)表于 03-06 07:54

    如何排除深度學習工作臺上量化OpenVINO?的特定層?

    無法確定如何排除要在深度學習工作臺上量化OpenVINO?特定層
    發(fā)表于 03-06 07:31

    軍事應用中深度學習的挑戰(zhàn)與機遇

    人工智能尤其是深度學習技術的最新進展,加速了不同應用領域的創(chuàng)新與發(fā)展。深度學習技術的發(fā)展深刻影響了軍事發(fā)展趨勢,導致戰(zhàn)爭形式和模式發(fā)生重大變化。本文將概述
    的頭像 發(fā)表于 02-14 11:15 ?813次閱讀

    BP神經(jīng)網(wǎng)絡與深度學習的關系

    BP神經(jīng)網(wǎng)絡與深度學習之間存在著密切的關系,以下是對它們之間關系的介紹: 一、BP神經(jīng)網(wǎng)絡的基本概念 BP神經(jīng)網(wǎng)絡,即反向傳播神經(jīng)網(wǎng)絡(Backpropagation Neural Network
    的頭像 發(fā)表于 02-12 15:15 ?1330次閱讀

    深度學習工作負載中GPU與LPU的主要差異

    ,一個新的競爭力量——LPU(Language Processing Unit,語言處理單元)已悄然登場,LPU專注于解決自然語言處理(NLP)任務中的順序性問題,是構建AI應用不可或缺的一環(huán)。 本文旨在探討深度學習工作負載中G
    的頭像 發(fā)表于 12-09 11:01 ?3900次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學習</b><b class='flag-5'>工作</b>負載中GPU與LPU的主要差異