chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于一項(xiàng)改進(jìn)Transformer的工作

深度學(xué)習(xí)自然語言處理 ? 來源:復(fù)旦DISC ? 作者:復(fù)旦DISC ? 2021-04-22 10:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NAACL2021中,復(fù)旦大學(xué)大學(xué)數(shù)據(jù)智能與社會(huì)計(jì)算實(shí)驗(yàn)室(Fudan DISC)和微軟亞洲研究院合作進(jìn)行了一項(xiàng)改進(jìn)Transformer的工作,論文的題目為:Mask Attention Networks: Rethinking and Strengthen Transformer,被收錄為長文。

文章摘要

Transformer的每一層都由兩部分構(gòu)成,分別是自注意力網(wǎng)絡(luò)(SAN)和前饋神經(jīng)網(wǎng)絡(luò)(FFN)。當(dāng)前的大部分研究會(huì)拆開這兩份部分來分別進(jìn)行增強(qiáng)。在我們的研究當(dāng)中,我們發(fā)現(xiàn)SAN和FFN本質(zhì)上都屬于一類更廣泛的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),遮罩注意力網(wǎng)絡(luò)(MANs),并且其中的遮罩矩陣都是靜態(tài)的。我們認(rèn)為這樣的靜態(tài)遮罩方式限制了模型對于局部信息的建模的。因此,我們提出了一類新的網(wǎng)絡(luò),動(dòng)態(tài)遮罩注意力網(wǎng)絡(luò)(DMAN),通過自身的學(xué)習(xí)來調(diào)整對于局部信息的建模。為了更好地融合各個(gè)子網(wǎng)絡(luò)(SAN,F(xiàn)FN,DMAN)的優(yōu)勢,我們提出了一種層疊機(jī)制來將三者融合起來。我們在機(jī)器翻譯和文本摘要任務(wù)上驗(yàn)證了我們的模型的有效性。

研究背景

目前大家會(huì)從SAN或者FFN來對Transformer進(jìn)行改進(jìn),但是這樣的方案忽略了SAN和FFN的內(nèi)在聯(lián)系。

在我們的工作當(dāng)中,我們使用Mask Attention Network作為分析框架來重新審視SAN和FFN。Mask Attention Networks使用一個(gè)遮罩矩陣來和鍵值對的權(quán)重矩陣進(jìn)行對應(yīng)位置的相乘操作來確定最終的注意力權(quán)重。在下圖中,我們分別展示了SAN和FFN的遮罩矩陣。由于對于關(guān)系建模沒有任何的限制,SAN更擅長長距離建模來從而可以更好地捕捉全局語意,而FFN因?yàn)檎谡志仃嚨南拗?,無法獲取到其他的token的信息,因而更關(guān)注自身的信息。

盡管SAN和FFN取得了相當(dāng)好的效果,但是最近的一些研究結(jié)果表明,Transformer在捕捉局部信息的能力上有所欠缺。我們認(rèn)為這種欠缺是因?yàn)槭且驗(yàn)樽⒁饬仃嚨挠?jì)算當(dāng)中都是有靜態(tài)遮罩矩陣的參與所導(dǎo)致的。我們發(fā)現(xiàn)兩個(gè)不相關(guān)的token之間的權(quán)重可能因?yàn)橹虚g詞的關(guān)系而錯(cuò)誤地產(chǎn)生了較大的注意力權(quán)重。例如“a black dog jumps to catch the frisbee”, 盡管“catch”和“black”關(guān)系不大,但是因?yàn)槎叨脊餐泥従印癲og”的關(guān)系很大,進(jìn)而產(chǎn)生了錯(cuò)誤了聯(lián)系,使得“catch”忽略了自己真正的鄰居。

為了強(qiáng)化Transformer在局部建模的能力,我們提出了動(dòng)態(tài)遮罩注意力網(wǎng)絡(luò)(DMAN)。在DMAN當(dāng)中, 在特定距離內(nèi)的單詞相比于一般的注意力機(jī)制會(huì)得到更多的注意力權(quán)重,進(jìn)而得到更多的關(guān)注。另外,為了更好地融合SAN,F(xiàn)FN和DMAN三者的能力,我們提出使用DMAN-》SAN-》FFN這樣的方式來搭建網(wǎng)絡(luò)結(jié)構(gòu)。

方法描述

回顧Transformer

SAN的注意力機(jī)制使用下面的公式來將鍵值對映射到新的輸出。

其中是查詢向量組成的有序矩陣,是鍵值對的組合,是的特征維度。

為了進(jìn)一步增強(qiáng)transformer捕捉不同文本特征的的能力,對于一個(gè)文本特征的輸入序列, SAN會(huì)使用多頭注意力機(jī)制。

在FFN當(dāng)中,每一個(gè)

的計(jì)算都是獨(dú)立于其他的輸入的。具體來說,它由兩個(gè)全連接層組成。

定義一類新網(wǎng)絡(luò): Mask Attention Networks

我們在SAN的注意力函數(shù)的基礎(chǔ)上定義帶遮罩的注意力函數(shù)。

其中M是一個(gè)遮罩矩陣,它既可以是靜態(tài)的,也可以是動(dòng)態(tài)的。

在這個(gè)新的遮罩矩陣的基礎(chǔ)上,我們定義一類新網(wǎng)絡(luò): Mask Attention Networks(MANs)

其中F是激活函數(shù),M^i是第i個(gè)注意力上的遮罩矩陣。

接下來我們來說明SAN和FFN都是MANs當(dāng)中的特例。

從MANs的視角來看,對于SAN,我們令

這個(gè)時(shí)候MANs可以寫成下面的形式。這個(gè)結(jié)果告訴我們SAN是MANs當(dāng)中固定遮罩矩陣為全1的特例

對于FFN,我們令

那么得到SAN是MANs當(dāng)中固定遮罩矩陣為單位陣的特例。

SAN和FFN在局部建模上的問題

直觀上來說,因?yàn)镕FN的遮罩矩陣是一個(gè)單位陣,所以FFN只能獲取自身的信息而無法獲知鄰居的信息。對于SAN,每一個(gè)token都可以獲取到句子其它的所有token的信息。我們發(fā)現(xiàn)不在鄰域當(dāng)中的單詞也有可能得到一個(gè)相當(dāng)大的注意力得分。因此,SAN可能在語義建模的過程當(dāng)中引入噪聲,進(jìn)而忽視了局部當(dāng)中的有效信號。

動(dòng)態(tài)遮罩注意力網(wǎng)絡(luò)

顯然地我們可以通過靜態(tài)的遮罩矩陣來使模型只考慮特定鄰域內(nèi)的單詞,從而達(dá)到更好的局部建模的效果。但是這樣的方式欠缺靈活性,考慮到鄰域的大小應(yīng)該隨著query token來變化,所以我們構(gòu)建了下面的策略來動(dòng)態(tài)地調(diào)節(jié)鄰域的大小。

其中是當(dāng)前的層數(shù),是當(dāng)前的注意力head, 和分別是兩個(gè)和的位置。都是可學(xué)習(xí)的變量。

組合Mask Attention Networks當(dāng)中的各類網(wǎng)絡(luò)結(jié)構(gòu)

我們采用下圖的方式來組合這三種網(wǎng)絡(luò)結(jié)構(gòu)。

8614737c-a295-11eb-aece-12bb97331649.png

實(shí)驗(yàn)

我們的實(shí)驗(yàn)主要分為兩個(gè)部分,機(jī)器翻譯和文本摘要。

機(jī)器翻譯

我們在IWSLT14 De-En和WMT14 En-De上分別對我們的模型進(jìn)行了驗(yàn)證。相比于Transformer,我們的模型在base和big的參數(shù)大小設(shè)定下,分別取得了1.8和2.0的BLEU的提升。

文本摘要

在文本摘要的任務(wù)上,我們分別在CNN/Daily Mail和Gigaword這兩個(gè)數(shù)據(jù)集上分別進(jìn)行了驗(yàn)證。相比于Transformer,我們的模型在R-avg上分別有1.5和0.7的效果提升。

對比不同的子網(wǎng)絡(luò)堆疊方式

87275a4a-a295-11eb-aece-12bb97331649.png

我們對比了一些不同的子網(wǎng)絡(luò)堆疊方式的結(jié)果。從這張表中我們可以發(fā)現(xiàn):

C#5,C#4,C#3》C#1,C#2,這說明DMAN的參與可以提高模型的效果。

C#5,C#4》C#3,C#2,說明DMAN和SAN有各自的優(yōu)點(diǎn),它們分別更擅長全局建模和局部建模,所以可以更好地合作來增強(qiáng)彼此。

C#5》C#4,說明先建模局部再全局比相反的順序要更好一些。

87364faa-a295-11eb-aece-12bb97331649.png

我們比較了兩組不同的靜態(tài)遮罩策略。

SMAN1:遮蓋距離超過b的所有單詞,,為句子長度。

SMAN2:b=4。

從結(jié)果來看,我們發(fā)現(xiàn)DMAN的效果遠(yuǎn)遠(yuǎn)好于上述兩種靜態(tài)遮罩方法,這說明給不同的單詞確實(shí)在鄰域的建模上確實(shí)存在差異。

結(jié)論

在這篇論文當(dāng)中,我們介紹了遮罩注意力網(wǎng)絡(luò)(MANs)來重新審視SAN和FFN,并指出它們是MANs的兩種特殊情況。我們進(jìn)而分析了兩種網(wǎng)絡(luò)在局部建模上的不足,并提出使用動(dòng)態(tài)遮罩的方法來更好地進(jìn)行局部建模。考慮到SAN,F(xiàn)FN和DMAN不同的優(yōu)點(diǎn),我們提出了一種DMAN-》SAN-》FFN的方式來進(jìn)行建模。我們提出的模型在機(jī)器翻譯和文本摘要上都比transformer取得了更好的效果。

原文標(biāo)題:遮罩注意力網(wǎng)絡(luò):對Transformer的再思考與改進(jìn)

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 網(wǎng)絡(luò)
    +關(guān)注

    關(guān)注

    14

    文章

    8153

    瀏覽量

    93283
  • Transforme
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    8942

原文標(biāo)題:遮罩注意力網(wǎng)絡(luò):對Transformer的再思考與改進(jìn)

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    美國國際貿(mào)易委員會(huì)裁定英飛凌在針對英諾賽科的一項(xiàng)專利侵權(quán)案中勝訴

    美國國際貿(mào)易委員會(huì)的最終裁定可能導(dǎo)致英諾賽科涉嫌侵權(quán)的產(chǎn)品被禁止進(jìn)口至美國 該裁決是又一項(xiàng)積極結(jié)果,彰顯了英飛凌在業(yè)界領(lǐng)先的專利組合的價(jià)值 氮化鎵?(GaN) 在實(shí)現(xiàn)高性能、高能效功率系統(tǒng)方面發(fā)揮
    的頭像 發(fā)表于 12-04 17:23 ?1242次閱讀

    算法工程師不愿做標(biāo)注工作,怎么辦?

    對于算法而言,圖像標(biāo)注是一項(xiàng)關(guān)鍵性工作,越是大量的新數(shù)據(jù)集標(biāo)注,對于算法的性能提升越有幫助。但是圖像標(biāo)注是一項(xiàng)極其費(fèi)時(shí)費(fèi)力的工作,特別是遇到稍微復(fù)雜的場景時(shí),長時(shí)間的重復(fù)
    的頭像 發(fā)表于 12-02 17:56 ?360次閱讀
    算法工程師不愿做標(biāo)注<b class='flag-5'>工作</b>,怎么辦?

    Transformer如何讓自動(dòng)駕駛變得更聰明?

    ]自動(dòng)駕駛中常提的Transformer本質(zhì)上是種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),最早在自然語言處理里火起來。與卷積神經(jīng)網(wǎng)絡(luò)(CNN)或循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)不同,Transformer能夠自動(dòng)審視所有輸入信息,并動(dòng)態(tài)判斷哪些部分更為關(guān)鍵,同時(shí)
    的頭像 發(fā)表于 11-19 18:17 ?2002次閱讀

    易飛揚(yáng)獲得一項(xiàng)有源電纜系統(tǒng)的關(guān)鍵發(fā)明專利

    訊:易飛揚(yáng)于近日獲得一項(xiàng)專用于AI&DC 互連系統(tǒng)的關(guān)鍵發(fā)明專利。這項(xiàng)名為“有源電纜和通信系統(tǒng)”的專利,確切的商業(yè)名稱為:混合技術(shù)架構(gòu)等效有源電纜(Hybrid ACC+)。該專利結(jié)合了現(xiàn)今
    的頭像 發(fā)表于 09-16 10:54 ?457次閱讀
    易飛揚(yáng)獲得<b class='flag-5'>一項(xiàng)</b>有源電纜系統(tǒng)的關(guān)鍵發(fā)明專利

    知行科技機(jī)器人業(yè)務(wù)新獲一項(xiàng)合作

    近日,知行科技的機(jī)器人業(yè)務(wù)新獲一項(xiàng)合作,國內(nèi)頭部機(jī)器人公司委托開發(fā)背包式機(jī)器人全棧解決方案。
    的頭像 發(fā)表于 09-03 18:12 ?644次閱讀

    自動(dòng)駕駛中Transformer大模型會(huì)取代深度學(xué)習(xí)嗎?

    [首發(fā)于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心言等大語言模型在生成文本、對話交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學(xué)習(xí)”這話題
    的頭像 發(fā)表于 08-13 09:15 ?3971次閱讀
    自動(dòng)駕駛中<b class='flag-5'>Transformer</b>大模型會(huì)取代深度學(xué)習(xí)嗎?

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】第三章:探索 DeepSeek - V3 技術(shù)架構(gòu)的奧秘

    、模型架構(gòu) 在閱讀第三章關(guān)于 DeepSeek 的模型架構(gòu)部分時(shí),我仿佛打開了扇通往人工智能核心構(gòu)造的大門。從架構(gòu)圖中,能清晰看到 Transformer 塊、前饋神經(jīng)網(wǎng)絡(luò)、注意力
    發(fā)表于 07-20 15:07

    華為Pura80發(fā)布,一項(xiàng)卡脖子傳感器技術(shù)獲突破,一項(xiàng)傳感器技術(shù)仍被卡脖子!

    與Mate系列并列的旗艦機(jī)型,華為選擇了在蘋果WWDC 25的次日舉行發(fā)布會(huì),可見華為對Pura 80系列手機(jī)的重視,以及“硬鋼”蘋果的信心。 ? 而在此前,從網(wǎng)絡(luò)信息看,大家對華為Pura 80系列手機(jī)的期待和看點(diǎn)中,有兩大熱點(diǎn)與此前華為被卡脖子的兩個(gè)傳感器技術(shù)相關(guān)。 其中,一項(xiàng)卡脖子
    的頭像 發(fā)表于 06-11 19:15 ?2494次閱讀
    華為Pura80發(fā)布,<b class='flag-5'>一項(xiàng)</b>卡脖子傳感器技術(shù)獲突破,<b class='flag-5'>一項(xiàng)</b>傳感器技術(shù)仍被卡脖子!

    Transformer架構(gòu)中編碼器的工作流程

    編碼器是Transformer體系結(jié)構(gòu)的基本組件。編碼器的主要功能是將輸入標(biāo)記轉(zhuǎn)換為上下文表示。與早期獨(dú)立處理token的模型不同,Transformer編碼器根據(jù)整個(gè)序列捕獲每個(gè)token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?850次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)中編碼器的<b class='flag-5'>工作</b>流程

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷場翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?1041次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)概述

    智慧梁場監(jiān)測管理系統(tǒng)作為一項(xiàng)重要技術(shù)使梁場管理更加智能

    ? ? ? ?隨著科技的不斷進(jìn)步,智能化技術(shù)在公路梁場建設(shè)中的應(yīng)用日益廣泛,智慧梁場監(jiān)測管理系統(tǒng)作為一項(xiàng)重要技術(shù),正在推動(dòng)梁場建設(shè)向更高效、更智能、更安全的方向發(fā)展。本文將詳細(xì)介紹智慧梁場監(jiān)測管理
    的頭像 發(fā)表于 03-10 09:11 ?732次閱讀

    如何使用MATLAB構(gòu)建Transformer模型

    LanguageProcessing, NLP)中的序列到序列任務(wù),如機(jī)器翻譯。Transformer 通過引入自注意力機(jī)制使得處理長距離依賴關(guān)系時(shí)變得高效。因此 Vaswani 等人的論文強(qiáng)調(diào)“注意力是所需的切”。
    的頭像 發(fā)表于 02-06 10:21 ?5825次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b>模型

    ? SLA立體光固化成型:一項(xiàng)實(shí)現(xiàn)3D打印領(lǐng)域高精度數(shù)字模型實(shí)體化的先鋒技術(shù)

    發(fā)明。自創(chuàng)造以來,便以優(yōu)異的快速成型特征和高精度表現(xiàn),成為了一項(xiàng)實(shí)現(xiàn)復(fù)雜數(shù)字模型實(shí)體化的關(guān)鍵技術(shù)。它不僅突破了制造業(yè)的傳統(tǒng)模具模式,還能在加速將設(shè)計(jì)概念轉(zhuǎn)變成實(shí)際產(chǎn)品的同時(shí),保持產(chǎn)品表面細(xì)節(jié)的精確再現(xiàn)
    發(fā)表于 01-09 18:57

    transformer專用ASIC芯片Sohu說明

    2022年,我們打賭說transformer會(huì)統(tǒng)治世界。 我們花了兩年時(shí)間打造Sohu,這是世界上第個(gè)用于transformer(ChatGPT中的“T”)的專用芯片。 將transform
    的頭像 發(fā)表于 01-06 09:13 ?1718次閱讀
    <b class='flag-5'>transformer</b>專用ASIC芯片Sohu說明

    工業(yè)級高端傳感器領(lǐng)域,長沙又一項(xiàng)技術(shù)填補(bǔ)國內(nèi)空白!

    工業(yè)級高端傳感器領(lǐng)域,長沙又一項(xiàng)技術(shù)填補(bǔ)空白。12月26日上午,松諾盟科技成果評價(jià)暨新品發(fā)布會(huì)舉行。會(huì)上,松諾盟科技有限公司(以下簡稱“松諾盟科技”)聯(lián)袂核電運(yùn)行研究(上海)有限公司發(fā)布工業(yè)級高性能
    的頭像 發(fā)表于 12-27 18:00 ?1001次閱讀
    工業(yè)級高端傳感器領(lǐng)域,長沙又<b class='flag-5'>一項(xiàng)</b>技術(shù)填補(bǔ)國內(nèi)空白!