chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用于NAT的選擇性知識(shí)蒸餾框架

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:南大NLP ? 作者:南大NLP ? 2022-12-06 14:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

01

研究動(dòng)機(jī)

在本文中,我們研究了一種能夠高效推理的機(jī)器翻譯模型NAT (Non-Autoregressive Transformer)[1]。相較于傳統(tǒng)的Transformer,NAT能夠在解碼階段并行預(yù)測(cè),從而大幅提升模型的推理速度。此外,NAT可以使得模型在訓(xùn)練和測(cè)試階段從相同的分布進(jìn)行預(yù)測(cè),從而有效避免了順序解碼模型中經(jīng)常出現(xiàn)的exposure bias問(wèn)題。在WMT21 news translation shared task for German→English translation中,已經(jīng)有NAT模型在翻譯質(zhì)量上超過(guò)了許多順序解碼的模型。

盡管NAT在擁有許多潛在的優(yōu)勢(shì),目前的工作中這類(lèi)模型仍然在很大程度上依賴(lài)于句子級(jí)別的知識(shí)蒸餾(sequence-level knowledge distillation, KD)[2]。由于需要并行預(yù)測(cè)所有token,NAT對(duì)單詞間依賴(lài)關(guān)系的建模能力較弱。這個(gè)特點(diǎn)使得在真實(shí)數(shù)據(jù)集上,NAT很容易受到multi-modality問(wèn)題的影響:訓(xùn)練數(shù)據(jù)中一個(gè)輸入可能對(duì)應(yīng)多個(gè)不同的輸出。在這樣的背景下,Gu提出訓(xùn)練一個(gè)AT (Autoregressive Transformer)[3]模型作為老師,將它的輸出作為NAT的學(xué)習(xí)對(duì)象。這種KD方式可以幫助NAT繞過(guò)multi-modality問(wèn)題,從而大幅提升NAT的翻譯表現(xiàn)。

e0ba8f3e-751e-11ed-8abf-dac502259ad0.png

圖1:Selective KD的流程示意圖

KD在幫助NAT提升表現(xiàn)的同時(shí),也會(huì)帶來(lái)一些負(fù)面影響,例如模型在低頻詞上的準(zhǔn)確率較低[4]、AT teacher的錯(cuò)誤會(huì)傳播到NAT上等。此外,如果NAT僅能在AT teacher的輸出上學(xué)習(xí),這類(lèi)模型的翻譯質(zhì)量將很難有更進(jìn)一步的突破。我們的研究希望能夠在避免multi-modality的情況下,讓NAT能夠從真實(shí)的數(shù)據(jù)分布中學(xué)到知識(shí)蒸餾的過(guò)程中缺失的信息,從而提升NAT的表現(xiàn)。

為達(dá)到這樣的目的,我們提出了selective KD:在KD數(shù)據(jù)上訓(xùn)練一個(gè)NAT作為評(píng)估模型,并通過(guò)它來(lái)選擇需要蒸餾的句子。通過(guò)這種方式,我們可以讓模型接觸到翻譯質(zhì)量更高的真實(shí)數(shù)據(jù),同時(shí)避免了嚴(yán)重的multi-modality情況。受課程學(xué)習(xí)的影響,我們也在訓(xùn)練過(guò)程中動(dòng)態(tài)調(diào)整蒸餾數(shù)據(jù)的比例?!坝迷u(píng)估模型有選擇地蒸餾數(shù)據(jù)”和“動(dòng)態(tài)調(diào)節(jié)蒸餾數(shù)據(jù)的比例”共同構(gòu)成了我們的Selective KD訓(xùn)練框架。

02

解決方案

2.1評(píng)估模型

我們首先將數(shù)據(jù)蒸餾產(chǎn)生的結(jié)果劃分為四種不同的情況:

較輕的modality change:某些單詞可能被替換為同義詞,句式和語(yǔ)義并沒(méi)有發(fā)生顯著的變化

較輕的錯(cuò)誤:在保持原有句式和語(yǔ)義的情況下,發(fā)生了一些小錯(cuò)誤,例如單詞重復(fù)

嚴(yán)重的modality change:語(yǔ)義不變的情況下,句子的表達(dá)方式發(fā)生了顯著的變化

嚴(yán)重的錯(cuò)誤:翻譯的質(zhì)量很糟糕

對(duì)于情況1,我們可以容忍較輕的modality change,這種情況下真實(shí)數(shù)據(jù)和蒸餾數(shù)據(jù)都可以被視作正確的學(xué)習(xí)目標(biāo),同時(shí)引入真實(shí)數(shù)據(jù)不會(huì)大幅增加數(shù)據(jù)集的復(fù)雜程度。情況2中,用真實(shí)數(shù)據(jù)替換蒸餾數(shù)據(jù)可以得到更高的翻譯質(zhì)量,找出屬于這種情況的樣本是我們方法的主要目標(biāo)。情況3中,由于引入真實(shí)數(shù)據(jù)會(huì)惡化multi-modality問(wèn)題,我們希望蒸餾這部分?jǐn)?shù)據(jù)。情況4很少發(fā)生,我們認(rèn)為這種情況下該訓(xùn)練樣本對(duì)NAT可能太過(guò)困難,引入真實(shí)數(shù)據(jù)帶來(lái)的提升很有限。總的來(lái)說(shuō),我們希望能找到情況1、2對(duì)應(yīng)的訓(xùn)練樣本,在訓(xùn)練過(guò)程中將它們的原始數(shù)據(jù)作為學(xué)習(xí)對(duì)象。

e0e43014-751e-11ed-8abf-dac502259ad0.png



圖2:4種不同的情況對(duì)應(yīng)的案例

為了篩選情況1、2中的數(shù)據(jù),我們?cè)谡麴s數(shù)據(jù)上訓(xùn)練一個(gè)NAT作為評(píng)估模型,通過(guò)比較評(píng)估模型的輸出和真實(shí)數(shù)據(jù)計(jì)算一個(gè)score,判斷一個(gè)真實(shí)翻譯是否適合被直接用于訓(xùn)練。若對(duì)于某個(gè)樣本評(píng)估模型的輸出和真實(shí)數(shù)據(jù)較為接近,則score較高,我們可以認(rèn)為蒸餾數(shù)據(jù)僅有微小的錯(cuò)誤或modality change,從而認(rèn)為它屬于情況1、2,無(wú)需蒸餾。反之,可以認(rèn)為蒸餾數(shù)據(jù)發(fā)生了較大的變化,因此屬于情況3、4,或是這個(gè)樣本在蒸餾后不發(fā)生太大變化的情況下對(duì)NAT而言仍過(guò)于困難。經(jīng)過(guò)篩選,我們僅蒸餾那些不適合用于訓(xùn)練的真實(shí)數(shù)據(jù)。

2.2動(dòng)態(tài)調(diào)整蒸餾比例:由困難到容易

我們?cè)谟?xùn)練過(guò)程中會(huì)調(diào)整蒸餾數(shù)據(jù)的比例。一般來(lái)說(shuō),剛開(kāi)始訓(xùn)練時(shí)絕大多數(shù)訓(xùn)練樣本為真實(shí)數(shù)據(jù),訓(xùn)練的尾聲則會(huì)蒸餾整個(gè)訓(xùn)練集。具體實(shí)現(xiàn)中,我們通過(guò)動(dòng)態(tài)調(diào)節(jié)score的閾值來(lái)調(diào)整蒸餾的比例。

e11339ae-751e-11ed-8abf-dac502259ad0.png

圖3:selective KD在第k次update的算法示意

03

實(shí)驗(yàn)

我們?cè)赪MT14 EN-DE和WMT16 EN-RO上開(kāi)展了實(shí)驗(yàn),包括了兩種代表性的NAT架構(gòu):CMLM [5]和GLAT+CTC [6],以及一種inference-efficient的AT架構(gòu):DeepShallow [7](6層編碼器,1層解碼器)。

3.1翻譯質(zhì)量與推理速度

我們通過(guò)BLEU score [8]和一種learned metric COMET [9]來(lái)衡量模型的翻譯質(zhì)量,并通過(guò)和標(biāo)準(zhǔn)Transformer比較來(lái)衡量推理速度??梢园l(fā)現(xiàn),相比于常規(guī)的知識(shí)蒸餾,Selective KD可以在不同數(shù)據(jù)集、不同架構(gòu)以及不同metric上穩(wěn)定取得翻譯質(zhì)量的提升,同時(shí)保持模型自身在推理速度上的優(yōu)勢(shì)。我們方法在inference-efficient AT上也有明顯的效果,這進(jìn)一步說(shuō)明了selective KD具有廣泛的價(jià)值。

e128553c-751e-11ed-8abf-dac502259ad0.png



圖4:翻譯質(zhì)量與推理速度。翻譯質(zhì)量括號(hào)外為BLEU,括號(hào)內(nèi)為COMET

3.2調(diào)節(jié)quality和complexity

真實(shí)數(shù)據(jù)的翻譯質(zhì)量往往是優(yōu)于蒸餾數(shù)據(jù)的,通過(guò)調(diào)節(jié)蒸餾數(shù)據(jù)的比例,Selective KD可以調(diào)節(jié)訓(xùn)練集的quality。與此同時(shí),我們希望知道這個(gè)方法是否可以靈活調(diào)節(jié)訓(xùn)練集的complexity。為了更好地觀察這一點(diǎn),文章中用了兩個(gè)metric來(lái)衡量數(shù)據(jù)的復(fù)雜程度:Translatioin Uncertainty [10]和Alignment Shift。Translation Uncertainty反映了源句單詞對(duì)應(yīng)翻譯結(jié)果的多樣性,Alignment Shift反映了句式的變化程度。

e1596ce4-751e-11ed-8abf-dac502259ad0.png

e168ab32-751e-11ed-8abf-dac502259ad0.png

圖5:Translation Uncertainty(左)和Alignment Shift(右)的計(jì)算方式

如圖6所示,我們的方法可以有效控制數(shù)據(jù)的complexity。我們保留的真實(shí)數(shù)據(jù)(綠色折線)在兩個(gè)指標(biāo)上都遠(yuǎn)遠(yuǎn)低于被蒸餾的真實(shí)數(shù)據(jù)(紅色折線)。在增加真實(shí)數(shù)據(jù)的比例同時(shí),整個(gè)數(shù)據(jù)集complexity的提升是緩慢而平滑的。

e17f4176-751e-11ed-8abf-dac502259ad0.png



圖6:數(shù)據(jù)的Translation Uncertainty(左)和Alignment Shift(右)

3.3蒸餾數(shù)據(jù)占比的影響

如圖7所示,我們?cè)诓煌麴s比例的數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn)??梢园l(fā)現(xiàn),通過(guò)selective KD僅蒸餾5%的數(shù)據(jù)就可以提升2.4 BLEU。在蒸餾數(shù)據(jù)比例為80%時(shí),模型的表現(xiàn)甚至超過(guò)了完全蒸餾的數(shù)據(jù),根據(jù)[10],一種可能的解釋是這種比例下數(shù)據(jù)的complexity更適合我們實(shí)驗(yàn)中采用的GLAT+CTC架構(gòu)。另外,動(dòng)態(tài)調(diào)節(jié)真實(shí)數(shù)據(jù)的比例(藍(lán)色虛線)可以進(jìn)一步提升模型的表現(xiàn)。

e1a73dac-751e-11ed-8abf-dac502259ad0.png

圖7:在不同蒸餾比例下模型的表現(xiàn)

04

總結(jié)

在這篇文章中,我們提出了選擇性知識(shí)蒸餾,從而使得NAT模型可以從真實(shí)的數(shù)據(jù)分布中學(xué)到知識(shí)蒸餾過(guò)程中缺失的部分信息。具體來(lái)說(shuō),我們采用一個(gè)NAT作為評(píng)估模型來(lái)判斷哪些句子需要蒸餾,并動(dòng)態(tài)提高蒸餾數(shù)據(jù)的比例。我們用實(shí)驗(yàn)結(jié)果證明了該方法可以有效提升NAT在機(jī)器翻譯任務(wù)上的表現(xiàn)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NAT
    NAT
    +關(guān)注

    關(guān)注

    0

    文章

    155

    瀏覽量

    16982
  • 機(jī)器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    141

    瀏覽量

    15373
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1229

    瀏覽量

    25912

原文標(biāo)題:AAAI'23 | 用于NAT的選擇性知識(shí)蒸餾框架

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何使用ipv4_nat模塊實(shí)現(xiàn)SNAT轉(zhuǎn)發(fā)?

    用的是rt-thread的3.1.0版本,c-sky 803S平臺(tái),有兩個(gè)網(wǎng)口,NAT前兩個(gè)網(wǎng)口的配置分別如下 char * argument_list0[] = {\"ifconfig
    發(fā)表于 09-29 06:08

    選擇性波峰焊焊接溫度全解析:工藝控制與優(yōu)化指南

    在電子制造行業(yè), 選擇性波峰焊(Selective Wave Soldering,簡(jiǎn)稱(chēng) SWS) ?已經(jīng)成為解決局部焊接需求的重要工藝。它能夠在同一塊 PCB 上,對(duì)不同區(qū)域?qū)崿F(xiàn)差異化焊接,避免整板
    的頭像 發(fā)表于 09-17 15:10 ?390次閱讀

    選擇性波峰焊技術(shù)簡(jiǎn)介

    選擇性波峰焊以其精準(zhǔn)焊接、高效生產(chǎn)和自動(dòng)化優(yōu)勢(shì),已成為SMT后段工藝中不可或缺的一環(huán)。AST埃斯特憑借領(lǐng)先的技術(shù)和優(yōu)質(zhì)的產(chǎn)品,為電子制造企業(yè)提供了強(qiáng)有力的插件焊接設(shè)備解決方案。無(wú)論是消費(fèi)電子還是
    的頭像 發(fā)表于 08-28 10:11 ?377次閱讀
    <b class='flag-5'>選擇性</b>波峰焊技術(shù)簡(jiǎn)介

    AST SEL-31單頭選擇性波峰焊——智能焊接新選擇

    在電子制造智能化、精細(xì)化的趨勢(shì)下,選擇一款 高效、穩(wěn)定、可追溯 的焊接設(shè)備,是企業(yè)提升競(jìng)爭(zhēng)力的關(guān)鍵。 AST SEL-31 單頭選擇性波峰焊,以 精度、效率與智能化 為核心,為客戶(hù)帶來(lái)穩(wěn)定可靠的生產(chǎn)力。無(wú)論是 汽車(chē)電子、通信設(shè)備、工業(yè)控制,還是消費(fèi)電子,AST 都能
    的頭像 發(fā)表于 08-28 10:05 ?230次閱讀
    AST SEL-31單頭<b class='flag-5'>選擇性</b>波峰焊——智能焊接新<b class='flag-5'>選擇</b>

    Keithley 6517B靜電計(jì)在離子選擇性電極和pH測(cè)量中的優(yōu)勢(shì)

    在現(xiàn)代科學(xué)研究和工業(yè)應(yīng)用中,離子選擇性電極和pH測(cè)量扮演著至關(guān)重要的角色。這些技術(shù)廣泛應(yīng)用于環(huán)境監(jiān)測(cè)、食品工業(yè)、醫(yī)藥研究以及化學(xué)分析等領(lǐng)域。Keithley 6517B靜電計(jì)作為一種高精度、高靈敏度
    的頭像 發(fā)表于 06-18 10:52 ?245次閱讀
    Keithley 6517B靜電計(jì)在離子<b class='flag-5'>選擇性</b>電極和pH測(cè)量中的優(yōu)勢(shì)

    PCBA 加工必備知識(shí)選擇性波峰焊和傳統(tǒng)波峰焊區(qū)別大揭秘

    DIP焊接時(shí),選擇性波峰焊與傳統(tǒng)波峰焊是兩種常見(jiàn)的焊接工藝。兩者各有特點(diǎn),適用于不同的應(yīng)用場(chǎng)景。 傳統(tǒng)波峰焊的特點(diǎn) 1. 工藝概述 傳統(tǒng)波峰焊是一種成熟的批量焊接技術(shù),通過(guò)將插件組件插入PCB板后,將整板通過(guò)焊錫波峰來(lái)實(shí)現(xiàn)批量焊接。該工藝適合焊
    的頭像 發(fā)表于 05-08 09:21 ?852次閱讀

    半導(dǎo)體選擇性外延生長(zhǎng)技術(shù)的發(fā)展歷史

    選擇性外延生長(zhǎng)(SEG)是當(dāng)今關(guān)鍵的前端工藝(FEOL)技術(shù)之一,已在CMOS器件制造中使用了20年。英特爾在2003年的90納米節(jié)點(diǎn)平面CMOS中首次引入了SEG技術(shù),用于pMOS源/漏(S/D
    的頭像 發(fā)表于 05-03 12:51 ?3064次閱讀
    半導(dǎo)體<b class='flag-5'>選擇性</b>外延生長(zhǎng)技術(shù)的發(fā)展歷史

    什么是高選擇性蝕刻

    華林科納半導(dǎo)體高選擇性蝕刻是指在半導(dǎo)體制造等精密加工中,通過(guò)化學(xué)或物理手段實(shí)現(xiàn)目標(biāo)材料與非目標(biāo)材料刻蝕速率的顯著差異,從而精準(zhǔn)去除指定材料并保護(hù)其他結(jié)構(gòu)的工藝技術(shù)?。其核心在于通過(guò)工藝優(yōu)化控制
    的頭像 發(fā)表于 03-12 17:02 ?589次閱讀

    22.0%效率的突破:前硅多晶硅選擇性發(fā)射極雙面TOPCon電池的制備與優(yōu)化

    隨著全球能源需求的增長(zhǎng),開(kāi)發(fā)高效率太陽(yáng)能電池變得尤為重要。本文旨在開(kāi)發(fā)一種成本效益高且可擴(kuò)展的制備工藝,用于制造具有前側(cè)SiOx/多晶硅選擇性發(fā)射極的雙面TOPCon太陽(yáng)能電池,并通過(guò)優(yōu)化工藝實(shí)現(xiàn)
    的頭像 發(fā)表于 03-03 09:02 ?924次閱讀
    22.0%效率的突破:前硅多晶硅<b class='flag-5'>選擇性</b>發(fā)射極雙面TOPCon電池的制備與優(yōu)化

    NAT網(wǎng)關(guān)(網(wǎng)段隔離器)有什么功能?哪個(gè)品牌好用?

    NAT網(wǎng)關(guān)(Network Address Translation,網(wǎng)絡(luò)地址轉(zhuǎn)換)是一種用于在不同網(wǎng)絡(luò)段之間進(jìn)行通信的設(shè)備。它的主要功能是將內(nèi)部網(wǎng)絡(luò)的私有IP地址轉(zhuǎn)換為外部網(wǎng)絡(luò)的公網(wǎng)IP地址,從而
    的頭像 發(fā)表于 02-19 17:14 ?905次閱讀
    <b class='flag-5'>NAT</b>網(wǎng)關(guān)(網(wǎng)段隔離器)有什么功能?哪個(gè)品牌好用?

    大連理工提出基于Wasserstein距離(WD)的知識(shí)蒸餾方法

    的機(jī)制,應(yīng)用于中間層蒸餾時(shí)存在問(wèn)題,其無(wú)法處理不重疊的分布且無(wú)法感知底層流形的幾何結(jié)構(gòu)。 為了解決這些問(wèn)題,大連理工大學(xué)的研究人員提出了一種基于 Wasserstein 距離(WD)的知識(shí)蒸餾
    的頭像 發(fā)表于 01-21 09:45 ?858次閱讀

    奔騰NAT造型獲國(guó)家知識(shí)產(chǎn)權(quán)局“中國(guó)外觀設(shè)計(jì)銀獎(jiǎng)”

    近日,國(guó)家知識(shí)產(chǎn)權(quán)局發(fā)布《關(guān)于第二十五屆中國(guó)專(zhuān)利獎(jiǎng)授獎(jiǎng)的決定》,奔騰NAT造型憑借獨(dú)特創(chuàng)新的設(shè)計(jì)脫穎而出,榮獲 “中國(guó)外觀設(shè)計(jì)銀獎(jiǎng)”。? 中國(guó)專(zhuān)利獎(jiǎng)代表著我國(guó)知識(shí)產(chǎn)權(quán)領(lǐng)域的至高榮譽(yù)。該獎(jiǎng)項(xiàng)由中
    的頭像 發(fā)表于 01-13 16:38 ?873次閱讀

    SiGe與Si選擇性刻蝕技術(shù)

    文章來(lái)源:半導(dǎo)體與物理 原文作者:jjfly686 本文簡(jiǎn)單介紹了兩種新型的選擇性刻蝕技術(shù)——高氧化性氣體的無(wú)等離子體刻蝕和原子層刻蝕。 全環(huán)繞柵極晶體管(Gate-All-Around FET
    的頭像 發(fā)表于 12-17 09:53 ?1663次閱讀
    SiGe與Si<b class='flag-5'>選擇性</b>刻蝕技術(shù)

    選擇性沉積技術(shù)介紹

    選擇性沉積技術(shù)可以分為按需沉積與按需材料工藝兩種形式。 隨著芯片制造技術(shù)的不斷進(jìn)步,制造更小、更快且能效更高的芯片具很大的挑戰(zhàn),尤其是全環(huán)繞柵極(Gate-All-Around, GAA)晶體管和更
    的頭像 發(fā)表于 12-07 09:45 ?1258次閱讀
    <b class='flag-5'>選擇性</b>沉積技術(shù)介紹

    基于介電電泳的選擇性液滴萃取微流體裝置用于單細(xì)胞分析

    我們開(kāi)發(fā)了一種微流體裝置,可以基于介電電泳從多個(gè)液滴捕獲袋中選擇性提取液滴。該裝置由一個(gè)主微通道、五個(gè)帶側(cè)通道的液滴捕獲袋和適當(dāng)位于捕獲袋周?chē)尿?qū)動(dòng)電極對(duì)組成。由于主通道和側(cè)通道之間的流動(dòng)阻力
    的頭像 發(fā)表于 11-11 14:10 ?652次閱讀