chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

萬(wàn)用NLP模型Transformer的升級(jí)版

DPVg_AI_era ? 來(lái)源:lq ? 2019-02-11 09:37 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

谷歌官方博客今天發(fā)文,詳細(xì)解釋了萬(wàn)用NLP模型Transformer的升級(jí)版——Transformer-XL,該模型利用兩大技術(shù),在5個(gè)數(shù)據(jù)集中都獲得了強(qiáng)大的結(jié)果。

要正確理解一篇文章,有時(shí)需要參考出現(xiàn)在幾千個(gè)單詞后面的一個(gè)單詞或一個(gè)句子。

這是一個(gè)長(zhǎng)期依賴性(long-range dependence)的例子,這是序列數(shù)據(jù)中常見(jiàn)的現(xiàn)象,處理許多現(xiàn)實(shí)世界的任務(wù)都必須理解這種依賴。

雖然人類(lèi)很自然地就會(huì)這樣做,但是用神經(jīng)網(wǎng)絡(luò)建模長(zhǎng)期依賴關(guān)系仍然很具挑戰(zhàn)性?;贕ating的RNN和梯度裁剪(gradient clipping)技術(shù)提高了對(duì)長(zhǎng)期依賴關(guān)性建模的能力,但仍不足以完全解決這個(gè)問(wèn)題。

應(yīng)對(duì)這個(gè)挑戰(zhàn)的一種方法是使用Transformers,它允許數(shù)據(jù)單元之間直接連接,能夠更好地捕獲長(zhǎng)期依賴關(guān)系。

Transformer 是谷歌在 17 年做機(jī)器翻譯任務(wù)的 “Attention is all you need” 論文中提出的,引起了相當(dāng)大的反響,業(yè)內(nèi)有“每一位從事 NLP 研發(fā)的同仁都應(yīng)該透徹搞明白 Transformer”的說(shuō)法。

參考閱讀:

Transformer一統(tǒng)江湖:自然語(yǔ)言處理三大特征抽取器比較

然而,在語(yǔ)言建模中,Transformers目前使用固定長(zhǎng)度的上下文來(lái)實(shí)現(xiàn),即將一個(gè)長(zhǎng)的文本序列截?cái)酁閹装賯€(gè)字符的固定長(zhǎng)度片段,然后分別處理每個(gè)片段。

vanillaTransformer模型在訓(xùn)練時(shí)具有固定長(zhǎng)度上下文

這造成了兩個(gè)關(guān)鍵的限制:

算法無(wú)法建模超過(guò)固定長(zhǎng)度的依賴關(guān)系。

被分割的片段通常不考慮句子邊界,導(dǎo)致上下文碎片化,從而導(dǎo)致優(yōu)化低效。即使是對(duì)于長(zhǎng)期依賴性不顯著的較短序列,這也是特別麻煩的。

為了解決這些限制,谷歌提出一個(gè)新的架構(gòu):Transformer-XL,它使自然語(yǔ)言的理解超出了固定長(zhǎng)度的上下文。

Transformer-XL由兩種技術(shù)組成:片段級(jí)遞歸機(jī)制(segment-level recurrence mechanism)和相對(duì)位置編碼方案(relative positional encoding scheme)。

論文:Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context(https://arxiv.org/abs/1901.02860)

論文詳細(xì)解讀:谷歌、CMU重磅論文:Transformer升級(jí)版,評(píng)估速度提升超1800倍!

Segment-level的遞歸機(jī)制

在訓(xùn)練期間,為前一個(gè)segment計(jì)算的representation被修復(fù)并緩存,以便在模型處理下一個(gè)新的segment時(shí)作為擴(kuò)展上下文重新利用。

這個(gè)額外的連接將最大可能依賴關(guān)系長(zhǎng)度增加了N倍,其中N表示網(wǎng)絡(luò)的深度,因?yàn)樯舷挛男畔F(xiàn)在可以跨片段邊界流動(dòng)。

此外,這種遞歸機(jī)制還解決了上下文碎片問(wèn)題,為新段前面的token提供了必要的上下文。

在訓(xùn)練期間具有segment-level recurrence的Transformer-XL

相對(duì)位置編碼

然而,天真地應(yīng)用 segment-level recurrence是行不通的,因?yàn)楫?dāng)我們重用前面的段時(shí),位置編碼是不一致的。

例如,考慮一個(gè)具有上下文位置[0,1,2,3]的舊段。當(dāng)處理一個(gè)新的段時(shí),我們將兩個(gè)段合并,得到位置[0,1,2,3,0,1,2,3],其中每個(gè)位置id的語(yǔ)義在整個(gè)序列中是不連貫的。

為此,我們提出了一種新的相對(duì)位置編碼方案,使遞歸機(jī)制成為可能。

此外,與其他相對(duì)位置編碼方案不同,我們的公式使用具有l(wèi)earnable transformations的固定嵌入,而不是earnable embeddings,因此在測(cè)試時(shí)更適用于較長(zhǎng)的序列。

當(dāng)這兩種方法結(jié)合使用時(shí),在評(píng)估時(shí), Transformer-XL比vanilla Transformer模型具有更長(zhǎng)的有效上下文。

在計(jì)算時(shí)具有固定長(zhǎng)度上下文的vanilla Transformer

在評(píng)估期間具有segment-level 遞歸的Transformer-XL

此外,Transformer-XL能夠在不需要重新計(jì)算的情況下處理新段中的所有元素,從而顯著提高了速度(將在下面討論)。

結(jié)果

Transformer-XL在各種主要的語(yǔ)言建模(LM)基準(zhǔn)測(cè)試中獲得新的最優(yōu)(SoTA)結(jié)果,包括長(zhǎng)序列和短序列上的字符級(jí)和單詞級(jí)任務(wù)。實(shí)驗(yàn)證明, Transformer-XL 有三個(gè)優(yōu)勢(shì):

Transformer-XL學(xué)習(xí)的依賴關(guān)系比RNN長(zhǎng)約80%,比vanilla Transformers模型長(zhǎng)450%,盡管后者在性能上比RNN好,但由于固定長(zhǎng)度上下文的限制,對(duì)于建模長(zhǎng)期依賴關(guān)系并不是最好的。

由于不需要重復(fù)計(jì)算,Transformer-XL在語(yǔ)言建模任務(wù)的評(píng)估期間比vanilla Transformer快1800+倍。

由于建模長(zhǎng)期依賴關(guān)系的能力,Transformer-XL在長(zhǎng)序列上具有更好的困惑度(Perplexity, 預(yù)測(cè)樣本方面更準(zhǔn)確),并且通過(guò)解決上下文碎片化問(wèn)題,在短序列上也具有更好的性能。

Transformer-XL在5個(gè)數(shù)據(jù)集上的結(jié)果

Transformer-XL在5個(gè)數(shù)據(jù)集上都獲得了強(qiáng)大的結(jié)果:在enwiki8上將bpc/perplexity的最新 state-of-the-art(SoTA)結(jié)果從1.06提高到0.99,在text8上從1.13提高到1.08,在WikiText-103上從20.5提高到18.3,在One Billion Word上從23.7提高到21.8,在Penn Treebank上從55.3提高到54.5。

研究人員展望了Transformer-XL的許多令人興奮的潛在應(yīng)用,包括但不限于改進(jìn)語(yǔ)言模型預(yù)訓(xùn)練方法(例如BERT),生成逼真的、長(zhǎng)篇的文章,以及在圖像和語(yǔ)音領(lǐng)域的應(yīng)用。

論文中使用的代碼、預(yù)訓(xùn)練模型和超參數(shù)都已全部開(kāi)源:

https://github.com/kimiyoung/transformer-xl

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    141

    瀏覽量

    15373
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1229

    瀏覽量

    25914
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23047

原文標(biāo)題:谷歌升級(jí)版Transformer官方解讀:更大、更強(qiáng),解決長(zhǎng)文本問(wèn)題(開(kāi)源)

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    什么是數(shù)字萬(wàn)用表?

    電子設(shè)備的狀況需要使用測(cè)量?jī)x器來(lái)確定。對(duì)于無(wú)法目測(cè)來(lái)確定狀態(tài)的電子設(shè)備,建議使用數(shù)字萬(wàn)用表進(jìn)行測(cè)量。本節(jié)將詳細(xì)介紹諸如“數(shù)字萬(wàn)用表是什么?”“數(shù)字萬(wàn)用表與模擬萬(wàn)用表有區(qū)別嗎?”等數(shù)字
    的頭像 發(fā)表于 08-18 10:00 ?862次閱讀
    什么是數(shù)字<b class='flag-5'>萬(wàn)用</b>表?

    如何使用MATLAB構(gòu)建Transformer模型

    Transformer 模型在 2017 年由 Vaswani 等人在論文《Attentionis All You Need》中首次提出。其設(shè)計(jì)初衷是為了解決自然語(yǔ)言處理(Nature
    的頭像 發(fā)表于 02-06 10:21 ?5278次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>

    指針式萬(wàn)用表與數(shù)字萬(wàn)用表對(duì)比

    在電子維修和測(cè)試領(lǐng)域,萬(wàn)用表是不可或缺的工具。它們能夠測(cè)量電壓、電流、電阻等多種電氣參數(shù)。市場(chǎng)上主要有兩種類(lèi)型的萬(wàn)用表:指針式萬(wàn)用表和數(shù)字萬(wàn)用表。 指針式
    的頭像 發(fā)表于 01-23 09:31 ?3235次閱讀

    指針式萬(wàn)用表和數(shù)字萬(wàn)用表哪個(gè)好

    在電子測(cè)量領(lǐng)域,萬(wàn)用表是工程師和技術(shù)人員不可或缺的工具。它們能夠測(cè)量電壓、電流、電阻等多種電氣參數(shù)。市場(chǎng)上主要有兩種類(lèi)型的萬(wàn)用表:指針式萬(wàn)用表和數(shù)字萬(wàn)用表。 1. 指針式
    的頭像 發(fā)表于 01-22 17:28 ?6262次閱讀

    萬(wàn)用表和數(shù)字萬(wàn)用表的使用區(qū)別

    1. 顯示方式 萬(wàn)用表(模擬萬(wàn)用表): 使用模擬指針來(lái)顯示測(cè)量結(jié)果,指針會(huì)根據(jù)測(cè)量的電壓、電流或電阻值在刻度盤(pán)上移動(dòng)。 讀數(shù)需要用戶估計(jì)指針與刻度盤(pán)上標(biāo)記之間的距離,這可能導(dǎo)致讀數(shù)不夠精確。 數(shù)字
    的頭像 發(fā)表于 12-03 15:20 ?1857次閱讀

    如何正確使用萬(wàn)用表測(cè)量電壓

    萬(wàn)用表是一種多功能的測(cè)量工具,能夠測(cè)量電壓、電流、電阻等多種電氣參數(shù)。在電子維修、電路測(cè)試和電氣工程中,正確使用萬(wàn)用表測(cè)量電壓是非常重要的。 準(zhǔn)備工作 選擇合適的萬(wàn)用表 :確保萬(wàn)用表的
    的頭像 發(fā)表于 12-03 15:16 ?7883次閱讀

    萬(wàn)用表的基本使用方法 萬(wàn)用表使用注意事項(xiàng)

    萬(wàn)用表的基本使用方法 1. 選擇萬(wàn)用表 首先,根據(jù)需要測(cè)量的參數(shù)選擇合適的萬(wàn)用表。常見(jiàn)的萬(wàn)用表有數(shù)字萬(wàn)用表和模擬
    的頭像 發(fā)表于 12-03 15:14 ?6075次閱讀

    如何使用萬(wàn)用表檢測(cè)電池

    使用萬(wàn)用表檢測(cè)電池的步驟 1. 準(zhǔn)備工具 在開(kāi)始之前,確保你有以下工具: 萬(wàn)用表 待檢測(cè)的電池 絕緣手套(如果處理高電壓電池) 2. 了解電池類(lèi)型 在檢測(cè)電池之前,了解電池的類(lèi)型和電壓等級(jí)是非
    的頭像 發(fā)表于 11-01 10:35 ?7381次閱讀

    萬(wàn)用表測(cè)量頻率的技巧

    萬(wàn)用表通常用于測(cè)量電壓、電流和電阻等電氣參數(shù),但大多數(shù)標(biāo)準(zhǔn)的萬(wàn)用表并不直接測(cè)量頻率。不過(guò),有一些高級(jí)的萬(wàn)用表或者特定的測(cè)試設(shè)備可以測(cè)量頻率。如果你使用的是這類(lèi)設(shè)備,以下是一些測(cè)量頻率的技巧: 選擇
    的頭像 發(fā)表于 11-01 10:34 ?3707次閱讀

    萬(wàn)用表的工作原理 萬(wàn)用表校準(zhǔn)的方法

    萬(wàn)用表的工作原理 電壓測(cè)量 : 萬(wàn)用表通過(guò)內(nèi)部電路將被測(cè)電壓與標(biāo)準(zhǔn)電壓(例如1.5V或9V電池)進(jìn)行比較,從而測(cè)量電壓值。 對(duì)于交流電壓,萬(wàn)用表使用整流電路將交流轉(zhuǎn)換為直流,然后進(jìn)行測(cè)量。 電流測(cè)量
    的頭像 發(fā)表于 11-01 10:31 ?3157次閱讀

    萬(wàn)用表維修與保養(yǎng)技巧

    萬(wàn)用表是電子工程師和技術(shù)人員不可或缺的工具之一。它不僅能夠測(cè)量電壓、電流和電阻,還能檢測(cè)電路中的故障。然而,不正確的使用和保養(yǎng)會(huì)導(dǎo)致萬(wàn)用表的損壞,影響測(cè)量結(jié)果的準(zhǔn)確性。 一、萬(wàn)用表的正確使用 選擇
    的頭像 發(fā)表于 11-01 10:29 ?3072次閱讀

    萬(wàn)用表測(cè)量電流的操作指南

    在開(kāi)始測(cè)量電流之前,首先需要了解萬(wàn)用表的基本功能和操作界面。萬(wàn)用表通常有以下幾個(gè)部分: 顯示屏 :顯示測(cè)量結(jié)果。 旋鈕或按鈕 :用于選擇測(cè)量模式和范圍。 測(cè)試探頭 :用于接觸被測(cè)電路的導(dǎo)線。 電池
    的頭像 發(fā)表于 11-01 10:27 ?5400次閱讀

    萬(wàn)用表的安全使用注意事項(xiàng)

    在電子維修和測(cè)試領(lǐng)域,萬(wàn)用表是不可或缺的工具。它能夠測(cè)量電壓、電流、電阻等參數(shù),幫助工程師和技術(shù)人員診斷電路問(wèn)題。 一、了解萬(wàn)用表的基本功能和限制 在使用萬(wàn)用表之前,必須熟悉其基本功能和測(cè)量范圍
    的頭像 發(fā)表于 11-01 10:24 ?2267次閱讀

    數(shù)字萬(wàn)用表與模擬萬(wàn)用表的區(qū)別

    在電子工程和維修領(lǐng)域,萬(wàn)用表是一種不可或缺的工具。它能夠測(cè)量電壓、電流、電阻等多種電氣參數(shù)。根據(jù)顯示方式的不同,萬(wàn)用表可以分為數(shù)字萬(wàn)用表和模擬萬(wàn)用表。 一、顯示方式 數(shù)字
    的頭像 發(fā)表于 11-01 10:20 ?2239次閱讀

    萬(wàn)用表使用方法 如何選擇萬(wàn)用

    萬(wàn)用表(multimeter)是一種多功能的測(cè)量?jī)x器,可以測(cè)量電壓、電流、電阻等多種電氣參數(shù)。正確使用和選擇萬(wàn)用表對(duì)于電氣維修和測(cè)試工作至關(guān)重要。 萬(wàn)用表的使用方法 1. 了解萬(wàn)用表的
    的頭像 發(fā)表于 11-01 10:19 ?1841次閱讀