chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

萬用NLP模型Transformer的升級版

DPVg_AI_era ? 來源:lq ? 2019-02-11 09:37 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

谷歌官方博客今天發(fā)文,詳細解釋了萬用NLP模型Transformer的升級版——Transformer-XL,該模型利用兩大技術,在5個數(shù)據(jù)集中都獲得了強大的結果。

要正確理解一篇文章,有時需要參考出現(xiàn)在幾千個單詞后面的一個單詞或一個句子。

這是一個長期依賴性(long-range dependence)的例子,這是序列數(shù)據(jù)中常見的現(xiàn)象,處理許多現(xiàn)實世界的任務都必須理解這種依賴。

雖然人類很自然地就會這樣做,但是用神經(jīng)網(wǎng)絡建模長期依賴關系仍然很具挑戰(zhàn)性?;贕ating的RNN和梯度裁剪(gradient clipping)技術提高了對長期依賴關性建模的能力,但仍不足以完全解決這個問題。

應對這個挑戰(zhàn)的一種方法是使用Transformers,它允許數(shù)據(jù)單元之間直接連接,能夠更好地捕獲長期依賴關系。

Transformer 是谷歌在 17 年做機器翻譯任務的 “Attention is all you need” 論文中提出的,引起了相當大的反響,業(yè)內(nèi)有“每一位從事 NLP 研發(fā)的同仁都應該透徹搞明白 Transformer”的說法。

參考閱讀:

Transformer一統(tǒng)江湖:自然語言處理三大特征抽取器比較

然而,在語言建模中,Transformers目前使用固定長度的上下文來實現(xiàn),即將一個長的文本序列截斷為幾百個字符的固定長度片段,然后分別處理每個片段。

vanillaTransformer模型在訓練時具有固定長度上下文

這造成了兩個關鍵的限制:

算法無法建模超過固定長度的依賴關系。

被分割的片段通常不考慮句子邊界,導致上下文碎片化,從而導致優(yōu)化低效。即使是對于長期依賴性不顯著的較短序列,這也是特別麻煩的。

為了解決這些限制,谷歌提出一個新的架構:Transformer-XL,它使自然語言的理解超出了固定長度的上下文。

Transformer-XL由兩種技術組成:片段級遞歸機制(segment-level recurrence mechanism)和相對位置編碼方案(relative positional encoding scheme)。

論文:Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context(https://arxiv.org/abs/1901.02860)

論文詳細解讀:谷歌、CMU重磅論文:Transformer升級版,評估速度提升超1800倍!

Segment-level的遞歸機制

在訓練期間,為前一個segment計算的representation被修復并緩存,以便在模型處理下一個新的segment時作為擴展上下文重新利用。

這個額外的連接將最大可能依賴關系長度增加了N倍,其中N表示網(wǎng)絡的深度,因為上下文信息現(xiàn)在可以跨片段邊界流動。

此外,這種遞歸機制還解決了上下文碎片問題,為新段前面的token提供了必要的上下文。

在訓練期間具有segment-level recurrence的Transformer-XL

相對位置編碼

然而,天真地應用 segment-level recurrence是行不通的,因為當我們重用前面的段時,位置編碼是不一致的。

例如,考慮一個具有上下文位置[0,1,2,3]的舊段。當處理一個新的段時,我們將兩個段合并,得到位置[0,1,2,3,0,1,2,3],其中每個位置id的語義在整個序列中是不連貫的。

為此,我們提出了一種新的相對位置編碼方案,使遞歸機制成為可能。

此外,與其他相對位置編碼方案不同,我們的公式使用具有l(wèi)earnable transformations的固定嵌入,而不是earnable embeddings,因此在測試時更適用于較長的序列。

當這兩種方法結合使用時,在評估時, Transformer-XL比vanilla Transformer模型具有更長的有效上下文。

在計算時具有固定長度上下文的vanilla Transformer

在評估期間具有segment-level 遞歸的Transformer-XL

此外,Transformer-XL能夠在不需要重新計算的情況下處理新段中的所有元素,從而顯著提高了速度(將在下面討論)。

結果

Transformer-XL在各種主要的語言建模(LM)基準測試中獲得新的最優(yōu)(SoTA)結果,包括長序列和短序列上的字符級和單詞級任務。實驗證明, Transformer-XL 有三個優(yōu)勢:

Transformer-XL學習的依賴關系比RNN長約80%,比vanilla Transformers模型長450%,盡管后者在性能上比RNN好,但由于固定長度上下文的限制,對于建模長期依賴關系并不是最好的。

由于不需要重復計算,Transformer-XL在語言建模任務的評估期間比vanilla Transformer快1800+倍。

由于建模長期依賴關系的能力,Transformer-XL在長序列上具有更好的困惑度(Perplexity, 預測樣本方面更準確),并且通過解決上下文碎片化問題,在短序列上也具有更好的性能。

Transformer-XL在5個數(shù)據(jù)集上的結果

Transformer-XL在5個數(shù)據(jù)集上都獲得了強大的結果:在enwiki8上將bpc/perplexity的最新 state-of-the-art(SoTA)結果從1.06提高到0.99,在text8上從1.13提高到1.08,在WikiText-103上從20.5提高到18.3,在One Billion Word上從23.7提高到21.8,在Penn Treebank上從55.3提高到54.5。

研究人員展望了Transformer-XL的許多令人興奮的潛在應用,包括但不限于改進語言模型預訓練方法(例如BERT),生成逼真的、長篇的文章,以及在圖像和語音領域的應用。

論文中使用的代碼、預訓練模型和超參數(shù)都已全部開源:

https://github.com/kimiyoung/transformer-xl

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器翻譯
    +關注

    關注

    0

    文章

    141

    瀏覽量

    15526
  • 數(shù)據(jù)集

    關注

    4

    文章

    1236

    瀏覽量

    26187
  • nlp
    nlp
    +關注

    關注

    1

    文章

    491

    瀏覽量

    23280

原文標題:谷歌升級版Transformer官方解讀:更大、更強,解決長文本問題(開源)

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    數(shù)字萬用表的重要參數(shù)詳解

    數(shù)字萬用表(DMM)是一種多功能電子測量工具,用于測量電壓、電流、電阻、電容等電參數(shù)。選擇和使用數(shù)字萬用表時,了解其重要參數(shù)至關重要。本文詳細解釋了數(shù)字萬用表的關鍵參數(shù),幫助大家理解。 位數(shù)
    的頭像 發(fā)表于 03-04 15:20 ?60次閱讀
    數(shù)字<b class='flag-5'>萬用</b>表的重要參數(shù)詳解

    數(shù)字萬用表的類型、原理與應用

    在現(xiàn)代電子技術快速發(fā)展的背景下,數(shù)字萬用表(Digital Multimeter,簡稱DMM)已成為電子工程師、維修技術人員和科研人員不可或缺的基礎測量工具。它集電壓、電流、電阻等多種電學參數(shù)測量
    的頭像 發(fā)表于 02-24 15:13 ?86次閱讀
    數(shù)字<b class='flag-5'>萬用</b>表的類型、原理與應用

    如何讀取數(shù)字萬用表的測量結果

    數(shù)字萬用表通過數(shù)字顯示測量結果,其核心是理解位數(shù)、分辨率及精度的含義,這些直接決定了讀數(shù)的解讀方式。 一、位數(shù)與分辨率:顯示的細節(jié)能力 數(shù)字萬用表的屏幕位數(shù)代表測量分辨率(可量化的最小細節(jié)),位數(shù)
    的頭像 發(fā)表于 01-07 14:28 ?428次閱讀
    如何讀取數(shù)字<b class='flag-5'>萬用</b>表的測量結果

    ??萬用表與電流探頭測量電流信號的技術對比分析??

    萬用表與電流探頭在電流測量中各有優(yōu)勢:萬用表適合小電流、精度高,但需斷電;電流探頭非接觸、適合大電流和高頻信號。
    的頭像 發(fā)表于 09-26 17:35 ?617次閱讀

    什么是數(shù)字萬用表?

    電子設備的狀況需要使用測量儀器來確定。對于無法目測來確定狀態(tài)的電子設備,建議使用數(shù)字萬用表進行測量。本節(jié)將詳細介紹諸如“數(shù)字萬用表是什么?”“數(shù)字萬用表與模擬萬用表有區(qū)別嗎?”等數(shù)字
    的頭像 發(fā)表于 08-18 10:00 ?2301次閱讀
    什么是數(shù)字<b class='flag-5'>萬用</b>表?

    安捷倫Agilent 34411A數(shù)字萬用

    安捷倫Agilent 34411A數(shù)字萬用表,Agilent 34411A數(shù)字萬用表以工業(yè)標準的Agilent 34401A萬用表為基礎設計而成。它具有 34410A 的全部特性,以及 50000
    的頭像 發(fā)表于 08-13 16:31 ?887次閱讀
    安捷倫Agilent 34411A數(shù)字<b class='flag-5'>萬用</b>表

    訊飛星火X1升級版正式上線

    今天,基于全國產(chǎn)算力訓練的深度推理大模型——訊飛星火X1升級版正式上線。
    的頭像 發(fā)表于 07-30 14:12 ?2038次閱讀
    訊飛星火X1<b class='flag-5'>升級版</b>正式上線

    數(shù)字萬用表是什么?七位半數(shù)字萬用表/多用表的核心指標應用及技術趨勢?

    ? 數(shù)字萬用表(DMM) ? ? 數(shù)字萬用表(Digital Multimeter, DMM) ? 是一種電子測量儀器,用于測量電壓(AC/DC)、電流(AC/DC)、電阻、電容、頻率、溫度等電學
    的頭像 發(fā)表于 07-16 18:04 ?2516次閱讀
    數(shù)字<b class='flag-5'>萬用</b>表是什么?七位半數(shù)字<b class='flag-5'>萬用</b>表/多用表的核心指標應用及技術趨勢?

    羅德與施瓦茨發(fā)布全新UDS系列數(shù)字萬用

    版本,其中6?位型號的直流測量基本精度高達0.0075%。作為R&S HMC8012數(shù)字萬用表的升級換代產(chǎn)品,UDS系列不僅精度更高,而且采用升級的直觀用戶界面,可大幅提升測試效率與操作流暢度。
    的頭像 發(fā)表于 07-03 18:18 ?1538次閱讀

    智能觸屏萬用表的科技優(yōu)勢在哪

    在科技飛速發(fā)展的今天,電子測量儀器也在不斷進化。智能觸屏萬用表作為新一代的測量工具,正以其獨特的優(yōu)勢和創(chuàng)新的功能,為電子工程師、技術人員以及電子愛好者帶來了前所未有的便捷與高效。今天我們看看智能觸屏
    發(fā)表于 06-12 16:34

    Transformer架構概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學習領域正在經(jīng)歷一場翻天覆地的變化。這些突破性的架構不僅重新定義了自然語言處理(NLP)的標準,而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?1281次閱讀
    <b class='flag-5'>Transformer</b>架構概述

    航天測控七位半萬用表的特點

    最新一代的國產(chǎn)七位半數(shù)字萬用表除了具備測試電壓、電流、電阻、交流電壓、交流電阻等基礎功能外,拓展、測量范圍擴展以及測試數(shù)據(jù)呈現(xiàn)形式上均實現(xiàn)了顯著升級,能夠全面滿足科研探索、產(chǎn)品研發(fā)與驗證、生產(chǎn)線測試
    的頭像 發(fā)表于 04-18 17:30 ?850次閱讀
    航天測控七位半<b class='flag-5'>萬用</b>表的特點

    航天測控七位半數(shù)字萬用表用在哪里

    如下表所示是各位數(shù)萬用表常用應用方向,當五位或者六位萬用表的分辨力跟精度不夠的時候,我們就需要七位半甚至八位半萬用表。一、鋰電池OCV測試隨著鋰電池生產(chǎn)工藝的持續(xù)精進,電池生產(chǎn)企業(yè)對電芯一致性測試
    的頭像 發(fā)表于 04-11 17:28 ?895次閱讀
    航天測控七位半數(shù)字<b class='flag-5'>萬用</b>表用在哪里

    如何正確選擇理想萬用

    萬用表是專業(yè)工具箱中不可或缺的工具,適用于廣泛的電氣測試任務。從進行徹底的連續(xù)性檢查和二極管測試到精確的溫度測量和全面的數(shù)據(jù)記錄,萬用表在維護電氣系統(tǒng)健康方面至關重要。
    的頭像 發(fā)表于 04-09 17:15 ?1361次閱讀