chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

Transformers研究方向

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:一軒明月 ? 2022-03-30 16:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

BERT 通過改變 NLP 模型的訓練方式迎來了 NLP 領域的 ImageNet 時刻。自此之后的預訓練模型分別嘗試從mask 范圍,多語言,下文預測,模型輕量化,預訓練方式,模型大小,多任務等方向謀求新突破,有的效果明顯,有的只是大成本小收益。

自 2018 年 BERT 提出之后,各種預訓練模型層出不窮,模型背后的著眼點也各有不同,難免讓人迷糊。本文旨在從以下幾個方面探討系列 Transformers 研究方向:

擴大遮罩范圍(MaskedLM)

下文預測(NextSentencePrediction)

其他預訓練方式

輕量化

多語言

越大越好?

多任務

要說 BERT 為什么性能卓越,主要是它改變了 NLP 模型的訓練方式。先在大規(guī)模語料上訓練出一個語言模型,然后將這個模型用在閱讀理解/情感分析/命名實體識別等下游任務上

7725c54a-afe7-11ec-aa7f-dac502259ad0.png

Yann LeCun 將 BERT 的學習方式稱為“自監(jiān)督學習”,強調(diào)模型從輸入內(nèi)容中學習,又對其中部分內(nèi)容進行預測的特點。而 BERT 本身實際算是是基于 Transformer 編碼器部分改進而來的多任務模型,會同時執(zhí)行遮罩語言模型學習以及下文預測任務,以此習得潛藏語義。

擴大遮罩范圍改進 MaskedLM

遮罩語言模型里的“遮罩”,通常是分詞后一小段連續(xù)的 MASK 標記

7745101c-afe7-11ec-aa7f-dac502259ad0.png

相比于從上下文中猜整個詞,給出 ##eni 和 ##zation 猜到 tok 顯然更容易些。

也正因單詞自身標識間的聯(lián)系和詞與詞間的聯(lián)系不同,所以 BERT 可能學不到詞語詞間的相關關系。而只是預測出詞的一部分也沒什么意義,預測出整個詞才能學到更多語義內(nèi)容。所以拓展遮罩范圍就顯得十分重要了:

字詞級遮罩——WWM

短語級遮罩——ERNIE

縮放到特定長度——N-gram 遮罩/ Span 遮罩

短語級遮罩使用時得額外提供短語列表,但加上這樣的人工信息可能會干擾模型導致偏差。T5 嘗試了不同跨度的遮罩,似乎長一些的會好點

775ba3d6-afe7-11ec-aa7f-dac502259ad0.png

可以看到初期擴大跨度是有效的,但不是越長越好。SpanBERT 有一個更好的解決方案,通過概率采樣降低對過長遮罩的采納數(shù)量。

77707536-afe7-11ec-aa7f-dac502259ad0.png

從 SpanBERT 的實驗結果來看隨機跨度效果不錯

77861db4-afe7-11ec-aa7f-dac502259ad0.png

此外,也有模型嘗試改進遮罩比例。Google 的 T5 嘗試了不同的遮罩比例,意外的是替代項都不如原始設置表現(xiàn)好

779b8168-afe7-11ec-aa7f-dac502259ad0.png

下文預測

準確地講應該是下一句預測(NextSentencePrediction,NSP),通過判斷兩個句子間是否是上下文相關的來學習句子級知識。從實驗結果來看,BERT 并沒有帶來明顯改進

77b3a52c-afe7-11ec-aa7f-dac502259ad0.png

BERT 的欠佳表現(xiàn)給了后來者機會,幾乎成了兵家必爭之地。XLNET / RoBERTa / ALBERT 等模型都在這方面進行了嘗試

RoBERTa

77c6173e-afe7-11ec-aa7f-dac502259ad0.png

ALBERT

77e3810c-afe7-11ec-aa7f-dac502259ad0.png

XLNet

77ffb9d0-afe7-11ec-aa7f-dac502259ad0.png

可以看出 NSP 帶來的更多的是消極影響。這可能是 NSP 任務設計不合理導致的——負樣本是從容易辨析的其他文檔中抽出來的,這導致不僅沒學到知識反而引入了噪聲。同時,NSP 將輸入分成兩個不同的句子,缺少長語句樣本則導致 BERT 在長句子上表現(xiàn)不好。

其他預訓練方式

NSP 表現(xiàn)不夠好,是不是有更好的預訓練方式呢?各家都進行了各種各樣的嘗試,私以為對多種預訓練任務總結的最好的是 Google 的 T5 和 FaceBook 的 BART

T5 的嘗試

7819e60c-afe7-11ec-aa7f-dac502259ad0.png

782fdbd8-afe7-11ec-aa7f-dac502259ad0.png

BART 的嘗試

7846348c-afe7-11ec-aa7f-dac502259ad0.png

各家一般都選語言模型作為基線,而主要的嘗試方向有

擋住部分標識,預測遮擋內(nèi)容

打亂句子順序,預測正確順序

刪掉部分標識,預測哪里被刪除了

隨機挑選些標識,之后將所有內(nèi)容前置,預測哪里是正確的開頭

加上一些標識,預測哪里要刪

替換掉一些標識,預測哪里是被替換過的

試驗結果如下

785e9fea-afe7-11ec-aa7f-dac502259ad0.png

787a6b80-afe7-11ec-aa7f-dac502259ad0.png

實驗表明遮罩模型就是最好的預訓練方法。要想效果更好點,更長的遮罩和更長的輸入語句似乎是個不錯的選擇。而為了避免泄露具體擋住了多少個詞,每次只能標記一個遮罩,對一個或多個詞做預測

輕量化

BERT 模型本身非常大,所以為了運行更快,模型輕量化也是一大研究方向。一網(wǎng)打盡所有 BERT 壓縮方法[1]對此有細致描述,主要分幾個方向:

修剪——刪除部分模型,刪掉一些層 / heads 等

7893d3cc-afe7-11ec-aa7f-dac502259ad0.png

矩陣分解——對詞表 / 參數(shù)矩陣進行分解

78adaacc-afe7-11ec-aa7f-dac502259ad0.png

知識蒸餾——師生結構,在其他小模型上學習

78c30a3e-afe7-11ec-aa7f-dac502259ad0.png

參數(shù)共享——層與層間共享權重

78de936c-afe7-11ec-aa7f-dac502259ad0.png

多語言

數(shù)據(jù)集在不同語言間分布的非常不均勻,通常是英語數(shù)據(jù)集很多,其他語言的相對少些,繁體中文的話問題就更嚴重了。而 BERT 的預訓練方法并沒有語言限制,所以就有許多研究試圖喂給預訓練模型更多語言數(shù)據(jù),期望能在下游任務上取得更好的成績。

谷歌的 BERT-Multilingual 就是一例,在不添加中文數(shù)據(jù)的情況下,該模型在下游任務上的表現(xiàn)已經(jīng)接近中文模型

78f8c0ac-afe7-11ec-aa7f-dac502259ad0.png

有研究[2]對多語言版 BERT 在 SQuAD(英語閱讀理解任務)和 DRCD(中文閱讀理解任務)上進行了測試。最終證明可以取得接近 QANet 的效果,同時多語言模型不用將數(shù)據(jù)翻譯成統(tǒng)一語言,這當然要比多一步翻譯過程的版本要好。

790d4d4c-afe7-11ec-aa7f-dac502259ad0.png

從上面的結果可以看出無論是用 Embedding 還是 Transformer 編碼器,BERT 都學到了不同語言間的內(nèi)在聯(lián)系。另有研究[3]專門針對 BERT 聯(lián)通不同語言的方式進行了分析。

首先,在相同的 TLM 預訓練模型中對不同語言建立關聯(lián)

7924dbc4-afe7-11ec-aa7f-dac502259ad0.png

然后,通過控制是否共享組件來分析哪個部分對結果影響最大

7939dbd2-afe7-11ec-aa7f-dac502259ad0.png

結果是模型間共享參數(shù)是關鍵

79551ad2-afe7-11ec-aa7f-dac502259ad0.png

這是因為 BERT 是在學習詞和相應上下文環(huán)境的分布,不同語言間含義相同的詞,其上下文分布應該很接近

797019ea-afe7-11ec-aa7f-dac502259ad0.png

而 BERT 的參數(shù)就是在學習期間的分布,所以也就不難理解模型在多語言間遷移時的驚人表現(xiàn)了

越大越好?

盡管 BERT 采用了大模型,但直覺上數(shù)據(jù)越多,模型越大,效果也就應該更好。所以很多模型以此為改進方向

7989f450-afe7-11ec-aa7f-dac502259ad0.png

T5 更是憑借 TPU 和金錢的魔力攀上頂峰

79a9f160-afe7-11ec-aa7f-dac502259ad0.png

然而更大的模型似乎并沒有帶來太多的回報

79cbd118-afe7-11ec-aa7f-dac502259ad0.png

所以,簡單增大模型規(guī)模并不是最高效的方法。

此外,選用不同的訓練方法和目標也是一條出路。比如,ELECTRA 采用新型訓練方法保證每個詞都能參與其中,從而使得模型能更有效地學習表示(representation)

79e9ea7c-afe7-11ec-aa7f-dac502259ad0.png

79fa6988-afe7-11ec-aa7f-dac502259ad0.png

ALBERT 使用參數(shù)共享降低參數(shù)量,但對性能沒有顯著影響

7a0b68be-afe7-11ec-aa7f-dac502259ad0.png

7a1fde84-afe7-11ec-aa7f-dac502259ad0.png

多任務

BERT 是在預訓練時使用多任務,我們同樣可以在微調(diào)時使用多任務。微軟的用于自然語言理解的多任務深度神經(jīng)網(wǎng)絡[4](MTDNN)就是這么做的

7a343ce4-afe7-11ec-aa7f-dac502259ad0.png

相交于 MTDNN,GPT-2 更加激進:不經(jīng)微調(diào)直接用模型學習一切,只用給一個任務標識,其余的交給模型。效果出眾但仍稱不上成功

T5 對此做了平衡

7a5918a2-afe7-11ec-aa7f-dac502259ad0.png

谷歌的 T5 類似于 GPT-2,訓練一個生成模型來回答一切問題。同時又有點像 MTDNN,訓練時模型知道它是在同時解決不同問題,它是一個訓練/微調(diào)模型

同時,大體量預訓練模型都面臨相同的兩個難題:數(shù)據(jù)不均衡和訓練策略選定

不均衡數(shù)據(jù)

不同任務可供使用的數(shù)據(jù)量是不一致的,這導致數(shù)據(jù)量小的任務表現(xiàn)會很差。數(shù)據(jù)多的少采樣,數(shù)據(jù)少的多采樣是一種解決思路。BERT 對多語言訓練采用的做法就是一例

為平衡這兩個因素,訓練數(shù)據(jù)生成(以及 WordPiece 詞表生成)過程中,對數(shù)據(jù)進行指數(shù)平滑加權。換句話說,假如一門語言的概率是

,比如 意味著在混合了所有維基百科數(shù)據(jù)后, 21% 的數(shù)據(jù)是英文的。我們通過因子 S 對每個概率進行指數(shù)運算并重新歸一化,之后從中采樣。我們的實驗中, ,所以像英語這樣的富文本語言會被降采樣,而冰島語這樣的貧文本語言會過采樣。比如,原始分布中英語可能是冰島語的 1000 倍,平滑處理后只有 100 倍

訓練策略

7a7a4c20-afe7-11ec-aa7f-dac502259ad0.png

無監(jiān)督預訓練+微調(diào):在 T5 預訓練后對各任務進行微調(diào)

多任務訓練:所有任務和 T5 預訓練一同訓練學習,并直接在各任務上驗證結果

多任務預訓練+微調(diào):所有任務和 T5 預訓練一同訓練學習,然后對各任務微調(diào)訓練數(shù)據(jù),再驗證結果

留一法多任務訓練:T5 預訓練和目標任務外的所有任務一同進行多任務學習,然后微調(diào)目標任務數(shù)據(jù)集,再驗證結果

有監(jiān)督多任務預訓練:在全量數(shù)據(jù)上進行多任務訓練,然后對各任務微調(diào)結果

可以看到先在海量數(shù)據(jù)上進行訓練,然后對特定任務數(shù)據(jù)進行微調(diào)可以緩解數(shù)據(jù)不平衡問題。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3900

    瀏覽量

    141354
  • 模型
    +關注

    關注

    1

    文章

    3647

    瀏覽量

    51687
  • nlp
    nlp
    +關注

    關注

    1

    文章

    491

    瀏覽量

    23182

原文標題:BERT 之后的故事

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    射頻功率放大器賦能:雙極射頻溶脂實驗研究的創(chuàng)新應用

    實驗名稱:雙極射頻溶脂實驗研究 研究方向:該研究方向通過跨模態(tài)能量融合,既能借助射頻冷卻裝置解決超聲治療的表皮保護難題,又能利用超聲聚焦彌補
    的頭像 發(fā)表于 09-09 10:48 ?239次閱讀
    射頻功率放大器賦能:雙極射頻溶脂實驗<b class='flag-5'>研究</b>的創(chuàng)新應用

    兩部門:支持人工智能、先進存儲、三維異構集成芯片等前沿技術方向基礎研究

    近日,工業(yè)和信息化部與市場監(jiān)督管理總局聯(lián)合印發(fā)《電子信息制造業(yè) 2025 - 2026 年穩(wěn)增長行動方案》,明確提出將大力支持人工智能、先進存儲、三維異構集成芯片等前沿技術方向的基礎研究,這一舉措在
    的頭像 發(fā)表于 09-08 17:26 ?584次閱讀
    兩部門:支持人工智能、先進存儲、三維異構集成芯片等前沿技術<b class='flag-5'>方向</b>基礎<b class='flag-5'>研究</b>

    基于LabVIEW的鼠標滑動方向檢測教程

    本篇教程源于一位客戶的真實需求,需要LabVIEW能夠檢測到鼠標滑動的方向,然后通過判斷滑動方向處理后續(xù)的功能。
    的頭像 發(fā)表于 07-30 13:51 ?558次閱讀
    基于LabVIEW的鼠標滑動<b class='flag-5'>方向</b>檢測教程

    無速度傳感器感應電機控制系統(tǒng)轉速辨識方法研究

    要點和化缺點,在直接轉矩控制基礎上設計了無速度傳感器感應電機控制系統(tǒng)模型并進行仿真,給出了試驗參數(shù)及仿真圖形,并就今后的研究發(fā)展方向提出了看法。 純分享帖,點擊下方附件免費獲取完整資料
    發(fā)表于 07-09 14:23

    雙電機后輪驅動混合動力汽車電子差速控制的研究

    /Simulink 環(huán)境下進行了仿真。結果表明,該電子差速控制系統(tǒng)可在車輛直線行駛和轉彎時將滑移率控制在最佳范圍內(nèi),使車輛能按照預定方向穩(wěn)定行駛。 純分享帖,需要者可點擊附件免費獲取完整資料~~~*附件:雙
    發(fā)表于 06-18 16:39

    開關電源的設計與研究

    開關電源的設計與研究,PPT課件,還不錯的技術資料 目錄 一:PDN系統(tǒng)簡介 二:開關電源概述 三:開關電源的設計 四:案例分析 純分享貼,有需要可以直接下載附件獲取完整資料! (如果內(nèi)容有幫助可以關注、點贊、評論支持一下哦~)
    發(fā)表于 05-13 15:09

    永磁同步電機參數(shù)辨識研究綜述

    參數(shù)辨識的技術成果,再對 PMSM 辨識方法進行歸納和比較,最后,揭示 PMSM 參數(shù)辨識過程中亟需關注的研究問題并 展望其未來的發(fā)展方向,旨在實現(xiàn) PMSM 系統(tǒng)的高效可靠運行。純分享帖,點擊附件查看全文*附件:永磁同步電機參數(shù)辨識
    發(fā)表于 03-26 14:13

    石墨烯鉛蓄電池研究進展、優(yōu)勢、挑戰(zhàn)及未來方向

    石墨烯鉛蓄電池是將石墨烯材料與傳統(tǒng)鉛酸電池技術相結合的研究方向,旨在提升鉛酸電池的性能(如能量密度、循環(huán)壽命、快充能力等)。以下是該領域的研究進展、優(yōu)勢、挑戰(zhàn)及未來方向: 一、石墨烯在
    的頭像 發(fā)表于 02-13 09:36 ?2671次閱讀

    VirtualLab Fusion應用:非球面透鏡背后的焦點研究

    摘要 高功率激光二極管經(jīng)常在兩個方向上表現(xiàn)出不對稱的發(fā)散和散光。此案例在VirtualLab Fusion中研究了激光二極管首先被物鏡準直,然后被非球面透鏡聚焦后焦點區(qū)域的場的演變。與沒有散光
    發(fā)表于 02-13 08:57

    今日看點丨字節(jié)啟動 Seed Edge,加碼 AGI 研究;SemiQ推出1700 V SiC MOSFET系列

    研究,Seed Edge 已擬定 5 大研究方向。據(jù)了解,Seed Edge 會先以虛擬項目組的方式運行,探索這些不確定性更強的研究方向
    發(fā)表于 01-23 11:12 ?882次閱讀

    MLOps平臺的發(fā)展方向

    MLOps平臺作為機器學習開發(fā)運維一體化的重要工具,其發(fā)展方向將深刻影響人工智能技術的普及和應用。下面,是對MLOps平臺發(fā)展方向的探討,由AI部落小編整理。
    的頭像 發(fā)表于 12-31 11:51 ?797次閱讀

    光路元件的位置和方向

    摘要 在這個案例中,我們將演示如何在光路中配置光學元件的位置和方向。我們將通過一個示例來演示。 將元件放入光路中元件定位 默認情況下,元件的位置由相對位置定義,即由該元件相對于前一個元件的參考坐標系
    發(fā)表于 12-31 08:54

    知行科技大模型研發(fā)體系初見效果

    11月,知行科技作為共同第一作者提出的Strong Vision Transformers Could BeExcellent Teachers(ScaleKD),以預訓練ViT(視覺
    的頭像 發(fā)表于 12-27 09:38 ?900次閱讀
    知行科技大模型研發(fā)體系初見效果

    對超短脈沖的色散效應的研究

    得到充分考慮。為了強調(diào)快速物理光學軟件VirtualLab Fusion在這個特定光學領域的能力,我們展示了兩個例子。在第一個例子中,我們研究了一個脈沖在不同材料中傳播時的行為,并說明了相應的色散相關效應。我們
    發(fā)表于 12-25 15:29

    非球面透鏡背后的焦點研究

    **摘要 ** 高功率激光二極管經(jīng)常在兩個方向上表現(xiàn)出不對稱的發(fā)散和散光。此案例在VirtualLab Fusion中研究了激光二極管首先被物鏡準直,然后被非球面透鏡聚焦后焦點區(qū)域的場的演變。與沒有
    發(fā)表于 12-17 08:54