chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

預(yù)訓(xùn)練語言模型設(shè)計的理論化認識

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:潘小小 ? 2020-11-02 15:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在這篇文章中,我會介紹一篇最新的預(yù)訓(xùn)練語言模型的論文,出自MASS的同一作者。這篇文章的亮點是:將兩種經(jīng)典的預(yù)訓(xùn)練語言模型(MaskedLanguage Model, Permuted Language Model)統(tǒng)一到一個框架中,并且基于它們的優(yōu)勢和缺點,取長補短,提出了一個新的預(yù)訓(xùn)練語言模型----MPNet,其混合了MLM和PLM各自的優(yōu)勢,達到了比兩者更好的效果,在Natural Language Understanding和NaturalLanguageGeneration任務(wù)中,都取得了較好的結(jié)果。實驗表明MPNet在大量下游任務(wù)中超越了MLM和PLM,從而證明了pretrain方法中的2個關(guān)鍵點:

被預(yù)測的token之間的依賴關(guān)系 (MPNet vs MLM)

整個序列的位置信息 (MPNet vs PLM)

MPNet: Masked and Permuted Pre-training for Language Understanding(https://arxiv.org/pdf/2004.09297.pdf)

【小小說】這篇論文我很喜歡,讀下來有一種打通了任督二脈一般行云流水的感覺。在本文中,我會從BERT和XLNet的統(tǒng)一理論框架講起,然后引出作者如何得到MPNet這一訓(xùn)練方式,接著會介紹一下作者具體實現(xiàn)上用到的方法。希望本文可以讓你對預(yù)訓(xùn)練語言模型的設(shè)計有一個更加理論化的認識。

1. BERT和XLNet各自的優(yōu)缺點

?既然是從BERT和XLNet到MPNet,那么當(dāng)然是要先從這兩者講起。大家對BERT應(yīng)該比較熟悉,它是劃時代的工作,可以說從BERT開始,NLP領(lǐng)域正式進入了“預(yù)訓(xùn)練模型”的時代。而XLNet是隨后的重磅之作,在這一節(jié)中,我們先來回顧一下它們。?

「BERT」: Masked Language Model , 使用了雙邊的context信息,但是忽略了masked token之間的依賴關(guān)系

「XLNet」: Permuted Language Model , 保留了masked token之間的依賴關(guān)系,但是預(yù)測的時候每個token只能看到permuted sequence中的前置位的token的信息,不能看到所有token的信息。(p.s. 不知道XLNet的寶寶辛苦去復(fù)習(xí) 【論文串講】從GPT和BERT到XLNet )

作者分別從input和output兩個角度總結(jié)了兩者的優(yōu)缺點分別存在的地方:

「Input Discrepancy」: 在Natural Language Understanding的任務(wù)中,模型可以見到完整的input sentence,因此要求在預(yù)訓(xùn)練階段,input要盡可能輸入完整的信息

MLM中,token的語言信息是不完整的,不過位置信息是保留的(通過position embedding,p.s. 想具體了解如何通過position embedding保留的,請移步參考 【經(jīng)典精讀】Transformer模型深度解讀 中"使用Positional Encoding帶來的獨特優(yōu)勢"這部分的內(nèi)容)

PLM中,每個被預(yù)測的token只能“看”到被打亂的序列中位于它自己前面的token,而不能像MLM一樣“看”到兩側(cè)的token。

「Output Dependency」:

MLM中,輸出的token,即在input端被mask掉的token,是「互相獨立的」。也就是說這些被mask掉的token之間是假定沒有context層面的關(guān)系的。

PLM規(guī)避了MLM中的問題,被預(yù)測的token之間也存在context層面的關(guān)系。

「總結(jié)一下就是:」

?「PLM在output dependency的問題上處理得比MLM好,但是預(yù)訓(xùn)練階段和fine-tune階段之間的差異比MLM的更大。」?

2. 統(tǒng)一MLM和PLM的優(yōu)化目標

?了解了BERT和XLNet各自的優(yōu)缺點和適用的場景后,本文的作者試圖從一個統(tǒng)一的視角去總結(jié)這兩種預(yù)訓(xùn)練模型,而這個總結(jié),引出了后來的MPNet。?

基于以上兩點觀察,本文的作者提出了統(tǒng)一Masked Language Model和Permuted Language Model的想法,并且起名叫「M」asked and「P」ermuted Language Model,縮寫「MPNet」,意在取兩者之長,避兩者之短。

2.1. 統(tǒng)一優(yōu)化目標的提出

MLM: 由于Masked Language Model中的獨立性假設(shè)“每個被mask的位置的token之間是彼此獨立的”,我們可以換一種方式看待Masked Language Model: 把Masked tokens統(tǒng)一挪到序列的末尾,這樣做并不會改變模型的任何部分,只是我們的看待方式變了。

重新看待Masked Language Model

2. PLM: 原順序 被打亂成

,然后最右邊的兩個token 和 就被選作要預(yù)測的token。

重新看待Permuted Language Model

基于上述的討論,作者給出了統(tǒng)一MLM和PLM訓(xùn)練目標的框架:將沒有被mask的token放在左邊,而將需要被預(yù)測的token(被mask掉的)放在右邊。

「MLM」

「PLM」

其中,是序列的其中一個permutation,表示在該permutation中的第 位,表示位置小于的所有位置。

2.2. 討論

MLM和PLM的訓(xùn)練目標公式非常接近,唯一的區(qū)別在于,MLM條件概率的條件部分是 和 ; 而PLM的條件部分是,它們的區(qū)別是:

MLM比PLM多了 這個條件,也就是比PLM多了關(guān)于序列長度的信息(一個[M]就是一個位置)。

PLM比MLM多了被預(yù)測部分token之間的相關(guān)性:PLM的 是隨著預(yù)測的進行(t的變化)而動態(tài)變化的,MLM的 對于整個模型預(yù)測過程進行是恒定不變的。

3. 提出MPNet

?

基于上一節(jié)的總結(jié),作者按照相同的思路提出了MPNet的預(yù)訓(xùn)練目標

?

「a. MPNet的預(yù)訓(xùn)練目標」

我們既要像MLM那樣,在預(yù)測時獲取到序列長度的信息;又要像PLM那樣,在預(yù)測后一個token時,以前面的所有token(包含前置位被預(yù)測出來的)為條件。MPNet做到了:

MPNet示意圖

(b)圖中灰色的部分是encoder端的bidirectional self-attention

(b)圖中藍色和綠色的部分分別是decoder端的two stream self-attention的content stream和query stream (two stream self-attention的具體定義請參考 【論文串講】從GPT和BERT到XLNet ),這里提一下,content stream相當(dāng)于query stream右移一步。

(a)圖中黑色的線+綠色的線即對應(yīng)了(b)圖中的綠色點,(a)圖中黑色的線+藍色的線即對應(yīng)了(b)圖中的藍色點。

(b)圖中的行對應(yīng)著query position,列對應(yīng)著column position。

「b. ”位置補償“」

由于用到了Permuted Language Model的思想,所以MPNet和XLNet一樣,也要使用two-stream self-attention。想要實現(xiàn)預(yù)訓(xùn)練目標中的 ,在實現(xiàn)上作者提出了“位置補償”(positioncompensation),也就是說,在預(yù)測過程的每一步,query stream和contentstream都可以看到N(N即序列長度)個token,具體結(jié)合圖中的例子來說就是,

預(yù)測 時: 已知 , , , , , , , ,

預(yù)測 時: 已知 , , , , , , , , ,

預(yù)測 時: 已知 , , , , , , , , , ,

也就是說,無論預(yù)測到哪一步, , ,

, , , 這6個位置信息都可見。我們回顧一下XLNet,作一下對比:

預(yù)測 時: 已知 , , , , , ,

預(yù)測 時: 已知 , , , , , , , ,

預(yù)測 時: 已知 , , , , , , , , , ,

可以看出,在預(yù)測 時,比MPNet少了 , ,在預(yù)測 時,比MPNet少了 。

「c. 總結(jié)」

MPNet有效性來自于它保留了更多的信息

通過上面的詳細講解,相信到這兒大家也明白了:MPNet保留的信息是BERT和XLNet的并集,第一,它利用PLM的自回歸特性,規(guī)避了MLM的獨立性假設(shè),在預(yù)測后面token時也利用了之前預(yù)測出來的token;第二,它利用MLM建模中自帶的序列信息,規(guī)避了PLM在預(yù)測前面的token時不知道序列整體的長度的缺點。這兩點保證了MPNet完美揚長避短,因此在下游任務(wù)中完美擊敗了前兩者。

給我們的啟發(fā)

致力于彌合pre-train階段和下游任務(wù)fine-tune階段的預(yù)訓(xùn)練目標,盡可能減少訓(xùn)練和預(yù)測過程中信息的損失,是研究預(yù)訓(xùn)練模型的重中之重,也是預(yù)訓(xùn)練模型領(lǐng)域整體的發(fā)展方向。讀預(yù)訓(xùn)練系列論文的時候一定要抓住這個核心線索去讀。

責(zé)任編輯:xj

原文標題:【論文串講】從BERT和XLNet到MPNet

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • PLM
    PLM
    +關(guān)注

    關(guān)注

    2

    文章

    150

    瀏覽量

    22195
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23345
  • 訓(xùn)練模型
    +關(guān)注

    關(guān)注

    1

    文章

    37

    瀏覽量

    4082

原文標題:【論文串講】從BERT和XLNet到MPNet

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    Edge Impulse 喚醒詞模型訓(xùn)練 | 技術(shù)集結(jié)

    今天,將手把手帶領(lǐng)學(xué)習(xí)如何訓(xùn)練一個語音關(guān)鍵詞模型部署到嵌入式硬件上,采用Edgi-Talk平臺適配EdgeImpulse,當(dāng)然原理在其他的ARM嵌入式平臺也是通用的。讓我們看看如何讓
    的頭像 發(fā)表于 04-20 10:05 ?678次閱讀
    Edge Impulse 喚醒詞<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b> | 技術(shù)集結(jié)

    AI大模型微調(diào)企業(yè)項目實戰(zhàn)課

    從零開始預(yù)訓(xùn)練。事實上,微調(diào)技術(shù)的成熟,徹底打破了這一門檻。 微調(diào)的本質(zhì),是“舉一反三”的遷移學(xué)習(xí)。就好比一個已經(jīng)大學(xué)畢業(yè)的通用人才(基礎(chǔ)大模型),只需在企業(yè)內(nèi)部經(jīng)過幾個月的崗前培訓(xùn)(微調(diào)過程),就能迅速
    發(fā)表于 04-16 18:48

    人工智能多模態(tài)與視覺大模型開發(fā)實戰(zhàn) - 2026必會

    準確的視覺特征;而高性能 GPU 和分布式計算技術(shù)的應(yīng)用,則大大縮短了模型訓(xùn)練時間,提高了訓(xùn)練效率。 實戰(zhàn)演練:掌握核心技能的關(guān)鍵環(huán)節(jié) 特訓(xùn)課程不僅注重理論知識的傳授,更強調(diào)實戰(zhàn)能力
    發(fā)表于 04-15 16:06

    什么是大模型,智能體...?大模型100問,快速全面了解!

    ,LLM)是大模型中最主要的一類,專門用于處理和生成人類語言。大語言模型通過“閱讀”海量的文本數(shù)據(jù)(如書籍、網(wǎng)頁、文章等)進行預(yù)
    的頭像 發(fā)表于 02-02 16:36 ?1133次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗

    , batch_size=512, epochs=20)總結(jié) 這個核心算法中的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練過程,是用來對MNIST手寫數(shù)字圖像進行分類的。模型將圖像作為輸入,通過卷積和池層提取圖像的特征,然后通過全連接層進行分類預(yù)
    發(fā)表于 10-22 07:03

    借助NVIDIA Megatron-Core大模型訓(xùn)練框架提高顯存使用效率

    隨著模型規(guī)模邁入百億、千億甚至萬億參數(shù)級別,如何在有限顯存中“塞下”訓(xùn)練任務(wù),對研發(fā)和運維團隊都是巨大挑戰(zhàn)。NVIDIA Megatron-Core 作為流行的大模型訓(xùn)練框架,提供了靈
    的頭像 發(fā)表于 10-21 10:55 ?1401次閱讀
    借助NVIDIA Megatron-Core大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>框架提高顯存使用效率

    基于神經(jīng)網(wǎng)絡(luò)的數(shù)字預(yù)失真模型解決方案

    在基于神經(jīng)網(wǎng)絡(luò)的數(shù)字預(yù)失真(DPD)模型中,使用不同的激活函數(shù)對整個系統(tǒng)性能和能效有何影響?
    的頭像 發(fā)表于 08-29 14:01 ?3668次閱讀

    基于大規(guī)模人類操作數(shù)據(jù)預(yù)訓(xùn)練的VLA模型H-RDT

    近年來,機器人操作領(lǐng)域的VLA模型普遍基于跨本體機器人數(shù)據(jù)集預(yù)訓(xùn)練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導(dǎo)致統(tǒng)一訓(xùn)練困難;現(xiàn)有大規(guī)模機器人演示數(shù)據(jù)稀缺且質(zhì)量參差不齊。得
    的頭像 發(fā)表于 08-21 09:56 ?1224次閱讀
    基于大規(guī)模人類操作數(shù)據(jù)<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的VLA<b class='flag-5'>模型</b>H-RDT

    如何進行YOLO模型轉(zhuǎn)換?

    我目前使用的轉(zhuǎn)模型代碼如下 from ultralytics import YOLOimport cv2import timeimport nncaseimport# 加載預(yù)訓(xùn)練的YOLO模型
    發(fā)表于 08-14 06:03

    ai_cube訓(xùn)練模型最后部署失敗是什么原因?

    ai_cube訓(xùn)練模型最后部署失敗是什么原因?文件保存路徑里也沒有中文 查看AICube/AI_Cube.log,看看報什么錯?
    發(fā)表于 07-30 08:15

    沐曦MXMACA軟件平臺在大模型訓(xùn)練方面的優(yōu)化效果

    在如今的人工智能浪潮中,大規(guī)模語言模型(上百億乃至千億參數(shù))正迅速改變著我們的工作和生活。然而,訓(xùn)練這些龐大的模型往往面臨“算力不足、顯存不夠用、通信太慢”等諸多挑戰(zhàn)。
    的頭像 發(fā)表于 07-03 14:09 ?2412次閱讀
    沐曦MXMACA軟件平臺在大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>方面的優(yōu)化效果

    龍芯中科與文心系列模型開展深度技術(shù)合作

    ”解決方案。 強強聯(lián)合!自主架構(gòu)賦能大模型訓(xùn)練 文心大模型 文心4.5系列模型均使用飛槳深度學(xué)習(xí)框架進行高效訓(xùn)練、推理和部署。在大
    的頭像 發(fā)表于 07-02 16:53 ?1480次閱讀

    兆芯率先展開文心系列模型深度技術(shù)合作

    對文心系列大模型的快速適配、無縫銜接。 ? 文心大模型 ? 文心4.5系列開源模型共10款,均使用飛漿深度學(xué)習(xí)框架進行高效訓(xùn)練、推理和部署。在大語言
    的頭像 發(fā)表于 07-01 10:49 ?1085次閱讀

    make sence成的XML文件能上傳到自助訓(xùn)練模型上嗎?

    make sence成的XML文件能上傳到自助訓(xùn)練模型上嗎
    發(fā)表于 06-23 07:38

    海思SD3403邊緣計算AI數(shù)據(jù)訓(xùn)練概述

    模型,將模型轉(zhuǎn)化為嵌入式AI模型,模型升級AI攝像機,進行AI識別應(yīng)用。 AI訓(xùn)練模型是不斷迭
    發(fā)表于 04-28 11:11