chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語(yǔ)言建模中XLNet比BERT好在哪里

汽車(chē)玩家 ? 來(lái)源:人工智能遇見(jiàn)磐創(chuàng) ? 作者:人工智能遇見(jiàn)磐創(chuàng) ? 2020-04-20 09:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

XLNet震驚了NLP領(lǐng)域,這種語(yǔ)言建模的新方法在20個(gè)NLP任務(wù)上的表現(xiàn)優(yōu)于強(qiáng)大的BERT,并且在18個(gè)任務(wù)中獲得了最先進(jìn)的結(jié)果。

XLNet可能會(huì)改變語(yǔ)言建模,這就是為什么它是任何NLP從業(yè)者的重要補(bǔ)充。在本文中,我們將討論XLNet背后的原理,它使它比BERT更好。為了更好地理解它,我們還將研究它之前的相關(guān)技術(shù)。

語(yǔ)言建模簡(jiǎn)介

在2018年,隨著語(yǔ)言建模任務(wù)處于研究的中心,NLP領(lǐng)域取得了重大的進(jìn)步。

語(yǔ)言建模是在給定所有先前的單詞的情況下,預(yù)測(cè)句子中的下一個(gè)單詞的任務(wù)。語(yǔ)言模型現(xiàn)在已經(jīng)成為NLP管道的重要組成部分,因?yàn)樗鼈優(yōu)楦鞣N下游任務(wù)提供了支撐。語(yǔ)言模型捕獲幾乎普遍有用的輸入文本的一些特性。

早期的語(yǔ)言模型ULMFiT和ELMo,兩者都是基于LSTM的語(yǔ)言模型。事實(shí)上,ULMFiT和ELMo都取得了巨大的成功,在眾多任務(wù)中取得了最先進(jìn)的成果。但我們將看到XLNet如何實(shí)現(xiàn)前所未有的成果。

用于語(yǔ)言建模的自回歸模型(AR)

XLNet是一種通用的自回歸預(yù)訓(xùn)練模型。自回歸模型僅僅是一種前饋模型,它根據(jù)給定上下文的一組單詞預(yù)測(cè)下一個(gè)詞。但是在這里,上下文單詞被限制在兩個(gè)方向,前向或后向。

可以按順序運(yùn)行自回歸模型以生成新序列!從x1,x2,…,xk開(kāi)始,預(yù)測(cè)xk+1。然后使用x2,x3,…,xk+1來(lái)預(yù)測(cè)xk+2,依此類(lèi)推。GPT和GPT-2都是自回歸語(yǔ)言模型。所以,它們?cè)谖谋旧芍凶儸F(xiàn)不錯(cuò)。

自回歸語(yǔ)言模型的問(wèn)題在于它只能使用前向上下文或后向上下文,這意味著它不能同時(shí)使用前向和后向上下文,從而限制其對(duì)上下文和預(yù)測(cè)的理解。

自動(dòng)編碼器(AE)語(yǔ)言建模

與AR語(yǔ)言模型不同,BERT使用自動(dòng)編碼器(AE)語(yǔ)言模型。AE語(yǔ)言模型旨在從損壞的輸入重建原始數(shù)據(jù)。

在BERT中,通過(guò)添加[MASK]來(lái)破壞預(yù)訓(xùn)練輸入數(shù)據(jù)。例如,'Goa has the most beautiful beaches in India'將成為‘Goa has the most beautiful [MASK] in India’,該模型的目標(biāo)是根據(jù)上下文詞預(yù)測(cè)[MASK]詞。自動(dòng)編碼器語(yǔ)言模型的優(yōu)點(diǎn)是,它可以看到前向和后向的上下文。但是,由于在輸入數(shù)據(jù)中添加[MASK]引入了微調(diào)模型的差異。

BERT有什么問(wèn)題?

雖然通過(guò)使用AE語(yǔ)言建模BERT幾乎在所有NLP任務(wù)中都實(shí)現(xiàn)了SOTA,但它的實(shí)現(xiàn)仍然存在一些漏洞。BERT模型有兩個(gè)主要缺點(diǎn):

1.由于掩蔽導(dǎo)致的微調(diào)差異

訓(xùn)練BERT以預(yù)測(cè)用特殊[MASK]標(biāo)記替換的標(biāo)記。問(wèn)題是在下游任務(wù)中微調(diào)BERT時(shí),[MASK]標(biāo)記永遠(yuǎn)不會(huì)出現(xiàn)。在大多數(shù)情況下,BERT只是將非掩碼標(biāo)記復(fù)制到輸出中。

那么,它真的會(huì)學(xué)會(huì)為非掩碼標(biāo)記生成有意義的表示嗎?它也不清楚如果輸入句中沒(méi)有[MASK]標(biāo)記會(huì)發(fā)生什么。

2.預(yù)測(cè)的標(biāo)記彼此獨(dú)立

BERT假設(shè)在給定未掩蔽的的標(biāo)記的情況下,預(yù)測(cè)的(掩蔽的)標(biāo)記彼此獨(dú)立。為了理解這一點(diǎn),我們來(lái)看一個(gè)例子。

Whenever she goes to the[MASK][MASK]she buys a lot of[MASK].

這可以填寫(xiě)為:

Whenever she goes to theshopping center, she buys a lot ofclothes.

或者

Whenever she goes to thecinema hallshe buys a lot ofpopcorn.

而句子:

Whenever she goes to thecinema hallshe buys a lot ofclothes.

是無(wú)效的。BERT并行預(yù)測(cè)所有掩蔽的的位置,這意味著在訓(xùn)練期間,它沒(méi)有學(xué)會(huì)處理同時(shí)預(yù)測(cè)的掩蔽的標(biāo)記之間的依賴(lài)關(guān)系。換句話(huà)說(shuō),它不會(huì)學(xué)習(xí)到預(yù)測(cè)之間的依賴(lài)關(guān)系。它預(yù)測(cè)標(biāo)記彼此之間互相獨(dú)立。這可能是一個(gè)問(wèn)題的原因是這減少了BERT一次學(xué)習(xí)的依賴(lài)關(guān)系的數(shù)量,使得學(xué)習(xí)信號(hào)比它原本可能的更弱。

XLNet:排列語(yǔ)言建模

BERT在所有傳統(tǒng)語(yǔ)言模型中脫穎而出的原因在于它能夠捕獲雙向上下文。同樣,它的主要缺陷是在預(yù)訓(xùn)練引入[MASK]標(biāo)記和并行獨(dú)立預(yù)測(cè)。

如果我們以某種方式構(gòu)建一個(gè)包含雙向上下文的模型,同時(shí)避免[MASK]標(biāo)記和并行獨(dú)立預(yù)測(cè),那么該模型肯定會(huì)勝過(guò)BERT并取得最先進(jìn)的結(jié)果。

這基本上就是XLNet所實(shí)現(xiàn)的目標(biāo)。

XLNet通過(guò)使用稱(chēng)為“排列語(yǔ)言建模”的語(yǔ)言建模變體來(lái)實(shí)現(xiàn)這一點(diǎn)。訓(xùn)練排列語(yǔ)言模型以預(yù)測(cè)在給定上下文后的一個(gè)標(biāo)記,就像傳統(tǒng)語(yǔ)言模型一樣,但是不是以連續(xù)順序預(yù)測(cè)標(biāo)記,而是以某種隨機(jī)順序預(yù)測(cè)標(biāo)記。為清楚起見(jiàn),我們以下面的句子為例:

“Sometimes you have to be your own hero.”

傳統(tǒng)的語(yǔ)言模型按照下面的順序預(yù)測(cè)標(biāo)記:

“Sometimes”, “you”, “have”, “to”, “be”, “your”, “own”, “hero”

其中每個(gè)標(biāo)記使用所有前面的標(biāo)記作為上下文。

在排列語(yǔ)言建模中,預(yù)測(cè)的順序不一定是從左到右。例如,它可能是:

“own”, “Sometimes”, “to”, “be”, “your”, “hero”, “you”, “have”

其中“Sometimes”會(huì)以看到“own為條件,而“to” 則以看到“own”和“Sometimes”等為條件。

注意如何使用排列語(yǔ)言建模強(qiáng)制模型建模雙向依賴(lài)關(guān)系。期望上,模型應(yīng)該學(xué)習(xí)建模所有輸入組合之間的依賴(lài)關(guān)系,而傳統(tǒng)語(yǔ)言模型只能在一個(gè)方向上學(xué)習(xí)依賴(lài)關(guān)系。

XLNet使用Transformer XL

除了使用排列語(yǔ)言建模之外,XLNet還使用了Transformer XL,它可以進(jìn)一步改善其結(jié)果。

Transformer XL模型背后的主要思想:

相對(duì)位置嵌入

循環(huán)機(jī)制

在對(duì)當(dāng)前段進(jìn)行排列語(yǔ)言建模時(shí),緩存并凍結(jié)來(lái)自前一段的隱藏狀態(tài)。由于來(lái)自前一段的所有單詞都用作輸入,因此不需要知道前一段的排列順序。

雙流自注意力(Two-Stream Self-Attention)

對(duì)于使用Transformer模型的語(yǔ)言模型,當(dāng)預(yù)測(cè)位置i處的標(biāo)記時(shí),該詞的整個(gè)嵌入被掩蔽,包括位置嵌入。這意味著模型與它所預(yù)測(cè)的標(biāo)記位置有關(guān)的知識(shí)隔絕。

這可能是有問(wèn)題的,特別是對(duì)于句子開(kāi)頭的位置,其與句子中的其他位置具有顯著不同的分布。為了解決這個(gè)問(wèn)題,作者引入了第二組表示,其中包含位置信息,但僅為了預(yù)訓(xùn)練而屏蔽了實(shí)際的標(biāo)記。第二組表示稱(chēng)為query stream。訓(xùn)練該模型以使用來(lái)自query stream的信息來(lái)預(yù)測(cè)句子中的每個(gè)標(biāo)記。

包括位置嵌入和詞嵌入的原始表示集稱(chēng)為content stream。這組表示用于在預(yù)訓(xùn)練期間合并與特定單詞相關(guān)的所有信息。content stream用作query stream的輸入。這個(gè)模式稱(chēng)為“雙流自注意力”。

對(duì)于每個(gè)單詞,query stream使用ontent stream,該ontent stream對(duì)直到當(dāng)前單詞的單詞的所有可用上下文信息進(jìn)行編碼。例如,我們?cè)谙旅娴木渥又蓄A(yù)測(cè) “calm” 一詞:

“Keep calm and read papers

其中位于排列前面的詞是 “and”和“papers”。content stream將編碼單詞“and”和“papers”的信息,query stream將編碼 “calm”的位置信息,以及結(jié)合來(lái)自content stream的信息,用于預(yù)測(cè)單詞 “calm”。

總結(jié)

XLNet必將成為研究中討論的話(huà)題。這表明NLP中的語(yǔ)言建模和遷移學(xué)習(xí)還有很多需要探索的地方。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)言建模
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    6324
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22593
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用 BSP 助手創(chuàng)建項(xiàng)目并創(chuàng)建 BSP 后,我應(yīng)該在哪里更改 cy_device_headers.h 列出的設(shè)備名稱(chēng)宏?

    使用 BSP 助手創(chuàng)建項(xiàng)目并創(chuàng)建 BSP 后,我應(yīng)該在哪里更改 cy_device_headers.h 列出的設(shè)備名稱(chēng)宏?例如,我想手動(dòng)將設(shè)備名稱(chēng)從 CY8C4024FNI_S402 更改
    發(fā)表于 06-26 06:06

    可以在哪里修改以更改非 PD 類(lèi)型 C 不同的 Rp 等級(jí)?

    ,但在 C 類(lèi)型不是 PD pd_typec_en_rp ();函數(shù)對(duì) Rp 等級(jí)沒(méi)有影響,那么我們可以在哪里修改以更改非 PD 類(lèi)型 C 不同的 Rp 等級(jí)? 還建議一種在非 pd sink 連接
    發(fā)表于 05-27 07:16

    微控制器讀取閃存的軟件信息時(shí),軟件信息部署在哪里? 是 SRAM 嗎?

    我對(duì) PMG1 閃光燈有疑問(wèn)。 1.微控制器讀取閃存的軟件信息時(shí),軟件信息部署在哪里? 是 SRAM 嗎? 2.微控制器加載軟件時(shí),在部署之前是否檢查 SRAM 是否復(fù)位?
    發(fā)表于 05-23 06:22

    請(qǐng)問(wèn)在哪里可以找到 DFU HOST TOOL?

    DFU Host Tool 的鏈接似乎已關(guān)閉: 請(qǐng)您告訴我還可以在哪里找到該工具。
    發(fā)表于 05-20 06:51

    STMHAL庫(kù)的USB每次插拔時(shí)識(shí)別位置在哪里?

    STMHAL庫(kù)的USB每次插拔時(shí)識(shí)別位置在哪里?
    發(fā)表于 03-07 14:00

    人工智能的下一站在哪里

    DeepSeek的爆發(fā)進(jìn)一步推動(dòng)了AI行業(yè)的發(fā)展速度,這讓人們不得不想象AI的下一站在哪里?維智科技所深耕的時(shí)空大模型與AI發(fā)展的邏輯軌跡又是如何聯(lián)系的?
    的頭像 發(fā)表于 02-14 10:27 ?430次閱讀

    VirtualLab Fusion案例:K域和X域中的系統(tǒng)建模

    有用。此外,我們還展示了VirtualLab Fusion的功能,可以根據(jù)用戶(hù)可調(diào)的精度和計(jì)算量的標(biāo)準(zhǔn),在需要進(jìn)行模擬的任何地方自動(dòng)選擇最適合的傅里葉變換算法。我們還展示了在哪里檢查選擇了哪些傅里葉變換
    發(fā)表于 01-15 08:56

    ADS131M08規(guī)格書(shū)上將“ADC主時(shí)鐘和SCLK同步能實(shí)現(xiàn)最佳性能”,具體相對(duì)于不同步,性能好在哪?

    ADS131M08規(guī)格書(shū)上將“ADC主時(shí)鐘和SCLK同步能實(shí)現(xiàn)最佳性能”,具體相對(duì)于不同步,性能好在哪?
    發(fā)表于 11-21 07:49

    智慧燈桿到底“智慧”在哪里?條形智能為您專(zhuān)業(yè)解讀 AI燈桿屏

    智慧燈桿到底“智慧”在哪里?條形智能為您專(zhuān)業(yè)解讀 AI燈桿屏
    的頭像 發(fā)表于 11-14 13:51 ?630次閱讀
    智慧燈桿到底“智慧”<b class='flag-5'>在哪里</b>?條形智能為您專(zhuān)業(yè)解讀 AI燈桿屏

    貼片電容與貼片電阻的本質(zhì)差異在哪里?

    貼片電容與貼片電阻的本質(zhì)差異在哪里
    的頭像 發(fā)表于 08-27 15:51 ?786次閱讀
    貼片電容與貼片電阻的本質(zhì)差異<b class='flag-5'>在哪里</b>?

    在哪里可以下載opa197和opa4180的符號(hào)和封裝?

    請(qǐng)問(wèn),在哪里可以下載opa197和opa4180的符號(hào)和封裝? 畫(huà)原理圖和PCB,結(jié)果沒(méi)有找到opa197和opa4180的符號(hào)和封裝,在哪里可以找到?
    發(fā)表于 08-27 06:38

    請(qǐng)問(wèn)TINA的電流源在哪里可以找到?

    我想用TINA軟件來(lái)做開(kāi)關(guān)電源的輸出瞬態(tài)仿真測(cè)試。例如輸出電流源沖1A到2A的跳變,測(cè)試輸出電壓的變化值。我在TINA沒(méi)有找到對(duì)應(yīng)的脈沖電流源,但是在WEBENCH就有的。請(qǐng)問(wèn)TINA的電流源在哪里可以找到?
    發(fā)表于 08-09 08:22

    請(qǐng)問(wèn)fpga與單片機(jī)最大的區(qū)別在哪里?

    fpga和單片機(jī)是用得最多的兩款芯片,那么兩者最大的不同點(diǎn)在哪里呢?
    發(fā)表于 07-30 21:32

    Python建模算法與應(yīng)用

    上成為理想的腳本語(yǔ)言,特別適用于快速的應(yīng)用程序開(kāi)發(fā)。本文將詳細(xì)介紹Python在建模算法的應(yīng)用,包括常見(jiàn)的建模算法、Python在建模
    的頭像 發(fā)表于 07-24 10:41 ?1213次閱讀

    CYUSB3014無(wú)法在閃存編程圖像,問(wèn)題出在哪里?

    not found\" 消息。 我無(wú)法在 Flash 中加載圖像。 問(wèn)題可能出在哪里? 我們使用的閃存部件是 MT25QL128ABA8E12。
    發(fā)表于 07-23 07:30