chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

CLarET:實現(xiàn)上下文到事件相關感知的預訓練模型

深度學習自然語言處理 ? 來源:arxiv.org ? 作者:Yucheng Zhou, Tao She ? 2022-10-11 15:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Yucheng Zhou, Tao Shen, Xiubo Geng, Guodong Long, Daxin Jiang

自然語言文本里描述的“事件”,通常是由一個謂詞及其論點組成的一個文本片段(span),是一個細粒度的語義單元,描述了實體的狀態(tài)和行為,如 He looks very worried 和 I grab his arms。理解事件并建模它們之間的相關性是許多推理任務的基礎。在圖1的例子中,想要生成事件[E],模型需要先知道這里有四個事件,“it tries the knob”、“[E]”、“the creature starts pounding on the door”、“(the creature) to break it down”,然后根據(jù)其他三個事件及其相關性,如“but”表達的對比關系和“so”表達的因果關系,來預測[E]。

4f92ff70-48b7-11ed-a3b6-dac502259ad0.png

現(xiàn)有的基于事件的推理工作中,很多是針對某個特定的任務設計的,包括溯因推理、故事結尾的分類和生成、反事實推理、腳本推理等具體的任務,算法的應用范圍較窄。預訓練模型時代,更好的方案是直接訓練一個基于事件的預訓練模型,然后推廣到各種下游推理任務上。當然,倒也不必從0到1,通常情況下,只需在通用的預訓練語言模型(如BERT、GPT、BART、T5)上做微量的 continue pre-training,就能得到適用于某個領域的較好的模型了。

CLarET

ClarET由三個預訓練任務組成,分別是Whole Event Recovering,Contrastive Event-correlation Encoding和Prompt-based Event Locating。

Whole Event Recovering(WER)

WER 的目的非常直接,就是讓 encoder-decoder 架構的生成式模型還原被 mask 的整句事件描述。具體的,給定一段文本 ,其中某句話描述了事件 ,現(xiàn)在要做的就是用一個特殊標簽 [M] 把這句話在原文中替換掉,這里用 表示被 mask 的原文。然后將文本給到 encoder,再由 decoder 還原事件 的描述。用數(shù)學公式表示的話,就是求解給定上下文 和模型 的前提下, 的概率值:

4fb4a5ee-48b7-11ed-a3b6-dac502259ad0.png

參照 Transformer 序列生成,這部分的訓練目標就是優(yōu)化事件 上的最大似然估計,因此損失函數(shù)定義為:

4fcae1b0-48b7-11ed-a3b6-dac502259ad0.png

其中, 表示被 mask 的整個事件的描述, 則表示 的 tokenized tokens,即 。是 decoder 的預測概率分布,表示在 t-step, 的概率。decoder 的預測依賴 encoder 部分的輸出:

4fdefaa6-48b7-11ed-a3b6-dac502259ad0.png

4ff9c052-48b7-11ed-a3b6-dac502259ad0.png

這個目標類似于span recovering,但不同之處在于,在這里:

是按照一個完整的事件描述來選取 masked span 的,所以 masked span 的長度遠大于普通的 span recovering 中的 masked span(普通的 span 最多只有22個 tokens,圖4提供了長度分布);

另外,為了促進事件及其上下文之間的事件相關性建模,ClarET 每次只會 mask 一個事件,而其他的 MLM 工作通常會有多個 masked span。

事實上,由于現(xiàn)在這種 event-level 的 masked spans 比較長,就會一定程度上影響模型學習事件及其上下文之間的關系,具體體現(xiàn)在:

Encoder-Decoder 架構的生成式模型,如 BART 或 T5,依賴的是 token-level 的隱式共現(xiàn)來恢復事件描述,但是上下文 和事件 之間那種 event-level 的相關性就沒有被模型利用到,所以就目前以 WER 為預訓練任務得到的這個模型,在事件推理的任務上表現(xiàn)并不好。

由于現(xiàn)在直接將整個事件描述都 mask了,它的前一部分語義完整,后一部分也語義完整,它自己也語義完整,所以某種程度上來說,這個被 mask 的部分,出現(xiàn)什么句子都有道理,也就是說模型要正確還原一整段完整的話還是有相當?shù)碾y度的,具體可以參考一些autoencoding MLM的工作。

為了解決這兩個問題,作者增加了兩個預訓練任務,分別是,在 encoder 端增加事件相關的對比學習任務來增強上下文和事件之間的相關性,以及prompt-based event locating,意圖降低 decoder 端的生成難度。

Contrastive Event-correlation Encoding

對于第一個問題,本文提出的解決方案是,在 encoder 端顯示地強調缺失事件的上下文和被 mask 的事件之間的相關性,并使用對比學習來實現(xiàn)。對比學習通過對比來學習區(qū)分事物,通常的做法是將數(shù)據(jù)分別與正例樣本和負例樣本在特征空間進行對比,并構造合適的 loss 函數(shù),拉近數(shù)據(jù)與正樣例的距離,同時盡可能遠離負樣例。因此,可以通過構造與上下文不相關的負例事件,和正確的事件一起提供給模型,增強模型學習正確的事件描述及其上下文的相關性的能力。正例事件 和它的負樣例 的 encoder embeddings 為和 :

501e1858-48b7-11ed-a3b6-dac502259ad0.png

在以下對比學習 loss 中,和 增強了 里 [M] 這個 token 在 中的表示 。本文中使用的距離函數(shù) d(·,·)是歐幾里得距離。

50471a32-48b7-11ed-a3b6-dac502259ad0.png

經過負樣本增強的 也會在 decode 階段提供事件級信息,一定程度上也會對緩解第二個問題有幫助吧。

Prompt-based Event Locating

不過針對第二個問題,作者有更加直接的方案,就是利用 prompt,將 WER 目標簡化為提取生成任務,模型僅需從提示中定位(有助于模型縷清句子之間的承接關系)和復制一個候選的提示出來(限制模型的搜索范圍)。

首先第一種提示,“選正確的事件描述”。作者參考 prompt-based multi-choice QA,也設計了一個 Option prompt。這里稍微講一下 Multi-choice question answering(MCQA) 任務,MCQA 就是根據(jù)給定的問題,從候選答案中選擇正確的答案[2]。現(xiàn)有 MCQA 存在以下兩種做法:1) Text-to-Text:通過BART或T5等生成預訓練模型,將問題和各個候選項同時編碼,讓模型直接生成正確的答案;2) Encoder-Only:通過 BERT 或 RoBERTa 等預訓練模型,將候選項分別與問題一起編碼,得到每個候選項的表示,再比較各個候選項的表示,選出答案。在本文中,使用的是 Text-to-Text 范式來設計 Option prompt。

5056ed90-48b7-11ed-a3b6-dac502259ad0.png

對于每段文本 ,會 sample 出 M 個 negative event ,和正確的 event 一起,共 M+1 句話,將它們隨機排列之后,拼接到的后邊得到 。這里給出 的一個樣例:“Dan’s parents were overweight. [M] The doctors told his parents it was unhealthy. His parents understood and decided to make a change. Options: (a)They got themselves and Dan on a diet. (b)Dan was overweight as well. (c) They went to see a doctor.” 其中正確的選項是 (b),即,模型需要生成“Dan was overweight as well.”這句話。參照 WER,這部分的目標表示為 。

5072512a-48b7-11ed-a3b6-dac502259ad0.png

其次第二種提示,“找錯誤的事件描述”。類比不連貫推理,原文中的目標事件會被某個錯誤的事件 所替換,模型的任務就是指認出 ,相應的 prompt 可以構造成如下形式:

50894858-48b7-11ed-a3b6-dac502259ad0.png

同樣以剛剛的文本為例,這里的輸入應該是:“Dan’s parents were overweight.They got themselves and Dan on a diet. The doctors told his parents it was unhealthy. His parents understood and decided to make a change. Event: [M] is wrong.”模型的輸出則是“They got themselves and Dan on a diet.”,因為這句話是錯的。這部分的目標表示為。

基于以上兩種 prompt 范式,這部分的優(yōu)化目標為:

50946e90-48b7-11ed-a3b6-dac502259ad0.png

模型預訓練和 fine-tuning 的過程

ClarET 基于上面的三個任務進行 pre-training,相應的 loss 就是直接線性相加它們各自的 loss:

50acfbb8-48b7-11ed-a3b6-dac502259ad0.png

不過有監(jiān)督的 fine-tuning 會因為下游任務而不太一樣。對于生成式任務,只會 fine-tuning 第一個任務。對于判別式任務,如 multi-choice,既可以類似 GPT/T5 那樣定制 prompt,以生成式的方式來做,使用 negative log-likelihood loss;也可以像 BART 那樣取 classifying heads 做分類式的 fine-tuning,使用 cross-entropy loss。實驗發(fā)現(xiàn) BART 這種效果更好,所以接下來的相關實驗都采用了這種形式。

與其他基于事件的預訓練模型對比

本文還稍微對比了一下 ClarET 和另外兩個事件預訓練模型 EventBERT 和 COMeT。ClarET 跟 EventBERT 的數(shù)據(jù)處理以及動機是一致的,但是 EventBERT 是“discriminative-only”,即僅適用于分類任務,ClarET 則在是生成式的范式,能支持更加“unified”的場景;另外,ClarET 的對比學習和基于 prompt 的事件定位這兩個任務,能顯示并有效地學習上下文和事件之間的 event-level corrections,相比 EventBERT 的“event-backfilling and contextualizing”更高效。另一個,COMeT,它雖然也是一個生成式模型,但側重于 triple-level 的常識推理——給定(head event, relation)來生成 tail events,動機、范圍、評價指標,跟 ClarET 都是正交的。

實驗/分析

主要結果

本文選取了5個生成任務和4個分類任務作為下游任務進行模型的評估,每個任務使用一種數(shù)據(jù)集。生成任務包括 ART (αNLG) 上的溯因常識推理、TIMETRAVEL 上的反事實故事生成、故事結尾生成、常識故事生成和 APSI 上的事件過程完成。分類任務包括 MCNC 上的腳本推理、ART (αNLI)上的誘導常識推理、ROCStories 上的敘事不連貫檢測和故事完形填空測試。

從表1看來,ClarET 在生成式任務上表現(xiàn)相當優(yōu)異,都達到了 SOTA,一定程度上說明了基于 event-level 做 few steps continual pre-training 是可行的方案。當然,在生成式范式的加持下,ClarET 很自然地能為“各種以事件為中心的相關推理任務提供一個通用的解決方案”。

再來看看表2,ClarET 在分類任務上也挺不錯的,可以跟強判別式模型比如 EventBERT 拼一拼,雖然某些任務的精度稍差一點,但是 GPU 小時比 EventBERT 少了5.6倍,而且泛化性比判別式好。有一點需要注意,EventBERT 的預訓練任務范式和下游任務范式其實是差不多的,而 ClarET 預訓練是生成式的,下游任務則換成分類,還是差挺多的,這樣還能有如此結果,說明 ClarET 還是有一定優(yōu)勢的。后續(xù)也可以把 ClarET 作為統(tǒng)一的基于事件的預訓練模型,用在以事件為中心的相關任務上。

50cf6f04-48b7-11ed-a3b6-dac502259ad0.png

5101191e-48b7-11ed-a3b6-dac502259ad0.png

一些定量分析

Zero-shot Learning

這部分實驗主要想驗證 ClarET 有沒有學到事件信息,對比對象是其他的 MLM 模型,結果看表3和表4,還是按生成式和分類式劃分。通用的預訓練模型沒有針對事件進行任何處理,可想而知結果跟 ClarET 是比不了的。Zero-shot 設定下,ClarET 顯然是最好的。

5122ab1a-48b7-11ed-a3b6-dac502259ad0.png

51482926-48b7-11ed-a3b6-dac502259ad0.png

Few-shot Learning

因為 ClarET 減少了預訓練和微調在事件上的不一致,所以只需要10%-30%的訓練數(shù)據(jù)進行微調,就可以實現(xiàn)與強基線類似的性能(圖3)。

5157f73e-48b7-11ed-a3b6-dac502259ad0.png

Ablation study

表5在生成和分類任務上分別進行了三個預訓練目標任務的消融實驗,每個預訓練任務都能在基準模型 BART-large 的基礎上帶來提升。

517847f0-48b7-11ed-a3b6-dac502259ad0.png

Comparison with Larger Model

表7驗證了事件相關知識能使預訓練模型在參數(shù)量較少的情況下也能有較好的表現(xiàn)。

519971c8-48b7-11ed-a3b6-dac502259ad0.png

Difficulty of Event Generation

表6,驗證只使用 WER 的預訓練存在學習困難問題,而額外的兩個預訓練任務能緩解這個問題。用的評價指標是事件級困惑度 ePPT。我們都知道,當我們在比較幾個語言模型的優(yōu)劣時,我們希望更好的語言模型能賦予測試集中的正確句子更高的概率值,相應的,模型的困惑度(Perplexity)就越低;那么類比 PPL,ePPL 就可以理解為,期望更好的語言模型能夠賦予相關事件的句子更高的概率值,且相應的整體 ePPL 越低越好。所以當表6中 ClarET 的 ePPL 明顯低于 WER-Only Model 時,說明額外的兩個預訓練任務能有效改善 WER。

51ae98e6-48b7-11ed-a3b6-dac502259ad0.png

Long-span Event Generation.

圖4, 驗證 ClarET 在 longer-span 事件生成上更有優(yōu)勢。本實驗的數(shù)據(jù)里,大部分事件長度在6-8,但仍然有很多大于9的樣例??梢悦黠@看到,隨著事件長度的增加,其他模型與 ClarET 之間的差距越來越大,因為通用模型在預訓練時只考慮了短的 masked span,導致事件生成較差。

51d0556c-48b7-11ed-a3b6-dac502259ad0.png

Natural Language Understanding (NLU)

圖5,驗證 minor event-centric continual pre-training 不會損害 BART-large 本身的 NLU 能力,用 GLUE 基準做的驗證實驗。結果是 fine-tuning 的 BART 和 ClarET 相差不多,說明 ClarET 仍然保留了相當?shù)?NLU 能力。

51e27012-48b7-11ed-a3b6-dac502259ad0.png

案例研究與錯誤分析

最后是 case study 和 error analysis。

圖6給了兩個生成溯因推理任務的 case。第一個 case 顯示 ClarET 能較好地掌握上下文,生成的結果比 BART 要完整。

第二個 case 顯示,當 gold event 很復雜時,ClarET 的生成結果比較不理想,主要體現(xiàn)在,傾向于忽略比較細微的上下文。具體來說,該模型只關注‘at the end of the day’從而生成‘... spent the whole day ...’,而忽略了‘starting her job ...teacher’和‘they liked her’。更進一步,作者發(fā)現(xiàn)模型在解碼長事件時普遍存在一個現(xiàn)象,即 ClarET 和 WER-only 之間的 token-level perplexity 的差距逐漸減小(圖7)。

作者分析,是因為當 mask 的 span 較長時,模型傾向于在解碼過程基于已經生成的 tokens 預測下一個 token,而不是去利用上下文,并且 span 越長越明顯。這個問題,目前倒是還沒有看到很好的解決辦法。

51f17648-48b7-11ed-a3b6-dac502259ad0.png

5210b27e-48b7-11ed-a3b6-dac502259ad0.png

結論

本次分享的 ClarET,雖然主要工作是基于事件推理,但是對于其他以事件為中心的任務(如情感分析)還是有不少借鑒之處,特別是后兩個預訓練任務,從對比學習和提示學習的角度緩解了 long masked span 學習困難的問題,這樣的思路也可以推廣到其他“從上下文學習語義文本單元”的任務中去,例如當文本單元是實體和概念時,可以用于學習關系和常識知識。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5038

    瀏覽量

    133841

原文標題:CLarET:實現(xiàn)上下文到事件相關感知的預訓練模型

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    關于進程上下文、中斷上下文及原子上下文的一些概念理解

    不同運行狀態(tài),才有了上下文的概念。用戶空間的應用程序,如果想請求系統(tǒng)服務,比如操作某個物理設備,映射設備的地址用戶空間,必須通過系統(tǒng)調用來實現(xiàn)。(系統(tǒng)調用是操作系統(tǒng)提供給用戶空間的接口函數(shù))。 通過系統(tǒng)
    發(fā)表于 09-06 09:58

    進程上下文與中斷上下文的理解

    來源 網(wǎng)絡一.什么是內核態(tài)和用戶態(tài)內核態(tài):在內核空間執(zhí)行,通常是驅動程序,中斷相關程序,內核調度程序,內存管理及其操作程序。用戶態(tài):用戶程序運行空間。 二.什么是進程上下文與中斷上下文1.進程
    發(fā)表于 12-11 19:45

    進程上下文/中斷上下文及原子上下文的概念

    為什么會有上下文這種概念進程上下文/中斷上下文及原子上下文的概念
    發(fā)表于 01-13 07:17

    基于多Agent的用戶上下文自適應站點構架

    自適應站點很少考慮對用戶環(huán)境的自適應。為此,提出用戶上下文自適應站點的概念,給出基于多Agent技術的用戶上下文自適應站點構架模型。闡述用戶上下文獲取、挖掘過程以及站
    發(fā)表于 04-11 08:49 ?13次下載

    移動設備的個性化推薦在上下文感知應用

    個性化推薦對上下文感知系統(tǒng)具有廣泛而重要應用,現(xiàn)在大多數(shù)個性化推薦系統(tǒng)很少考慮用戶的認知風格。文中比較了場獨立用戶和場依賴用戶在上下文感知環(huán)境中所存在的差異
    發(fā)表于 01-15 16:57 ?10次下載

    終端業(yè)務上下文的定義方法及業(yè)務模型

    該文針對業(yè)務上下文僅關注業(yè)務質量較少考慮用戶終端環(huán)境的現(xiàn)狀,提出終端業(yè)務上下文的概念,為普適業(yè)務的開展提供必要的信息支撐。給出一種終端業(yè)務上下文的通用定義方法
    發(fā)表于 03-06 11:06 ?11次下載

    基于Pocket PC的上下文菜單實現(xiàn)

    介紹了基于 Pocket PC 中的點按操作概念, 論述了在Pocket PC 中上下文菜單的實現(xiàn)原理及方法, 并給出了基于MFC 下的Windows CE 應用程序實現(xiàn)上下文菜單的步
    發(fā)表于 07-25 18:26 ?17次下載

    基于Pocket PC的上下文菜單實現(xiàn)

    本文介紹了基于 Pocket PC 中的“點按”操作概念 論述了在 Pocket PC 中上下文菜單的實現(xiàn)原理及方法 并給出了基于 MFC 下的 Windows CE 應用程序實現(xiàn)上下文
    發(fā)表于 04-18 10:46 ?0次下載

    基于上下文相似度的分解推薦算法

    模型,再對目標用戶的K個鄰居用戶建立移動用戶一上下文一移動服務三維張量分解模型,獲得目標用戶的移動服務預測值,生成移動推薦。實驗結果顯示,與余弦相似性方法、Pearson相關系數(shù)方法和
    發(fā)表于 11-27 17:42 ?0次下載

    Web服務的上下文的訪問控制策略模型

    Web服務環(huán)境中,交互實體通常位于不同安全域,具有不可預見性。Web服務應該基于其他與領域無關的信息而非身份來實施訪問控制,以實現(xiàn)對跨域未知用戶的訪問授權。為此,提出了適應于Web服務的基于上下文
    發(fā)表于 01-05 16:32 ?0次下載

    基于Transformer模型上下文嵌入何時真正值得使用?

    作者發(fā)現(xiàn),在決定BERT-embedding和Glove-embedding的效果性能方面,訓練數(shù)據(jù)量起著關鍵作用。通過使用更多的訓練數(shù)據(jù),非上下文嵌入很快得到了改善,并且在使用所有可用數(shù)據(jù)時,通常能夠在BERT
    的頭像 發(fā)表于 08-28 10:44 ?3261次閱讀
    基于Transformer<b class='flag-5'>模型</b>的<b class='flag-5'>上下文</b>嵌入何時真正值得使用?

    如何分析Linux CPU上下文切換問題

    在我的上一篇文章:《探討 Linux CPU 的上下文切換》中,我談到了 CPU 上下文切換的工作原理??焖倩仡櫼幌?,CPU 上下文切換是保證 Linux 系統(tǒng)正常運行的核心功能??煞譃檫M程
    的頭像 發(fā)表于 05-05 20:11 ?2547次閱讀

    網(wǎng)絡安全中的上下文感知

    當今,所有網(wǎng)絡安全領域都在向上下文感知基礎設施轉變。應用程序感知、身份感知、內容感知、流程感知、
    的頭像 發(fā)表于 09-20 09:27 ?2767次閱讀

    我們能否擴展現(xiàn)有的訓練 LLM 的上下文窗口

    ? ? 在大家不斷升級迭代自家大模型的時候,LLM(大語言模型)對上下文窗口的處理能力,也成為一個重要評估指標。 ? 比如 OpenAI 的 gpt-3.5-turbo 提供 16k token
    的頭像 發(fā)表于 06-30 11:09 ?1113次閱讀
    我們能否擴展現(xiàn)有的<b class='flag-5'>預</b><b class='flag-5'>訓練</b> LLM 的<b class='flag-5'>上下文</b>窗口

    DeepSeek推出NSA機制,加速長上下文訓練與推理

    的特性,專為超快速的長上下文訓練和推理而設計。 NSA通過針對現(xiàn)代硬件的優(yōu)化設計,顯著加快了推理速度,并大幅度降低了訓練成本,同時保持了卓越的性能表現(xiàn)。這一機制在確保效率的同時,并未
    的頭像 發(fā)表于 02-19 14:01 ?816次閱讀