chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

摘要模型理解或捕獲輸入文本的要點

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)自然語言 ? 2022-11-01 11:37 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Abstract & Intro

盡管基于預(yù)訓(xùn)練的語言模型的摘要取得了成功,但一個尚未解決的問題是生成的摘要并不總是忠實于輸入文檔。造成不忠實問題的原因可能有兩個: (1)摘要模型未能理解或捕獲輸入文本的要點; (2)模型過度依賴語言模型,生成流暢但不充分的單詞。 在本文研究中,提出了一個忠實增強摘要模型(FES),旨在解決這兩個問題,提高抽象摘要的忠實度。對于第一個問題,本文使用問答(QA)來檢查編碼器是否完全掌握輸入文檔,并能夠回答關(guān)于輸入中的關(guān)鍵信息的問題。QA 對適當輸入詞的注意也可以用來規(guī)定解碼器應(yīng)該如何處理輸入。 對于第二個問題,本文引入了一個定義在語言和總結(jié)模型之間的差異上的最大邊際損失,目的是防止語言模型的過度自信。在兩個基準總結(jié)數(shù)據(jù)集(CNN/DM 和 XSum)上的大量實驗表明,本文的模型明顯優(yōu)于強基準。事實一致性的評估也表明,本文的模型生成的摘要比基線更可靠。


本文的主要貢獻如下: 1. 提出了一種信度增強摘要模型,從編碼器端和解碼器端都緩解了不信度問題。 2. 提出了一個多任務(wù)框架,通過自動 QA 任務(wù)來提高摘要性能。還提出了一個最大邊際損失來控制 LM 的過度自信問題。 3. 實驗結(jié)果表明,與基準數(shù)據(jù)集上的最新基線相比,本文提出的方法帶來了實質(zhì)性的改進,并可以提高生成摘要的忠實度。

Model Architecture

本文從三個方面實現(xiàn)了信度的提高: (1)多任務(wù)編碼器。它通過檢查輔助 QA 任務(wù)的編碼文檔表示的質(zhì)量,提高了對輸入文檔的語義理解。編碼的表示因此捕獲關(guān)鍵輸入,以便做出忠實的總結(jié)。 (2)QA 注意增強解碼器。來自多任務(wù)編碼器的注意使解碼器與編碼器對齊,以便解碼器能夠獲取更準確的輸入信息以生成摘要。 (3)Max-margin 損失。這是一個與代損耗正交的損耗。它測量 LM 的準確性,防止它在生成過程中過度自信。

5bd81334-591e-11ed-a3b6-dac502259ad0.png ? ?

2.1 Multi-task Encoder

多任務(wù)編碼器設(shè)計用于對輸入文檔進行編碼,以便在集成訓(xùn)練過程中進行摘要和問題回答,如圖 1(b)所示。這與之前的工作不同,之前的工作是在后期階段使用 QA 來評估生成摘要的忠實度,如圖 1(a)所示。本文讓 QA 更接近編碼器,而不是把它留給后生成的總結(jié),并讓編碼器接受訓(xùn)練,同時完成 QA 和總結(jié)任務(wù)。在多任務(wù)編碼器的綜合訓(xùn)練中,除了摘要生成質(zhì)量外,還將忠實度作為優(yōu)化目標,答案是來自文檔的關(guān)鍵實體,因此 QA 對關(guān)注輸入中的關(guān)鍵信息。 5c55281a-591e-11ed-a3b6-dac502259ad0.png

如圖 2 所示,我們首先應(yīng)用經(jīng)典的 Transformer 架構(gòu),獲得文檔和問題的 token 表示, 和 ,然后設(shè)計編碼器,從實體層和句子層理解問題和輸入文檔問題。

Encoding at Multi-level Granularity 本文通過在不同粒度級別組織表示學(xué)習(xí)來構(gòu)建編碼器。我們使用實體作為基本語義單位,因為它們包含貫穿全文的緊湊而突出的信息,而閱讀理解題的重點是實體。由于問題通常很短,本文為每個問題創(chuàng)建一個節(jié)點。本文將雙向邊從問題添加到句子節(jié)點,從句子添加到實體節(jié)點。這些節(jié)點作為句與句之間的中介,豐富了句與句之間的關(guān)系。由于初始的有向邊不足以學(xué)習(xí)反向信息,本文在前面的工作的基礎(chǔ)上,在圖中添加了反向邊和自環(huán)邊。 在構(gòu)造了具有節(jié)點特征的圖之后,使用圖注意網(wǎng)絡(luò)來更新語義節(jié)點的表示,圖注意層(GAT)設(shè)計如下:

5c78013c-591e-11ed-a3b6-dac502259ad0.png

5c8b938c-591e-11ed-a3b6-dac502259ad0.png

5c9fe76a-591e-11ed-a3b6-dac502259ad0.png

其中 是輸入節(jié)點的隱藏狀態(tài),其中 N 是節(jié)點 i 的相鄰節(jié)點集, 是可訓(xùn)練權(quán)值, 是 和 之間的注意權(quán)值。輸出實體特征矩陣、句子特征矩陣和問題矩陣:。 Answer Selector for the QA task 在融合來自問題和文檔的信息之后,可以從文檔中選擇實體作為問題的答案。具體來說,本文在問題和圖中的實體之間應(yīng)用了多頭交叉注意以獲得識別問題的實體表示:=MHAtt(),i 是問題索引。本文采用前饋網(wǎng)絡(luò)(FFN)生成實體提取概率 ,QA 的目標是最大限度地提高所有基本事實實體標簽的可能性: 5cd56b38-591e-11ed-a3b6-dac502259ad0.png

2.2 QA Attention-enhanced Decoder

一個忠實的解碼器需要注意并從編碼器中獲取重要的內(nèi)容,而不是混合輸入。QA 對關(guān)鍵實體的關(guān)注可以被視為重要信號,表明哪些實體應(yīng)該包含在摘要中。因此,本文提出了一個由 QA 關(guān)注增強的摘要生成器。一般來說,以實體為中介的解碼器狀態(tài)關(guān)注編碼器狀態(tài),其中實體級別的注意由 QA 注意指導(dǎo)。

具體來說,對于每一層,在第 t 步解碼時,我們對 masked 摘要嵌入矩陣E進行自注意,得到 。基于 ,我們計算實體的交叉注意分數(shù) 。 5cec1cfc-591e-11ed-a3b6-dac502259ad0.png ? 實際上,第一個注意層捕獲已解碼序列的上下文特征,而第二層則包含 中的實體信息.我們最小化在第 t 步的實體上的 QA 注意 Ai 和摘要注意 Et 之間的 KL 散度,以幫助總結(jié)模型了解哪些實體是重要的:

5d20513e-591e-11ed-a3b6-dac502259ad0.png

然后,通過在源詞序列 Hw 和 上應(yīng)用另一個 MHAtt 層,我們使用實體級注意來指導(dǎo)與關(guān)鍵實體相關(guān)的源標記的選擇:

5d317e1e-591e-11ed-a3b6-dac502259ad0.png

該上下文向量 vt 被視為從各種來源總結(jié)的顯著內(nèi)容,被發(fā)送到前饋網(wǎng)絡(luò)以生成目標詞匯表的分布,即 5d4507fe-591e-11ed-a3b6-dac502259ad0.png ? 通過優(yōu)化預(yù)測目標詞的負對數(shù)似然目標函數(shù),更新所有可學(xué)習(xí)參數(shù) 5d5b230e-591e-11ed-a3b6-dac502259ad0.png

2.3 Max-margin Loss

信息不充分的解碼器會忽略一些源段,更像是一個開放的 LM,因此容易產(chǎn)生外部錯誤。受信度增強機器翻譯工作的啟發(fā),本文在摘要任務(wù)中引入了一個 max-margin loss,以使摘要模型的每個 token 與 LM 的預(yù)測概率的差值最大化,如圖 3 所示,這抑制了摘要器產(chǎn)生常見但不忠實的單詞的趨勢。 5d75123c-591e-11ed-a3b6-dac502259ad0.png

▲ 當 LM 不夠準確時,本文的模型可以通過最大邊際損失防止 LM 的過度自信,預(yù)測出正確的目標詞,而基線模型則不能。

具體來說,我們首先將摘要模型和 LM 之間的差值定義為預(yù)測概率的差值:

5d9224ee-591e-11ed-a3b6-dac502259ad0.png

其中 X 為輸入文檔, 表示 LM 的第 t 個令牌的預(yù)測概率。如果 mt 很大,那么總結(jié)模型顯然比 LM 好。當 mt 很小的時候,有兩種可能。一是 LM 模型和總結(jié)模型都有很好的性能,因此預(yù)測的概率應(yīng)該是相似的。另一種可能是 LM 不夠好,但過于自信,這會導(dǎo)致總結(jié)器性能不佳。LM 夠好,但過于自信,這會導(dǎo)致總結(jié)器性能不佳。 本文給出了最大邊際損失 Lm,它在邊際上增加了一個系數(shù)

5dae6136-591e-11ed-a3b6-dac502259ad0.png

當 Pt 較大時,摘要模型可以很好地學(xué)習(xí),不需要過多關(guān)注 mt。這體現(xiàn)在 mt 的小系數(shù)(1?Pt)上。另一方面,當 Pt 較小時,意味著摘要器需要更好地優(yōu)化,大系數(shù)(1?Pt)使模型能夠從邊際信息中學(xué)習(xí)。

、、、 這四種損耗是正交的,可以組合使用來提高信度。

Experiment

3.1 Dataset

本文在兩個公共數(shù)據(jù)集(CNN/DM 和 XSum)上演示了方法的有效性,這兩個公共數(shù)據(jù)集在以前的摘要工作中被廣泛使用。這兩個數(shù)據(jù)集都基于新聞,由大量事件、實體和關(guān)系組成,可用于測試摘要模型的事實一致性。

本文的摘要模型伴隨著一個 QA 任務(wù)。因此,使用由 QuestEval 工具為每個用例預(yù)先構(gòu)建 QA 對。

3.2 Result

Automatic Evaluation

5df60df6-591e-11ed-a3b6-dac502259ad0.png▲ QE 加權(quán) F1 分數(shù)

當使用 oracle QA(黃金問答)對評估 QA 任務(wù)帶來的效益的上限時,我們還展示了我們的模型在測試數(shù)據(jù)集上的性能。我們可以看到,oracle 顯著地提高了性能,性能最好的模型達到了50.50 的 ROUGE-1 評分。結(jié)果表明:1)如果有較好的 QA 對,模型性能有進一步提高的潛力;2)輔助 QA 任務(wù)確實對模型有幫助。

Human Evaluation

5e1bcc58-591e-11ed-a3b6-dac502259ad0.png

▲ 在 CNN/DM 數(shù)據(jù)集上,比 BART 差、持平或更好的摘要的百分比。XSum 數(shù)據(jù)集上比 PEGASUS 差、與 PEGASUS 持平或優(yōu)于 PEGASUS 的摘要的百分比

Ablation Study

1. 沒有多任務(wù)框架,各項指標都有所下降,表明在使用 QA 多任務(wù)時,編碼器確實增強了學(xué)習(xí)更全面表示的能力。

2. QA 注意指導(dǎo)被移除后,QE 分數(shù)下降了 0.28。這表明,將 QA 注意與重要實體的摘要注意對齊,可以幫助模型從輸入中捕獲要點信息,而將這種損失限制在有限部分實體上,可以引導(dǎo)解碼器從輸入中獲取有意義的內(nèi)容。

3. 除去最大邊際損失后,F(xiàn)actCC 評分下降了 0.63。這表明,防止 LM 過度自信有助于提高信任度。

4. 最后,當使用隨機 QA 對作為引導(dǎo)時,F(xiàn)ES 的性能有所下降,但大大優(yōu)于 BART。這表明,加強對文檔的理解是有幫助的,即使它并不總是與關(guān)鍵信息相關(guān)。但是,通過對關(guān)鍵實體提出問題,可以進一步提高性能。

The Number of QA pairs

5e4d1f38-591e-11ed-a3b6-dac502259ad0.png ? 首先看到 ROUGE 分數(shù)隨著 QA 對的數(shù)量而增加。達到 8 之后,這種改善開始消失。一個可能的原因是,答案不再關(guān)注文檔中的重要信息。注意,F(xiàn)ES 的性能在 8-15 個 QA 對范圍內(nèi)保持在較高水平,證明了 FES 的有效性和魯棒性。最后,我們選擇在模型中默認包含 8 個 QA 對。

Margin between FES and the LM

5e78b986-591e-11ed-a3b6-dac502259ad0.png

▲ 負 mt 為過度自信,mt 為 0 和 1 時模型準確 首先,圖(b)中 BART 仍然有很多 mt 為負的 token,并且有大量 mt 在 0 附近,這說明 LM 對于很多令牌可能是過度自信的。與 BART 相比,F(xiàn)ES 降低了 2.33% 的負 mt,提高了 0.11 點的平均 mt。這證明 LM 的過度自信問題在很大程度上得到了解決。此外,我們在圖(c)中繪制了 mt 在所有單詞和實體單詞上的比較??梢钥闯觯瑢嶓w詞在 0 左右的比例明顯降低,驗證了我們的假設(shè),LM 對于很多虛詞是準確的。

Conclucion

本文提出了具有最大邊際損失的多任務(wù)框架來生成可靠的摘要。輔助問答任務(wù)可以增強模型對源文檔的理解能力,最大邊際損失可以防止 LM 的過度自信。實驗結(jié)果表明,該模型在不同的數(shù)據(jù)集上都是有效的。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3808

    瀏覽量

    138074
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10795
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25453

原文標題:NIPS'22 | 如何提高生成摘要的忠實度?

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    STM32定時器(三)輸入捕獲

    STM32的定時器是支持信號輸入捕獲的,何為輸入捕獲?主要做什么應(yīng)用?
    的頭像 發(fā)表于 07-21 14:58 ?5604次閱讀
    STM32定時器(三)<b class='flag-5'>輸入</b><b class='flag-5'>捕獲</b>

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

    能夠關(guān)注到輸入文本中的重要部分,從而提高預(yù)測的準確性和效率。這種機制允許模型在處理文本時同時考慮多個位置的信息,并根據(jù)重要性進行加權(quán)處理。 一些關(guān)鍵技術(shù) 1. 上下文
    發(fā)表于 08-02 11:03

    msp430捕獲事件輸入源怎么理解?

    msp430捕獲事件輸入源怎么理解
    發(fā)表于 11-07 08:01

    基于統(tǒng)計和理解的自動摘要方法

    針對微博內(nèi)容駁雜、信息稀疏的問題,深入研究傳統(tǒng)自動摘要技術(shù),結(jié)合微博數(shù)據(jù)特點,在微博事件提取的基礎(chǔ)上提出一種基于統(tǒng)計和理解的混合摘要方法。首先根據(jù)詞頻、句子位置等文本特征得到基于統(tǒng)計的
    發(fā)表于 11-29 14:51 ?0次下載
    基于統(tǒng)計和<b class='flag-5'>理解</b>的自動<b class='flag-5'>摘要</b>方法

    一種基于多任務(wù)聯(lián)合訓(xùn)練的閱讀理解模型

    機器閱讀理解是一項針對給定文本和特定問題自動生成抽取相應(yīng)答案的問答任務(wù),該任務(wù)是評估計機系統(tǒng)對自然語言理解程度的重要任務(wù)之一。相比于傳統(tǒng)的閱讀理解
    發(fā)表于 03-16 11:41 ?10次下載
    一種基于多任務(wù)聯(lián)合訓(xùn)練的閱讀<b class='flag-5'>理解</b><b class='flag-5'>模型</b>

    基于圖集成模型的自動摘要生產(chǎn)方法

    現(xiàn)有長文本自動摘要生成方法存在句子特征單一化和無法全面衡量句子相似特征的問題,導(dǎo)致摘要生成的準確率降低。為此,提岀一種基于圖集成模型的自動摘要
    發(fā)表于 03-22 14:40 ?10次下載
    基于圖集成<b class='flag-5'>模型</b>的自動<b class='flag-5'>摘要</b>生產(chǎn)方法

    基于多層CNN和注意力機制的文本摘要模型

    基于注意力機制的編解碼模型文本摘要、杌器翻譯等序列到序列任務(wù)上得到了廣泛的應(yīng)用。在深度學(xué)習(xí)框架中,深層神經(jīng)網(wǎng)絡(luò)能夠提取輸λ數(shù)據(jù)不冋的特征表示,因此傳統(tǒng)編解碼模型中通常堆疊多層解碼器來
    發(fā)表于 04-07 11:35 ?2次下載
    基于多層CNN和注意力機制的<b class='flag-5'>文本</b><b class='flag-5'>摘要</b><b class='flag-5'>模型</b>

    融合文本分類和摘要的多任務(wù)學(xué)習(xí)摘要模型

    文本摘要應(yīng)包含源文本中所有重要信息,傳統(tǒng)基于編碼器-解碼器架構(gòu)的摘要模型生成的摘要準確性較低。根
    發(fā)表于 04-27 16:18 ?11次下載
    融合<b class='flag-5'>文本</b>分類和<b class='flag-5'>摘要</b>的多任務(wù)學(xué)習(xí)<b class='flag-5'>摘要</b><b class='flag-5'>模型</b>

    基于語義感知的中文短文本摘要生成技術(shù)

    文本摘要生成技術(shù)能夠從海量數(shù)據(jù)中概括岀關(guān)鍵信息,有效解決用戶信息過載的問題。目前序列到序列模型被廣泛應(yīng)用于英文文本摘要生成領(lǐng)域,而在中文
    發(fā)表于 05-28 15:45 ?2次下載

    基于LSTM的表示學(xué)習(xí)-文本分類模型

    文本表示和分類是自然語言理解領(lǐng)域的研究熱點。目前已有很多文本分類方法,包括卷積網(wǎng)絡(luò)、遞歸網(wǎng)絡(luò)、自注意力機制以及它們的結(jié)合。但是,復(fù)雜的網(wǎng)絡(luò)并不能從根本上提高文本分類的性能,好的
    發(fā)表于 06-15 16:17 ?18次下載

    科技論文摘要編寫要點分析

    科技論文摘要編寫要點分析
    發(fā)表于 07-31 11:35 ?0次下載

    輸入捕獲-獲取一個高電平的持續(xù)時間

    文章目錄內(nèi)容介紹一、邏輯梳理1、初始化2、針對其中預(yù)分頻為什么是72做一個解釋預(yù)分頻解釋3、理解兩個變量:STA 、VAL二、部分代碼1、變量STA 、 VAL2、輸入捕獲初始化,定時器5通道1
    發(fā)表于 12-02 19:36 ?10次下載
    <b class='flag-5'>輸入</b><b class='flag-5'>捕獲</b>-獲取一個高電平的持續(xù)時間

    如何使用BERT模型進行抽取式摘要

      最近在梳理文本摘要相關(guān)內(nèi)容,翻到一篇19年關(guān)于基于BERT模型進行抽取式摘要的老文「BertSum」,在這里分享給大家。該論文一開始掛在arXiv時,為《Fine-tune BER
    的頭像 發(fā)表于 03-12 16:41 ?5183次閱讀
    如何使用BERT<b class='flag-5'>模型</b>進行抽取式<b class='flag-5'>摘要</b>

    基于Zero-Shot的多語言抽取式文本摘要模型

    抽取式文本摘要目前在英文上已經(jīng)取得了很好的性能,這主要得益于大規(guī)模預(yù)訓(xùn)練語言模型和豐富的標注語料。但是對于其他小語種語言,目前很難得到大規(guī)模的標注數(shù)據(jù)。
    的頭像 發(fā)表于 07-08 10:49 ?1874次閱讀

    對話文本數(shù)據(jù)的珍貴貢獻:訓(xùn)練大模型賦予智能與情感理解

    在當今信息爆炸的時代,對話文本數(shù)據(jù)正成為塑造人工智能大模型的重要基石,為這些模型注入智能和情感理解的能力。這些數(shù)據(jù)不僅在培養(yǎng)模型的語言表達能
    的頭像 發(fā)表于 08-14 10:09 ?909次閱讀