chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

抽取式摘要方法中如何合理設置抽取單元?

深度學習自然語言處理 ? 來源:哈工大訊飛聯(lián)合實驗室 ? 作者:趙峻瑤 ? 2021-05-03 18:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本期導讀:文本摘要技術(Text Summarization)是信息爆炸時代,提升人們獲取有效信息效率的關鍵技術之一,如何從冗余、非結構化的長文本中提煉出關鍵信息,構成精簡通順的摘要,是文本摘要的核心問題。抽取式摘要則是文本摘要技術中效果穩(wěn)定,實現(xiàn)簡單的一類方法,本文結合COLING 2020中抽取式摘要相關的兩篇最新工作,對抽取式摘要方法中如何合理設置抽取單元展開介紹。

引言

在自動文本摘要任務中,抽取式摘要方法是從原文中抽取預先設置好的抽取單元,抽取單元一般為句子、短語或詞,目前大多數方法還是以句子為抽取單元,雖然句子級的抽取式摘要方法能夠實現(xiàn)一個較好的摘要效果,但依然存在以下問題:

冗余性,抽取出的句子存在冗余。

不必要性,抽取出的句子包含了一些不關鍵的信息。

存在抽取出的句子之間銜接生硬,不夠自然。

現(xiàn)有工作通常使用tri-block后處理策略,即跳過和已選擇句子存在tri-gram重疊的句子來減少冗余。還有一些工作在抽取的摘要基礎上結合生成式摘要方法進行改寫和優(yōu)化,減少不相關的信息,同時提升銜接流暢度。本期介紹的兩篇工作從設計一個比句子更細粒度的抽取單元出發(fā),希望通過細粒度的抽取單元,分割出整句中的關鍵信息和不關鍵信息,避開冗余的和不必要的內容來解決前兩點問題。

At Which Level Should We Extract An Empirical Analysis on Extractive Document Summarization

騰訊的Qingyu Zhou等人發(fā)表于COLING 2020會議上的一篇文章,論文主要針對抽取整句摘要方法存在的冗余性和不必要性問題,提出一種以子句作為抽取單元的抽取式摘要方法。本文的主要貢獻包括兩點:(1)提出了一種子句作為抽取單元的設置方式,介于短語和整句之間。(2)設計了基于BERT的子句摘要抽取模型,性能相比抽取整句有所提升。

子句的定義

02f24ccc-958d-11eb-8b86-12bb97331649.png

圖 1 PTB句法成分解析樹

本文通過Penn Treebank(PTB)[1]方法對句子進行句法成分分析,對每一個從句節(jié)點S和SBAR都視為子句單元。為了保留更完整的語義信息,如果一個從句節(jié)點被包括在更高層的從句節(jié)點中,則選擇最高層的子句節(jié)點(除去根節(jié)點)作為抽取的子句單元。例如圖1中,紅色實線圈中的從句節(jié)點是最終選定的子句單元,如果一個句子解析后不存在從句節(jié)點,則直接選用整句作為抽取單元。

模型概述

02fdad4c-958d-11eb-8b86-12bb97331649.png

圖2 基于BERT的子句抽取模型SSE(Sub-Sentential Extraction )

抽取模型參考了BERTSUM[2],這里對子句范圍內的token做平均池化得到子句單元的表示,收集到所有子句單元的表示后再經過一層Transformer層混合上下句之間的信息,經過一層全連接層進行二分類預測當前子句單元是需要抽取。訓練時學習每個子句是否需要抽取,預測時選擇分數最高的top-N個子句拼接后輸出。

實驗評價

實驗數據集使用經典的文本摘要數據集CNN/DailyMail。

表1 CNN/DM數據集中對參考摘要,句子級抽取的標準摘要,子句級抽取的標準摘要的統(tǒng)計

03090868-958d-11eb-8b86-12bb97331649.png

表1中Ora表示抽取式摘要方法中對目標抽取單元的Oracle構造方法,一般以貪心思想依次選擇ROUGE增量分數最高的抽取單元加入,選擇N個或沒有可使ROUGE分數增加的選擇時停止??梢钥吹?,以子句作為抽取單元,Ora-ss抽取方法的ROUGE P分數更高,說明以子句為抽取單元能夠避免抽取到不必要信息。從n-gram Overlap指標可以看出,Ora-ss抽取的內容重復度更低,冗余性相對抽取整句Ora-sent方法更低。

表2 CNN/DM測試集上的ROUGE F1評測結果

036ee7be-958d-11eb-8b86-12bb97331649.png

實驗結果如表2所示,SSE模型不依賴后處理策略,在ROUGE-2和ROUGE-L上都超越了基線方法,且對比BERT-SENT(作者復現(xiàn)的BERTSUMEXT)提升顯著。

表3 人工評估結果

0390387e-958d-11eb-8b86-12bb97331649.png

人工評估結果如表3,隨機采樣了50條樣本,經過人工打分對比兩個模型之間的優(yōu)劣,各指標均是越低表示模型表現(xiàn)越優(yōu)秀??梢钥吹絊SE模型犧牲了一定的可讀性,帶來了整體上性能的提升,減少了冗余性和不必要性。

結論

以句法成分解析樹中從句節(jié)點作為抽取式摘要的抽取單元,能夠有效降低抽取摘要的冗余性和不必要性,犧牲一定的可讀性,提升整體摘要性能,可讀性受句法解析器準確率,以及子句片段自身相對于整個句子的不完備性影響,但整體上SSE達到相比抽取句子更優(yōu)的性能。

Fact-level Extractive Summarization with Hierarchical Graph Mask on BERT

浙江大學Hanlu Wu等人在COLING 2020會議上發(fā)表的一篇文章,本文主要貢獻包括兩點:(1)基于依存分析方法設計了一種子句單元,命名為事實(Fact)。(2)設計了層次化的事實抽取摘要模型,通過改變注意力Mask對BERT直接引入了結構化信息。

事實的定義

03aa48ae-958d-11eb-8b86-12bb97331649.png

圖3 依存分析樹中對整句拆分出事實片段的例子

本文提出了一種經驗性的事實拆分算法,流程如下:

用依存分析方法(Stanford CoreNLP)對候選句子進行解析,每個句子用標點符號、連接詞和從句的節(jié)點進行拆分,包括PU(標點), CC(連詞), IP(從句)。

為了獲得完整的語義單元,我們對一些特殊的關系連邊兩端的子句進行合并,包括acl:relcl,advcl(狀語從句修飾詞),appos(同位詞),ccomp(從句補充)。

判斷conj(連接關系)連接的2個元素是從句還是詞語,如果2個元素距離低于一個閾值,則視為連接2個詞語進行合并,否則視為2個子句。

預先定義了一個最小事實長度和最大事實長度,在執(zhí)行上述合并過程中,如果某個子句長度超過最大長度,則視為獨立的子句,不參與合并。一切合并操作執(zhí)行完成后,若存在小于最小長度的子句,和前置的子句進行合并,最后所有的子句作為事實。

表4 CNN/DM數據訓練集原文切分結果的統(tǒng)計

03b5e92a-958d-11eb-8b86-12bb97331649.png

表4統(tǒng)計了CNN/DM數據中訓練集的文章按句子切分和按事實切分后的數量和長度,平均1個句子包含1.6個事實,存在一部分句子獨立作為單個事實,其他情況下通常一個句子被拆分為2到3個事實。

模型概述

03bdd61c-958d-11eb-8b86-12bb97331649.png

圖4 層次化的事實級摘要抽取模型框架

模型如圖4所示,在BERT的注意力層加入了一個Mask矩陣來加入層次化的結構信息,主要構造了2種連邊:

同粒度下當前token和其他token之間的雙向連邊,圖4中同色token之間都存在雙向連邊。

細粒度token指向粗粒度token的單向連邊,例如圖4中藍色token指向自己所在事實token [cls_f]的連邊,以及事實指向句子,句子指向文檔的連邊。

在輸出層用全連接來對每個事實做分類,結合了文檔的表示和所在句子的表示:

||表示連接,在輸出時使用文檔和對應句子的表示一同判斷當前事實是否抽取。

訓練時只學習事實的loss,預測時預測top-4的事實,加上tri-block去冗余策略。

實驗評價

本文實驗數據采用CNN/DM數據集。

表5 CNN/DM測試集上不同粒度的Oracle摘要對比

04441286-958d-11eb-8b86-12bb97331649.png

首先展示了基于事實用Oracle方法抽取摘要的效果,如表5所示,基于事實的Oracle方法提高了抽取方法的理論上界,能夠生產更精確的抽取標簽。

表6 CNN/DM測試集評測結果

045a8a34-958d-11eb-8b86-12bb97331649.png

表6顯示加入事實后,相對于作者復現(xiàn)的BERTSUM都有一定的提升,其中結合句子級的表示效果最佳,而額外使用文檔級的信息沒有帶來提升,說明句子級的信息能夠有助于判斷句子內的事實是否應該抽取,而全文的文檔級信息過于粗粒度,對判斷事實是否抽取沒有幫助。

表7 在CNN/DM測試集上的消融實驗結果

0488f6c6-958d-11eb-8b86-12bb97331649.png

消融實驗中對比了減去片段編碼和位置編碼的模型結果,表7下半部分是兩種基線方法去除位置編碼的結果,可以看出本文的方法去除位置信息后效果下降相對較小,說明層次化的結構信息有助于更好地幫助模型理解語義信息而不會過度依賴位置信息。

總結

兩篇工作都是以設計粒度介于詞和句子之間的抽取單元為主要思想,對比來看,第一篇的子句抽取單元粒度更細,有著更高的理論上界,但存在一些可讀性上的問題。第二篇定義的事實作為抽取單元,在劃分事實的算法中加入經驗性的處理,保證了事實拆分的準確度和語義完整度。從模型優(yōu)化上來看,第二篇提供了一種從修改掩碼角度來對預訓練模型引入結構化信息的思路,但實驗中個人認為缺少了對應的消融驗證實驗,應當對比結構化掩碼和全連接掩碼的實驗結果。

抽取式摘要是文本摘要中的一類重要方法,除了本期兩篇工作關注的冗余性問題和不必要性問題,還存在例如抽取句子之間語義不連貫,銜接生硬等問題,以及如何對抽取式摘要進行準確評價也是值得探究的一個問題。在實際應用中設計方法時我們更應該關注問題本身,使得方法具有更好地滿足真實需要。

原文標題:【摘要抽取】抽取式摘要最新研究進展

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 信息抽取
    +關注

    關注

    0

    文章

    6

    瀏覽量

    6595

原文標題:【摘要抽取】抽取式摘要最新研究進展

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    多塊 M.2 硬盤拆到崩潰?M.2 硬盤抽取盒才是救星!

    新硬盤,而是讓機箱內每塊硬盤“活”起來的方案——一款設計精良的具有可抽取功能M.2硬盤盒,能徹底改變你與數據的交互方式。極速連接,釋放完整性能一款優(yōu)秀的M.2硬盤盒
    的頭像 發(fā)表于 10-11 15:15 ?243次閱讀
    多塊 M.2 硬盤拆到崩潰?M.2 硬盤<b class='flag-5'>抽取</b>盒才是救星!

    工業(yè)相機數據爆炸?ICY DOCK硬盤抽取盒極速存 + 0宕機!

    工業(yè)相機在高速圖像采集與毫秒級數據處理面臨3個核心痛點:TB級數據流迫切需要超高速傳輸接口;嚴苛的工廠環(huán)境(震動、粉塵、電磁干擾、溫差)威脅設備穩(wěn)定運行;系統(tǒng)停機維護成本高昂,迫切需要快速故障定位
    的頭像 發(fā)表于 09-05 16:02 ?174次閱讀
    工業(yè)相機數據爆炸?ICY DOCK硬盤<b class='flag-5'>抽取</b>盒極速存 + 0宕機!

    【ICY DOCK新品】4盤位2.5英寸U.2/U.3 NVMe SSD硬盤抽取

    企業(yè)級免工具硬盤托盤設計搭配PCIe4.0極致速度ICYDOCKExpressCageMB324V4P-B是一款具備高性能的硬盤抽取盒,它可在單個標準的5.25英寸光驅位容納多達4個
    的頭像 發(fā)表于 08-08 14:39 ?770次閱讀
    【ICY DOCK新品】4盤位2.5英寸U.2/U.3 NVMe SSD硬盤<b class='flag-5'>抽取</b>盒

    最新PCIe5.0 U.2硬盤抽取盒— ICY DOCK MB491V5K-B 開箱測評

    ——ICYDOCKToughArmorMB491V5K-B,正是專為高安全、高性能、高強度環(huán)境打造的U.2/U.3NVMeSSD抽取盒,不僅支持PCIe5.0,還擁有軍規(guī)
    的頭像 發(fā)表于 08-01 14:48 ?768次閱讀
    最新PCIe5.0 U.2硬盤<b class='flag-5'>抽取</b>盒— ICY DOCK MB491V5K-B 開箱測評

    【硬盤抽取盒民主實驗】你的真話,決定產品命運!敢說就送!

    這不是一場營銷,而是一次硬盤抽取盒民主實驗。ICYDOCK誠邀敢說真話的你!你的每一條真實反饋,都可能被采納,直接塑造CP138產品的命運!你的聲音,至關重要!CP138核心亮點速覽CP138是專為
    的頭像 發(fā)表于 07-18 16:32 ?178次閱讀
    【硬盤<b class='flag-5'>抽取</b>盒民主實驗】你的真話,決定產品命運!敢說就送!

    【ICY DOCK 新品 MB601V5K-B】2.5英寸 U.2/U.3 NVMe PCIe 5.0轉3.5英寸硬盤抽取盒(1 x MCIO 4i SFF-TA-1016)

    ToughArmor MB601V5K-B是專為高速U.2/U.3 NVMe硬盤設計的PCIe 5.0硬盤抽取盒。這款硬盤抽取盒配備最新的MCIO 4i(SFF-TA-1016)接口,支持高達
    的頭像 發(fā)表于 05-21 16:55 ?730次閱讀
    【ICY DOCK 新品 MB601V5K-B】2.5英寸 U.2/U.3 NVMe PCIe 5.0轉3.5英寸硬盤<b class='flag-5'>抽取</b>盒(1 x MCIO 4i SFF-TA-1016)

    ICY DOCK PCIe可拆卸擴展插槽硬盤抽取盒或轉接器,革新存儲解決方案

    在快節(jié)奏的云計算時代,對快速高效的數據存儲解決方案的需求至關重要。從笨重的3.5英寸SATA硬盤過渡到靈活、基于PCIe的高速NVMeSSD,ICYDOCKExpressSlot系列可拆卸PCIe
    的頭像 發(fā)表于 04-18 14:42 ?543次閱讀
    ICY DOCK PCIe可拆卸<b class='flag-5'>式</b>擴展插槽硬盤<b class='flag-5'>抽取</b>盒或轉接器,革新存儲解決方案

    【概念產品CP149】可拆卸 2盤位 M.2 NVMe SSD(硬盤)轉 PCIe 5.0 x16 插槽全金屬硬盤抽取

    產品介紹ICYDOCKCP149是一款可拆卸的2盤位M.2NVMe硬盤轉PCIe5.0x16插槽全金屬硬盤抽取盒,專為使用x8/x8或x8/x4/x4PCIe拆分設置的英特爾主板而設計。與需要x4
    的頭像 發(fā)表于 03-20 17:24 ?699次閱讀
    【概念產品CP149】可拆卸<b class='flag-5'>式</b> 2盤位 M.2 NVMe SSD(硬盤)轉 PCIe 5.0 x16 插槽全金屬硬盤<b class='flag-5'>抽取</b>盒

    AMC1210對AMC1305進行數字抽取濾波,輸出后的數據是否需要用處理器進行一次平均和移位處理?

    我使用的AMC1210對AMC1305進行抽取濾波。AMC1210配置為SIN3,256倍抽取。積分器為128倍積分。AMC1210配置為中斷方式SPI接口32bit輸出。輸出后的數據,是否需要用
    發(fā)表于 01-14 08:21

    使用AMC1210為AMC1305L25做3階的256抽1的sinc抽取濾波器,請問是否可以呢?

    我使用AMC1305L25做1200V高壓 高邊電流隔離采集。想使用AMC1210為AMC1305L25做3階的256抽1的sinc抽取濾波器,請問是否可以呢?(備注:AMC1305L25與AMC1210之間加入了LVDS轉LVTTL電平的轉換芯片。)
    發(fā)表于 12-27 07:37

    請問AMC1203文檔的OSC過采樣率和sinc3濾波器抽取率是不是同一個概念?

    1、請問AMC1203文檔的OSC過采樣率和sinc3濾波器抽取率是不是同一個概念?同為256? 2、抽取率是不是MCLK時鐘的分頻因子? 3、Combining the
    發(fā)表于 12-16 06:42

    軌道交通行業(yè) ICY DOCK硬盤抽取盒解決方案

    在當今的數據存儲領域,硬盤抽取盒已成為眾多應用不可或缺的關鍵環(huán)節(jié),尤其在軌道交通行業(yè),硬盤盒解決方案至關重要,它直接關系到數據存儲的安全性、穩(wěn)定性和可靠性,以及系統(tǒng)維護的便利性。ICYDOCK
    的頭像 發(fā)表于 11-21 17:10 ?733次閱讀
    軌道交通行業(yè) ICY DOCK硬盤<b class='flag-5'>抽取</b>盒解決方案

    ADS1299用ADS采集數據,ADS可以不抽取看原始得數據嗎?

    1.用ADS采集數據,將時域的數據進行FFT變換,得到頻譜里面看似有 Sinc Filter 抽取,不需要抽取是否可以?ADS可以不抽取看原始得數據嗎? 2.這個和手冊上的頻譜不一樣? 請問這個是什么問題呢?
    發(fā)表于 11-20 06:05

    求助,關于AMC1306M25抽取率OSR的疑問求解

    我客戶目前正在評估AMC1306M25,有以下疑問需要解答,可否幫忙確認一下: 圖為官方的例程,兩個都應該指的是抽取率OSR。但是當客戶在第一個函數填的抽取率為64,到第二張圖中ratio的值
    發(fā)表于 11-14 07:09

    單元不平衡永久故障閾值的單元類型特定設置

    電子發(fā)燒友網站提供《單元不平衡永久故障閾值的單元類型特定設置.pdf》資料免費下載
    發(fā)表于 10-18 11:21 ?0次下載
    <b class='flag-5'>單元</b>不平衡永久故障閾值的<b class='flag-5'>單元</b>類型特定<b class='flag-5'>設置</b>