chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

自然語言處理中的事件抽取綜述

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:lucy ? 2021-01-07 15:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本系列文章主要總結(jié)近年來事件抽取方法總結(jié),包括中文事件抽取、開放域事件抽取、事件數(shù)據(jù)生成、跨語言事件抽取、小樣本事件抽取、零樣本事件抽取等。主要包括以下幾大部分:

定義(Define)

綜述(Survey)

模型(Models)

數(shù)據(jù)集(Datasets)

挑戰(zhàn)與展望(Future Research Challenges)

Github地址:https://github.com/xiaoqian19940510/Event-Extraction

任務定義

Closed-domain

Closed-domain事件抽取使用預定義的事件模式從文本中發(fā)現(xiàn)和提取所需的特定類型的事件。事件模式包含多個事件類型及其相應的事件結(jié)構(gòu)。D.Ahn首先提出將ACE事件抽取任務分成四個子任務:觸發(fā)詞檢測、事件/觸發(fā)詞類型識別、事件論元檢測和參數(shù)角色識別。我們使用ACE術語來介紹如下事件結(jié)構(gòu):

「事件提及」:描述事件的短語或句子,包括觸發(fā)詞和幾個參數(shù)。

「事件觸發(fā)詞」:最清楚地表達事件發(fā)生的主要詞,一般指動詞或名詞。

「事件論元」:一個實體,時間表達式,作為參與者的值和在事件中具有特定角色的屬性。

「論元角色」:論元與它所參與的事件之間的關系

Open domain

在沒有預定義的事件模式的情況下,開放域事件抽取的目的是從文本中檢測事件,在大多數(shù)情況下,還可以通過提取的事件關鍵詞聚類相似的事件。事件關鍵詞指的是那些主要描述事件的詞/短語,有時關鍵詞還進一步分為觸發(fā)器和參數(shù)。

「故事分割」:從新聞中檢測故事的邊界。

「第一個故事檢測」:檢測新聞流中討論新話題的故事。

「話題檢測」:根據(jù)討論的主題將故事分組。

「話題追蹤」:檢測討論先前已知話題的故事。

「故事鏈檢測」:決定兩個故事是否討論同一個主題。

前兩個任務主要關注事件檢測;其余三個任務用于事件集群。雖然這五項任務之間的關系很明顯,但每一項任務都需要一個不同的評價過程,并鼓勵采用不同的方法來解決特定問題。

綜述

元事件抽取研究綜述, 2019[1]

事件抽取是信息抽取領域的一個重要研究方向,在情報收集、知識提取、文檔摘要、知識問答等領域有著廣泛應用。寫了一篇對當前事件抽取領域研究得較多的元事件抽取任務的綜述。

首先,簡要介紹了元事件和元事件抽取的基本概念,以及元事件抽取的主要實現(xiàn)方法。然后,重點闡述了元事件抽取的主要任務,詳細介紹了元事件檢測過程,并對其他相關任務進行了概述。最后,總結(jié)了元事件抽取面臨的問題,在此基礎上展望了元事件抽取的發(fā)展趨勢。

An Overview of Event Extraction from Text, 2019[2]

文本挖掘的一個常見應用是事件抽取,它包括推導出與事件相關的特定知識,這些知識重新映射到文本中。事件抽取可處理各種類型的文本,如(在線)新聞消息、博客和手稿。本文獻回顧了用于各種事件抽取目的的文本挖掘技術。它提供了關于如何根據(jù)用戶、可用內(nèi)容和使用場景選擇特定事件抽取技術的一般指南。

A Survey of Event Extraction from Text, 2019[3]

事件抽取的任務定義、數(shù)據(jù)源和性能評估,還為其解決方案方法提供了分類。在每個解決方案組中,提供了最具代表性的方法的詳細分析,特別是它們的起源、基礎、優(yōu)勢和弱點。最后,對未來的研究方向進行了展望。

A Survey of Textual Event Extraction from Social Networks, 2017[4]

過去的十年中,在社交網(wǎng)絡上挖掘文本內(nèi)容以抽取相關數(shù)據(jù)和有用的知識已成為無所不在的任務。文本挖掘的一種常見應用是事件抽取,它被認為是一個復雜的任務,分為不同難度的多個子任務。

在本文中,對現(xiàn)有的主要文本挖掘技術進行了概述,這些技術可用于許多不同的事件抽取目標。首先,介紹基于統(tǒng)計模型將數(shù)據(jù)轉(zhuǎn)換為知識的主要數(shù)據(jù)驅(qū)動方法。其次,介紹了基于專家知識的知識驅(qū)動方法,通常通過基于模式的方法來抽取知識。然后,介紹結(jié)合了數(shù)據(jù)驅(qū)動和知識驅(qū)動方法的主要現(xiàn)有混合方法。最后,比較社交網(wǎng)絡事件抽取研究,概括了每種提出的方法的主要特征。

A Survey of event extraction methods from text for decision support systems, 2016[5]

事件抽取是一種可以追溯到20世紀80年代的專門的信息抽取流程,由于大數(shù)據(jù)的出現(xiàn)以及文本挖掘和自然語言處理等相關領域的發(fā)展,事件抽取技術得到了極大的普及。然而,到目前為止,對這一特殊領域的概述仍然是難以捉摸的。

因此,總結(jié)了文本數(shù)據(jù)的事件抽取技術,劃分成數(shù)據(jù)驅(qū)動、知識驅(qū)動和混合方法三類,并對這些方法進行了定性評價。此外,還討論了從文本語料庫中抽取事件的常見決策支持應用。最后,對事件抽取系統(tǒng)的評價進行了闡述,并指出了當前的研究問題。

數(shù)據(jù)集

英文數(shù)據(jù)集

ACE2005 English Corpus[6]

ACE 2005多語種訓練語料庫包含了用于2005年自動內(nèi)容抽取(ACE)技術評價的完整的英語、阿拉伯語和漢語訓練數(shù)據(jù)集。語料庫由語言數(shù)據(jù)聯(lián)盟(LDC)為實體、關系和事件注釋的各種類型的數(shù)據(jù)組成,該聯(lián)盟得到了ACE計劃的支持和LDC的額外幫助。

Rich ERE[7]

Rich ERE擴展了實體、關系和事件本體,并擴展了什么是taggable的概念。Rich ERE還引入了事件跳躍的概念,以解決普遍存在的事件共引用的挑戰(zhàn),特別是關于在文檔內(nèi)和文檔之間的事件提及和事件參數(shù)粒度變化,從而為創(chuàng)建(分層的或嵌套的)跨文檔的事件表示鋪平了道路。

TAC2015[8]

TAC KBP事件跟蹤的目標是提取關于事件的信息,以便這些信息適合作為知識庫的輸入。軌跡包括用于檢測和鏈接事件的事件塊任務,以及用于提取屬于同一事件的事件參數(shù)和鏈接參數(shù)的事件參數(shù)(EA)任務。2015年TAC KBP賽事軌跡分為5個子任務

KBP2017[9]

TAC知識庫填充(KBP)的目標是開發(fā)和評估從非結(jié)構(gòu)化文本中填充知識庫的技術。KBP包括為KBP開發(fā)特定組件和功能的組件跟蹤,以及稱為“冷啟動”的端到端KB構(gòu)建任務,該任務通過在技術成熟時集成選定的組件從頭開始構(gòu)建KB。與在冷啟動KB任務中執(zhí)行的功能相比,組件跟蹤中所需的功能可以“更多”,也可以“更少”。組件軌道比冷啟動“更多”,因為每個軌道可能探索未立即集成到冷啟動任務中的試點任務; 他們是“少”,將組件集成到一個KB需要額外協(xié)調(diào)與和解各個組件之間的不匹配,這樣KB符合知識庫模式(例如,知識庫不能斷言一個實體是一個事件的“地方”如果它還斷言,實體是一個“人”)。

其他的還有,Genia2011 dataset, Spainish ERE Corpus, Wikipedia article, BioNLP Cancer Genetics (CG) Shared Task 2013 等等

中文數(shù)據(jù)集

ACE2005 Chinese Corpus[10]

ACE 2005多語種訓練語料庫包含了用于2005年自動內(nèi)容抽取(ACE)技術評價的完整的英語、阿拉伯語和漢語訓練數(shù)據(jù)集。語料庫由語言數(shù)據(jù)聯(lián)盟(LDC)為實體、關系和事件注釋的各種類型的數(shù)據(jù)組成,該聯(lián)盟得到了ACE計劃的支持和LDC的額外幫助。

未來展望與挑戰(zhàn)

數(shù)據(jù)層面

領域數(shù)據(jù)難構(gòu)造,標注成本大

生成標注數(shù)據(jù) or 無標注式事件抽取論元

模型層面

pipeline方式存在錯誤信息的傳遞,如何減小錯誤信息傳遞

論元之間的關聯(lián)關系的有效利用

性能評估層面

無標注數(shù)據(jù)的評價指標設計

責任編輯:xj

原文標題:超全必讀!事件抽取綜述(上)

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:超全必讀!事件抽取綜述(上)

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何優(yōu)化自然語言處理模型的性能

    優(yōu)化自然語言處理(NLP)模型的性能是一個多方面的任務,涉及數(shù)據(jù)預處理、特征工程、模型選擇、模型調(diào)參、模型集成與融合等多個環(huán)節(jié)。以下是一些具體的優(yōu)化策略: 一、數(shù)據(jù)預處理優(yōu)化 文本清洗
    的頭像 發(fā)表于 12-05 15:30 ?2192次閱讀

    如何使用自然語言處理分析文本數(shù)據(jù)

    使用自然語言處理(NLP)分析文本數(shù)據(jù)是一個復雜但系統(tǒng)的過程,涉及多個步驟和技術。以下是一個基本的流程,幫助你理解如何使用NLP來分析文本數(shù)據(jù): 1. 數(shù)據(jù)收集 收集文本數(shù)據(jù) :從各種來源(如社交
    的頭像 發(fā)表于 12-05 15:27 ?2169次閱讀

    自然語言處理在聊天機器人中的應用

    上歸功于自然語言處理技術的進步。 聊天機器人的工作原理 聊天機器人的核心是一個對話系統(tǒng),它能夠處理用戶的輸入(通常是文本形式),并生成相應的回復。這個系統(tǒng)通常包括以下幾個關鍵組件: 語言
    的頭像 發(fā)表于 12-05 15:24 ?1594次閱讀

    自然語言處理與機器學習的關系 自然語言處理的基本概念及步驟

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學領域的一個分支,它致力于研究如何讓計算機能夠理解、解釋和生成人類語言。機器學習(Ma
    的頭像 發(fā)表于 12-05 15:21 ?2407次閱讀

    語音識別與自然語言處理的關系

    在人工智能的快速發(fā)展,語音識別和自然語言處理(NLP)成為了兩個重要的技術支柱。語音識別技術使得機器能夠理解人類的語音,而自然語言處理則讓
    的頭像 發(fā)表于 11-26 09:21 ?1969次閱讀

    什么是LLM?LLM在自然語言處理的應用

    所未有的精度和效率處理和生成自然語言。 LLM的基本原理 LLM基于深度學習技術,尤其是變換器(Transformer)架構(gòu)。變換器模型因其自注意力(Self-Attention)機制而聞名,這種機制使得模型能夠捕捉文本的長距
    的頭像 發(fā)表于 11-19 15:32 ?4266次閱讀

    ASR與自然語言處理的結(jié)合

    ASR(Automatic Speech Recognition,自動語音識別)與自然語言處理(NLP)是人工智能領域的兩個重要分支,它們在許多應用緊密結(jié)合,共同構(gòu)成了自然語言理解和
    的頭像 發(fā)表于 11-18 15:19 ?1344次閱讀

    卷積神經(jīng)網(wǎng)絡在自然語言處理的應用

    。 卷積神經(jīng)網(wǎng)絡的基本原理 卷積神經(jīng)網(wǎng)絡是一種前饋神經(jīng)網(wǎng)絡,它通過卷積層來提取輸入數(shù)據(jù)的特征。在圖像處理,卷積層能夠捕捉局部特征,如邊緣和紋理。在自然語言處理
    的頭像 發(fā)表于 11-15 14:58 ?1085次閱讀

    循環(huán)神經(jīng)網(wǎng)絡在自然語言處理的應用

    自然語言處理(NLP)是人工智能領域的一個重要分支,它致力于使計算機能夠理解、解釋和生成人類語言。隨著深度學習技術的發(fā)展,循環(huán)神經(jīng)網(wǎng)絡(RNN)因其在處理序列數(shù)據(jù)方面的優(yōu)勢而在NLP
    的頭像 發(fā)表于 11-15 09:41 ?1112次閱讀

    使用LSTM神經(jīng)網(wǎng)絡處理自然語言處理任務

    自然語言處理(NLP)是人工智能領域的一個重要分支,它旨在使計算機能夠理解、解釋和生成人類語言。隨著深度學習技術的發(fā)展,特別是循環(huán)神經(jīng)網(wǎng)絡(RNN)及其變體——長短期記憶(LSTM)網(wǎng)絡的出現(xiàn)
    的頭像 發(fā)表于 11-13 09:56 ?1524次閱讀

    自然語言處理的未來發(fā)展趨勢

    隨著技術的進步,自然語言處理(NLP)已經(jīng)成為人工智能領域的一個重要分支。NLP的目標是使計算機能夠理解、解釋和生成人類語言,這不僅涉及到語言的表層形式,還包括
    的頭像 發(fā)表于 11-11 10:37 ?2063次閱讀

    自然語言處理與機器學習的區(qū)別

    在人工智能的快速發(fā)展,自然語言處理(NLP)和機器學習(ML)成為了兩個核心的研究領域。它們都致力于解決復雜的問題,但側(cè)重點和應用場景有所不同。 1. 自然語言
    的頭像 發(fā)表于 11-11 10:35 ?1948次閱讀

    自然語言處理的應用實例

    在當今數(shù)字化時代,自然語言處理(NLP)技術已經(jīng)成為我們?nèi)粘I畹囊徊糠?。從智能手機的語音助手到在線客服機器人,NLP技術的應用無處不在。 1. 語音識別與虛擬助手 隨著Siri、Google
    的頭像 發(fā)表于 11-11 10:31 ?1987次閱讀

    使用LLM進行自然語言處理的優(yōu)缺點

    自然語言處理(NLP)是人工智能和語言學領域的一個分支,它致力于使計算機能夠理解、解釋和生成人類語言。大型語言模型(LLM)是NLP領域的一
    的頭像 發(fā)表于 11-08 09:27 ?3464次閱讀

    Llama 3 在自然語言處理的優(yōu)勢

    自然語言處理(NLP)的快速發(fā)展,我們見證了從基于規(guī)則的系統(tǒng)到基于機器學習的模型的轉(zhuǎn)變。隨著深度學習技術的興起,NLP領域迎來了新的突破。Llama 3,作為一個假設的先進NLP模型,代表了這一
    的頭像 發(fā)表于 10-27 14:22 ?1001次閱讀