chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

命名實體識別(NER)是自然語言處理(NLP)中的基本任務(wù)之一

8nfr_ZTEdevelop ? 來源:未知 ? 作者:李倩 ? 2018-04-18 11:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

什么是命名實體識別(NER)?

命名實體識別(NER)是自然語言處理(NLP)中的基本任務(wù)之一。NLP的一般流程如下:

句法分析是NLP任務(wù)的核心,NER是句法分析的基礎(chǔ)。NER任務(wù)用于識別文本中的人名(PER)、地名(LOC)等具有特定意義的實體。非實體用O來表示。我們以人名來舉例:

王 B-PER

文 I-PER

和 O

小 B-PER

麗 I-PER

結(jié) O

婚 O

了。 O

(IOB是塊標(biāo)記的一種表示。B-表示開始,I-表示內(nèi)部,O-表示外部)

首先明確的是NER是個分類任務(wù),具體稱為序列標(biāo)注任務(wù),即文本中不同的實體對應(yīng)不同的標(biāo)簽,人名-PER,地名-LOC,等等,相似的序列標(biāo)注任務(wù)還有詞性標(biāo)注、語義角色標(biāo)注。傳統(tǒng)的解決此類問題的方法,包括:(1)基于規(guī)則的方法。根據(jù)語言學(xué)上預(yù)定義的規(guī)則。但是由于語言結(jié)構(gòu)本身的不確定性,規(guī)則的制定上難度較大。(2)基于統(tǒng)計學(xué)的方法。利用統(tǒng)計學(xué)找出文本中存在的規(guī)律。主要有隱馬爾可夫(HMM)、條件隨機場(CRF)模型和Viterbi算法。文末會簡要介紹比較流行的CRF模型。(3)神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)(多層神經(jīng)網(wǎng)絡(luò))這么流行,當(dāng)然不會放過nlp,之前我的一篇帖子(《深度學(xué)習(xí)在機器翻譯中的應(yīng)用》)里提到過循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其變種LSTM。因為文本的上下文依賴性,LSTM這種能夠存儲上下文信息的序列模型是較好的選擇(本文側(cè)重于CRF,LSTM的基本知識可參考《深度學(xué)習(xí)在機器翻譯中的應(yīng)用》)。

LSTM+CRF模型

語言文本的特殊之處在于其具有一定的結(jié)構(gòu),主謂賓定狀補,狀語后置,非限制性定語從句等等。這些結(jié)構(gòu)的存在代表著每個單詞的前后是有著一定的詞性限制的。比如:

我現(xiàn)在回家 //這是常見的(主+狀+謂+賓)結(jié)構(gòu)的句子

我今天家 //這樣的文本就不能稱為一個句子,少了必要的語法結(jié)構(gòu)

LSTM網(wǎng)絡(luò)是整體思路同樣是先對給定的訓(xùn)練樣本進行學(xué)習(xí),確定模型中的參數(shù),再利用該模型對測試樣本進行預(yù)測得到最后的輸出。由于測試輸出的準(zhǔn)確性現(xiàn)階段達不到100%,這就意味著,肯定存在一部分錯誤的輸出,這些輸出里很可能就包含類似于上述第二句話這種不符合語法規(guī)則的文本。因此,這就是為什么要將CRF模型引入進來的原因。條件隨機場(CRF)是一種統(tǒng)計方法。其用于文本序列標(biāo)注的優(yōu)點就是上文所說的對于輸出變量可以進行約束,使其符合一定的語法規(guī)則。常見的神經(jīng)網(wǎng)絡(luò)對訓(xùn)練樣本的學(xué)習(xí),只考慮訓(xùn)練樣本的輸入,并不考慮訓(xùn)練樣本的輸出之間的關(guān)系。

LSTM+CRF 網(wǎng)絡(luò)

LSTM 網(wǎng)絡(luò)可以看作是一個多分類問題,給定B、I、O等標(biāo)簽作為訓(xùn)練輸出,”john goes to school”等句子作為輸入,根據(jù)網(wǎng)絡(luò)模型計算的概率大小確定句子中的每個單詞屬于哪個標(biāo)簽(類別),概率最大的即為該單詞最后所屬的標(biāo)簽(類別),標(biāo)簽與標(biāo)簽之間是獨立的。LSTM+CRF則是在分類問題的基礎(chǔ)上,加上輸出之間的約束關(guān)系。比如”B”標(biāo)簽之后還是”B”,這種不符合語法規(guī)則的情況,通過CRF機制是可以排除的。目前,tensorflow 已支持LSTM+CRF的配置。(LSTM+CRF是深度學(xué)習(xí)中比較經(jīng)典的模型,當(dāng)前還有LSTM+cnn+CRF等其他的經(jīng)過優(yōu)化的模型)。

附:條件隨機場(CRF)原理

要完全搞懂CRF的原理,可以參考李航的《統(tǒng)計學(xué)習(xí)方法》的第11章。這里作簡要說明。CRF的基礎(chǔ)是馬爾可夫隨機場,或者稱為概率無向圖。

延伸

概率無向圖:用無向圖表示隨機變量的概率分布。

上圖就是滿足局部馬爾可夫性的概率無向圖。每個結(jié)點都代表著一個隨機變量,邊代表著隨機變量之間的關(guān)系。

局部馬爾可夫性:P(Yu|Yv)=P(Yu|Yv,Yw)簡單理解,因為Yu和Yw之間沒有邊連接,則在給定隨機變量Yv條件下的Yu的概率,跟多加了一個Yw無關(guān)。

CRF的理解

CRF可以理解為在給定隨機變量X的條件下,隨機變量Y的馬爾可夫隨機場。其中,線性鏈CRF(一種特殊的CRF)可以用于序列標(biāo)注問題。CRF模型在訓(xùn)練時,給定訓(xùn)練序列樣本集(X,Y),通過極大似然估計、梯度下降等方法確定CRF模型的參數(shù);預(yù)測時,給定輸入序列X,根據(jù)模型,求出P(Y|X)最大的序列y(這里注意,LSTM輸出的是一個個獨立的類別,CRF輸出的是最優(yōu)的類別序列,也就是CRF全局的優(yōu)化要更好一些)。

線性鏈條件隨機場(可以比較一下與上面LSTM+CRF網(wǎng)絡(luò)圖的區(qū)別與聯(lián)系)

為何CRF可以表示輸出序列內(nèi)各元素(Y1,Y2,…,Yi,Yi+1)之間的聯(lián)系?這里就是要聯(lián)系到馬爾可夫性。這也就是為什么CRF的基礎(chǔ)是馬爾可夫隨機場。CRF如何求解P(Y|X),有具體的數(shù)學(xué)公式,這里就不詳細列出了。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5589

    瀏覽量

    123883
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13913
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23182

原文標(biāo)題:干貨 | 深度學(xué)習(xí)在NLP的命名實體識別中(NER)的應(yīng)用

文章出處:【微信號:ZTEdeveloper,微信公眾號:中興開發(fā)者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    自然語言基礎(chǔ)技術(shù)之命名實體識別相對全面的介紹

    早期的命名實體識別方法基本都是基于規(guī)則的。之后由于基于大規(guī)模的語料庫的統(tǒng)計方法在自然語言處理各個方面取得不錯的效果之后,大批機器學(xué)習(xí)的方法
    的頭像 發(fā)表于 04-17 10:12 ?5433次閱讀
    <b class='flag-5'>自然語言</b>基礎(chǔ)技術(shù)之<b class='flag-5'>命名實體</b><b class='flag-5'>識別</b>相對全面的介紹

    自然語言處理技術(shù)介紹

    ,包括:分詞、詞性標(biāo)注、句法分析、命名實體識別,以及信息抽取領(lǐng)域的實體關(guān)系抽取等。2.1.分詞分詞是自然語言處理技術(shù)的基礎(chǔ)構(gòu)成
    發(fā)表于 09-27 09:57

    基于結(jié)構(gòu)化感知機的詞性標(biāo)注與命名實體識別框架

    `上周就關(guān)于《結(jié)構(gòu)化感知機標(biāo)注框架的內(nèi)容》已經(jīng)分享了篇《分詞工具Hanlp基于感知機的中文分詞框架》,本篇接上篇內(nèi)容,繼續(xù)分享詞性標(biāo)注與命名實體識別框架的內(nèi)容。詞性標(biāo)注訓(xùn)練詞性標(biāo)注
    發(fā)表于 04-08 14:57

    HanLP-命名實體識別總結(jié)

    的中國人名自動識別研究》,大家可以百度下看看 地名識別 理論指導(dǎo)文章為:《基于層疊隱馬爾可夫模型的中文命名實體識別》 機構(gòu)名
    發(fā)表于 07-31 13:11

    【推薦體驗】騰訊云自然語言處理

    結(jié)構(gòu)化抽取,有效輔助人工,降低人力參與成本。因為現(xiàn)在騰訊云自然語言處理產(chǎn)品公測免費,所以我注冊了騰訊云賬號去專門體驗了下,最直觀的感受就是確實如產(chǎn)品介紹說的:開箱即用的
    發(fā)表于 10-09 15:28

    基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在命名實體識別應(yīng)用的分析與總結(jié)

    近年來,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法在自然語言處理領(lǐng)域已經(jīng)取得了不少進展。作為NLP領(lǐng)域的基礎(chǔ)任務(wù)命名實體
    的頭像 發(fā)表于 01-18 09:24 ?5025次閱讀
    基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在<b class='flag-5'>命名實體</b><b class='flag-5'>識別</b><b class='flag-5'>中</b>應(yīng)用的分析與總結(jié)

    自然語言處理NLP)的學(xué)習(xí)方向

    自然語言處理(Natural Language Processing,NLP)是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的個重要方向。它研究人與計算機之間用
    的頭像 發(fā)表于 07-06 16:30 ?1.4w次閱讀

    思必馳中文命名實體識別任務(wù)助力AI落地應(yīng)用

    ,已成為項重要研究課題。命名實體識別(Named Entity Recognition,NER任務(wù)的目標(biāo)是
    的頭像 發(fā)表于 02-22 18:27 ?2398次閱讀

    命名實體識別的遷移學(xué)習(xí)相關(guān)研究分析

    命名實體識別NER)是自然語言處理的核心應(yīng)用任務(wù)之一
    發(fā)表于 04-02 15:15 ?8次下載
    <b class='flag-5'>命名實體</b><b class='flag-5'>識別</b>的遷移學(xué)習(xí)相關(guān)研究分析

    基于字語言模型的中文命名實體識別系統(tǒng)

    造成的數(shù)據(jù)稀缺問題,以及傳統(tǒng)字向量不能解決的字多義問題,文中使用在大規(guī)模無監(jiān)督數(shù)據(jù)上預(yù)訓(xùn)練的基于上下文相關(guān)的字向量,即利用語言模型生成上下文相關(guān)字向量以改進中文NER模型的性能。同時,為解決
    發(fā)表于 04-08 14:36 ?14次下載
    基于字<b class='flag-5'>語言</b>模型的中文<b class='flag-5'>命名實體</b><b class='flag-5'>識別</b>系統(tǒng)

    入門自然語言處理基本任務(wù)——文本匹配

    半個月的努力,最終結(jié)果勉強不錯(第6),收割了臺Kindle。 2021年1月,疫情形勢依然嚴(yán)峻,幸運的是國家不僅及時穩(wěn)住了疫情,還研發(fā)出了有效的疫苗。借助疫情主題的比賽,我希望幫助更多讀者,入門自然語言處理
    的頭像 發(fā)表于 05-31 11:51 ?3526次閱讀

    關(guān)于邊界檢測增強的中文命名實體識別

    引言 命名實體識別(Named Entity Recognition,NER)是自然語言處理領(lǐng)域的
    的頭像 發(fā)表于 09-22 16:05 ?3707次閱讀

    研究人員為多模態(tài)NER任務(wù)提出新穎的關(guān)系增強圖卷積網(wǎng)絡(luò)

    命名實體識別NER)是信息抽取的基本任務(wù),它的目的是識別文本片段
    的頭像 發(fā)表于 09-28 11:41 ?2415次閱讀

    什么是自然語言處理 (NLP)

    自然語言處理(Natural Language Processing, NLP)是人工智能領(lǐng)域中的個重要分支,它專注于構(gòu)建能夠理解和生成人類語言
    的頭像 發(fā)表于 07-02 18:16 ?3355次閱讀

    nlp自然語言處理的主要任務(wù)及技術(shù)方法

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學(xué)領(lǐng)域的個分支,它研究如何讓計算機能夠理
    的頭像 發(fā)表于 07-09 10:26 ?2860次閱讀