chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NLP:如何在只有詞典的情況下提升NER落地效果

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:NLP從入門到放棄 ? 2021-01-07 14:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天介紹一個論文autoner[1],主要是為了探索如何在只有詞典的情況下,提升NER實(shí)際落地效果;

首先,如果手中含有詞典,常規(guī)操作就是遠(yuǎn)程監(jiān)督打標(biāo)數(shù)據(jù),然后做NER;

遠(yuǎn)程監(jiān)督一個比較常見的操作就是使用我們手中的字典,通過字符匹配的形式對文本中可能存在的實(shí)體打標(biāo)。

但是對于這種遠(yuǎn)程監(jiān)督的形式,存在比較多的問題,這個論文主要探討兩種:多標(biāo)簽(multi-label tokens) 和標(biāo)簽不完善的問題;

針對multi-label tokens,論文提出的是Fuzzy-LSTM-CRF,簡單講就是講LSTM后面的CRF層變?yōu)榱薋uzzy CRF層,可以在處理tokens對應(yīng)多標(biāo)簽的情況下,不犧牲計(jì)算效率;

第二個問題標(biāo)簽不完善,是因?yàn)樽值洚吘故怯邢薜模豢赡馨阉械膶?shí)體都覆蓋到,那么句子中沒有被字典打標(biāo)成功的詞組很有可能也是某種實(shí)體,但是遠(yuǎn)程監(jiān)督并沒有對此做處理。

針對這個問題,本文提出了一種比較新的標(biāo)注框架,簡單來講就是在這新的框架中,不去預(yù)測單個的token的類別,而是去判斷兩個相鄰的tokens是不是在同一個實(shí)體中被tied;

上面只是我自己簡單的分類,其實(shí)存在的兩個問題和兩種解決架構(gòu)是相互融合在一起的,具體的我們下面談。

0. 詞典形式簡單介紹

首先定義一下詞典形式,包含兩個部分,第一部分是實(shí)體的表面名稱,這個包括規(guī)范名稱和對應(yīng)的同義詞列表;第二個部分就是實(shí)體的類型;

其次,詞典的標(biāo)注肯定是有限的,肯定存在不在詞典中的某些詞組但是也屬于某種類型的實(shí)體;

對于這部分實(shí)體,我自己的理解大體可以包含兩個大部分;第一個大部分就是比如說【科技】這個領(lǐng)域覆蓋的【科技】實(shí)體有有限的,所以有漏網(wǎng)之魚;第二部分就是詞典的實(shí)體類型是有限的,比如詞典總共包含2個實(shí)體類型,但是你真實(shí)的文本包含更多的實(shí)體類型,存在漏網(wǎng)之魚。

對于這些漏網(wǎng)之魚的實(shí)體,我們的策略是這樣的。

首先通過AutoPhrase從文中挖掘出來高質(zhì)量短語,然后統(tǒng)一賦值為unknown type,也就是未知類型。

1. Fuzzy-LSTM-CRF

1.1 標(biāo)注策略

梳理一下,我們現(xiàn)在手上有詞典;

詞典包含兩個部分,一部分是已知實(shí)體類型(假設(shè)是2個,當(dāng)然可能更多或者更少);另一個部分就是我們通過某種方式挖掘出來的高質(zhì)量實(shí)體對應(yīng)的未知類型;

然后我們通過手中的詞典對原始無標(biāo)注文本進(jìn)行打標(biāo);

那么現(xiàn)在對于句子中的某個token,它存在三種可能性;第一它可能是已知實(shí)體類型中的一種或者多種;第二它屬于未知類型;第三是屬于O這種情況,就是non-entity;

基于傳統(tǒng)架構(gòu)BIlstm-CRF如何解決多標(biāo)簽的問題?

其實(shí)本質(zhì)解決的思路很簡單。對于原來的每個token,只是預(yù)測一個類別,現(xiàn)在是預(yù)測多個類別就可以了。

詳細(xì)點(diǎn)講就是,首先對于遠(yuǎn)程監(jiān)督標(biāo)注的過程,我們會使用三種策略。

我們先假設(shè)我們使用{I;O;B;E;S}的標(biāo)注形式;

第一,對于某個token,如果它對應(yīng)到了已知類型中的某一個或者多個實(shí)體,那么按照對應(yīng)的位置直接標(biāo)記上,不要漏掉;也就是說{I;B;E;S}和對應(yīng)的一個或者多個實(shí)體類型對上標(biāo);

第二對于對于某個token,如果屬于未知類型,那么對應(yīng)的這個token就需要把所有已知實(shí)體類型(區(qū)別于上面的一個或者多個已知實(shí)體類型)和 {I,O, B, E, S}對應(yīng)的打標(biāo)上;

注意,這里并沒有使用未知實(shí)體類型,而是使用的所有的已知實(shí)體類型;

第三個對于既不屬于已知類型的,也不屬于未知類型的,全部打上O;

1.2 Fuzzy-LSTM-CRF 模型架構(gòu)

其實(shí)很好理解,傳統(tǒng)的CRF最大化唯一一條有效的標(biāo)注序列。在這里,我們最大化所有有可能的標(biāo)注序列。

公式如下:

55dae800-5036-11eb-8b86-12bb97331649.jpg

Fuzzy-LSTM-CRF優(yōu)化公式

看架構(gòu)圖:

55ff4420-5036-11eb-8b86-12bb97331649.jpg

Fuzzy-LSTM-CRF

2. AutoNER

區(qū)別于Fuzzy-LSTM-CRF 模型沿用傳統(tǒng)架構(gòu),在這里論文提出一種新的標(biāo)注架構(gòu)-Tie or Break;

這個標(biāo)注框架更加關(guān)注的是當(dāng)前token和上一個token是否在同一個實(shí)體里面;如果在同一個實(shí)體里面,那么就標(biāo)注為Tie;

如果當(dāng)前單詞和上一個單詞至少有一個在unkonw類型的高質(zhì)量短語,那么標(biāo)注為unkonw,其他情況標(biāo)注為Break;

優(yōu)化過程:把實(shí)體識別和實(shí)體類型判定分離開。

原論文中描述的是先做實(shí)體識別,兩個Break之間作為一個span,然后做實(shí)體類型判定;

實(shí)體識別中,對于當(dāng)前單詞和上一個單詞之間類別的的輸出,對Tie和Break做二分類損失,如果類別是unkown類別,直接跳過,不計(jì)算損失。

概率公式如下:

564b4866-5036-11eb-8b86-12bb97331649.jpg

tie_break_loss

56a37752-5036-11eb-8b86-12bb97331649.jpg

tie_break_loss

第二步預(yù)測實(shí)體類型,包含None實(shí)體類型

unkonw這種,知道這屬于實(shí)體,在高質(zhì)量短語詞典中,但是不知道短語類型,所在這里我們會標(biāo)注為None實(shí)體類型。

其他的不在詞典中的,當(dāng)然也就會被標(biāo)注為None實(shí)體類型。

為了應(yīng)對多標(biāo)簽,也就是同一個實(shí)體對應(yīng)不同的類別,這里修改了最后的CE損失函數(shù):

57264272-5036-11eb-8b86-12bb97331649.jpg

CE_總

575eea46-5036-11eb-8b86-12bb97331649.jpg

CE_Soft

使用的是軟標(biāo)簽的進(jìn)行的CE的計(jì)算,并沒有使用硬標(biāo)簽。

對應(yīng)的是在遠(yuǎn)程監(jiān)督中,當(dāng)前實(shí)體真實(shí)類型標(biāo)簽集合。從公式我們可以知道,尤其是看分母,在不屬于這個集合的標(biāo)簽概率我們并沒有計(jì)算在內(nèi)。

總結(jié)

多提一個小細(xì)節(jié),就是高質(zhì)量短語的挖掘使用的是AutoPhrase,大家可以去試一下;

論文提出兩種結(jié)構(gòu)解決多標(biāo)簽和標(biāo)簽不完善的問題。

首先對于標(biāo)簽不完善,使用上面提到的AutoPhrase去挖掘文本中的高質(zhì)量短語,作為詞典中的未知類型。

在Fuzzy-LSTM-CRF,需要注意的細(xì)節(jié)是,對于未知類型的標(biāo)注,我們使用的策略是標(biāo)注所有已知類型;

對于AutoNER,有兩個細(xì)節(jié)需要注意,一個是新的標(biāo)注框架tie or break,重點(diǎn)在于去看兩個相鄰單詞是否屬于同一個實(shí)體;第二個細(xì)節(jié)就是為了解決多標(biāo)簽問題,修改了損失函數(shù),使用的軟標(biāo)簽;

責(zé)任編輯:xj

原文標(biāo)題:【論文解讀】如何在只有詞典的情況下提升NER落地效果

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13842
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23049

原文標(biāo)題:【論文解讀】如何在只有詞典的情況下提升NER落地效果

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    何在“SD 卡 NAND 閃存”的情況下使用 Non-OS NVTFAT?

    何在“SD 卡 NAND 閃存”的情況下使用 Non-OS NVTFAT
    發(fā)表于 09-01 07:58

    當(dāng)不同的數(shù)據(jù)放在同一個Flash頁面上時,請問如何在不影響其他數(shù)據(jù)的情況下更改一些單獨(dú)的數(shù)據(jù)?

    當(dāng)不同的數(shù)據(jù)放在同一個Flash頁面上時,如何在不影響其他數(shù)據(jù)的情況下更改一些單獨(dú)的數(shù)據(jù)?
    發(fā)表于 08-22 06:25

    何在沒有 NuLink 編程器的情況下執(zhí)行 SWD 解鎖序列?

    我迫切需要知道如何在沒有 NuLink 編程器的情況下執(zhí)行 SWD 解鎖序列。
    發(fā)表于 08-18 07:04

    請問CYW20835在sleep mode的情況下,不進(jìn)入SDS或HIDOF的情況下,底電流最低是多少?

    請問CYW20835在sleep mode的情況下,不進(jìn)入SDS或HIDOF的情況下,底電流最低是多少?
    發(fā)表于 07-07 07:54

    FX2LP如何在不更改硬件的情況下對其進(jìn)行重新編程?

    我正在使用 FX2LP/ CY7C68013A-128AXC設(shè)備(定制板),我有一些問題需要您的幫助。 1如果我的 EEPROM 已經(jīng)有固件并且正在運(yùn)行,如何在不更改硬件的情況下對其進(jìn)行重新
    發(fā)表于 05-06 11:16

    LPC1227FBD48如何在沒有SDK的情況下配置FreeRTOS?

    我想在基于 LPC1227FBD48 系列的現(xiàn)有項(xiàng)目中使用 FreeRTOS,但我們沒有可用于控制器的 SDK。我們?nèi)?b class='flag-5'>何在沒有 SDK 的情況下配置 FreeRTOS。
    發(fā)表于 04-02 06:33

    無感直流BLDC,大占空比情況下失步怎么解決?

    無感直流BLDC,大占空比情況下失步問題
    發(fā)表于 03-11 08:00

    ADS1299套件的可編程增益是只有在差分輸入情況下才可用嗎?

    昂問一ADS1299套件的可編程增益是只有在差分輸入情況下才可用嗎?我用AIN口輸入單端信號 調(diào)節(jié)PGA大于1時信號就不對了
    發(fā)表于 12-26 06:29

    在VDD1沒有供電的情況下,VDD2正常供電的情況下,AMC1200的輸出應(yīng)該是什么狀態(tài)?

    請教一,在前端VDD1沒有供電的情況下,VDD2正常供電的情況下,AMC1200的輸出狀態(tài)為什么P端是3.8V ,N端是1.2V ,每一次都是這樣子, 請問,在VDD1沒有供電的情況下
    發(fā)表于 12-17 07:37

    dac2932將REFV的電壓改成3.007V,其他條件不變的情況下,VOUT的輸出幅度只有2.853V,為什么?

    計(jì)算值相差了0.14V左右。用示波器測量結(jié)果如下圖。當(dāng)我將REFV的電壓改成3.007V,其他條件不變的情況下,VOUT的輸出幅度只有2.853V。
    發(fā)表于 12-02 06:51

    PCM4222如何通過PCMEN在不RST情況下控制PCM輸出控制?

    PCM4222 PCM輸出。PCMEN引腳拉高后,PCM輸出,PCMEN引腳拉低后,PCM仍輸出,無法關(guān)閉PCM輸出?只有PCM4222 RST后才能關(guān)閉PCM輸出。 PCMEN引腳無法實(shí)現(xiàn)對PCM OUTPUT控制? 如何通過PCMEN在不RST情況下控制PCM輸出控
    發(fā)表于 11-29 11:05

    請問ADS1292R如何在MCU休眠的情況下通過脫落檢測喚醒MCU?

    請問ADS1292R如何在MCU休眠的情況下通過脫落檢測喚醒MCU?
    發(fā)表于 11-28 08:03

    ADS1294如何在使用WCT的情況下保證CMRR指標(biāo)?

    請問使用ADS1294芯片,為了提高系統(tǒng)的共模抑制比,經(jīng)量保證差分輸入端的電路及阻抗平衡,ECG_CH1、ECG_CH2、 ECG_CH3輸入通道采用電路對稱且保證阻容公差的情況下實(shí)測實(shí)現(xiàn)
    發(fā)表于 11-22 16:47

    在不用miniDSP的情況下,使用信號處理模塊時,aic3254怎么配置DAC的3D效果?

    請問,在不用miniDSP的情況下,使用信號處理模塊時,怎么配置DAC的3D效果?找了很多資料,沒有關(guān)于這個方面的介紹,可以提供一這方面的資料嗎?謝謝
    發(fā)表于 11-08 07:34

    AIC3106如何在不改變BCLK和LRCLK的情況下,能夠調(diào)好?

    你好,請問:AIC3106現(xiàn)在配置為從設(shè)備、DAC采樣率為16K、數(shù)據(jù)寬度為32位?,F(xiàn)在主設(shè)備給的BCLK是2048K,LRCLK為16K,播放現(xiàn)在有問題,如何在不改變BCLK和LRCLK的情況下,能夠調(diào)好?
    發(fā)表于 10-28 07:06