一、簡(jiǎn)介
在UIE出來(lái)以前,小樣本NER主要針對(duì)的是英文數(shù)據(jù)集,目前主流的小樣本NER方法大多是基于prompt,在英文上效果好的方法,在中文上不一定適用,其主要原因可能是:
中文長(zhǎng)實(shí)體相對(duì)英文較多,英文是按word進(jìn)行切割,很多實(shí)體就是一個(gè)詞;邊界相對(duì)來(lái)說(shuō)更清晰;
生成方法對(duì)于長(zhǎng)實(shí)體來(lái)說(shuō)更加困難。但是隨著UIE的出現(xiàn),中文小樣本NER 的效果得到了突破。
二、主流小樣本NER方法
2.1、EntLM
EntLM該方法核心思想:拋棄模板,把NER作為語(yǔ)言模型任務(wù),實(shí)體的位置預(yù)測(cè)為label word,非實(shí)體位置預(yù)測(cè)為原來(lái)的詞,該方法速度較快。模型結(jié)果圖如圖2-1所示:
圖2-1 EntLM模型
論文重點(diǎn)在于如何構(gòu)造label word:在中文數(shù)據(jù)上本實(shí)驗(yàn)做法與論文稍有區(qū)別,但整體沿用論文思想:下面介紹了基于中文數(shù)據(jù)的標(biāo)簽詞構(gòu)造過(guò)程;
采用領(lǐng)域數(shù)據(jù)構(gòu)造實(shí)體詞典;
基于實(shí)體詞典和已有的實(shí)體識(shí)別模型對(duì)中文數(shù)據(jù)(100 000)進(jìn)行遠(yuǎn)程監(jiān)督,構(gòu)造偽標(biāo)簽數(shù)據(jù);
采用預(yù)訓(xùn)練的語(yǔ)言模型對(duì)計(jì)算LM的輸出,取實(shí)體部分概率較高的top3個(gè)詞;
根據(jù)偽標(biāo)簽數(shù)據(jù)和LM的輸出結(jié)果,計(jì)算詞頻;由于可能出現(xiàn)在很多類(lèi)中都出現(xiàn)的高頻標(biāo)簽詞,因此需要去除沖突,該做法沿用論文思想;
使用均值向量作為類(lèi)別的原型,選擇top6高頻詞的進(jìn)行求平均得到均值向量;
2.2、TemplateNER
TemplateNER的核心思想就是采用生成模型的方法來(lái)解決NER問(wèn)題,訓(xùn)練階段通過(guò)構(gòu)造模板,讓模型學(xué)習(xí)哪些span是實(shí)體,哪些span不是實(shí)體,模板集合為:$T=[T+,T+ ...T+,T-]$,T+為xx is aentity,T-為 xx is not aentity,訓(xùn)練時(shí)采用目標(biāo)實(shí)體作為正樣本,負(fù)樣本采用隨機(jī)非實(shí)體進(jìn)行構(gòu)造,負(fù)樣本的個(gè)數(shù)是正樣本的1.5倍。推理階段,原始論文中是 n-gram 的數(shù)量限制在 1 到 8 之間,作為實(shí)體候選,但是中文的實(shí)體往往過(guò)長(zhǎng),所以實(shí)驗(yàn)的時(shí)候是將,n-gram的長(zhǎng)度限制在15以內(nèi),推理階段就是對(duì)每個(gè)模板進(jìn)行打分,選擇得分最大的作為最終實(shí)體。
這篇論文在應(yīng)用中的需要注意的主要有二個(gè)方面:
模板有差異,對(duì)結(jié)果影響很大,模板語(yǔ)言越復(fù)雜,準(zhǔn)確率越低;
隨著實(shí)體類(lèi)型的增加,會(huì)導(dǎo)致候選實(shí)體量特別多,訓(xùn)練,推理時(shí)間更,尤其在句子較長(zhǎng)的時(shí)候,可能存在效率問(wèn)題,在中文數(shù)據(jù)中,某些實(shí)體可能涉及到15個(gè)字符(公司名),導(dǎo)致每個(gè)句子的候選span增加,線上使用困難,一條樣本推理時(shí)間大概42s
圖2-2 TemplateNER抽取模型
2.3、LightNER
LightNER的核心思想采用生成模型進(jìn)行實(shí)體識(shí)別,預(yù)訓(xùn)練模型采用 BART通過(guò) prompt 指導(dǎo)注意力層來(lái)重新調(diào)整注意力并適應(yīng)預(yù)先訓(xùn)練的權(quán)重, 輸入一個(gè)句子,輸出是:實(shí)體的序列,每個(gè)實(shí)體包括:實(shí)體 span 在輸入句子中的 start index,end index ,以及實(shí)體類(lèi)型 ,該方法的思想具有一定的通用性,可以用于其他信息抽取任務(wù)。
圖2-3 LightNER抽取模型
2.4、UIE
UIE(通用信息抽取框架)真正的實(shí)現(xiàn)其實(shí)是存在兩個(gè)版本,最初是中科院聯(lián)合百度發(fā)的ACL2022的一篇論文,Unified Structure Generation for Universal Information Extraction,這個(gè)版本采用的是T5模型來(lái)進(jìn)行抽取,采用的是生成模型,后來(lái)百度推出的UIE信息抽取框架,采用的是span抽取方式,直接抽取實(shí)體的開(kāi)始位置和結(jié)束位置,其方法和原始論文并不相同,但是大方向相同。
輸入形同:UIE采用的是前綴prompt的形式,采用的是Schema+Text的形式作為輸入,文本是NER任務(wù),所以Schema為實(shí)體類(lèi)別,比如:人名、地名等。
采用的訓(xùn)練形式相同,都是采用預(yù)訓(xùn)練加微調(diào)的形式
不同點(diǎn):
百度UIE是把NER作為抽取任務(wù),分別預(yù)測(cè)實(shí)體開(kāi)始和結(jié)束的位置,要針對(duì)schema進(jìn)行多次解碼,比如人名進(jìn)行一次抽取,地名要進(jìn)行一次抽取,以次類(lèi)推,也就是一條文本要進(jìn)行n次,n為schema的個(gè)數(shù),原始UIE是生成任務(wù),一次可以生成多個(gè)schema對(duì)應(yīng)的結(jié)果
百度UIE是在ernie基礎(chǔ)上進(jìn)行預(yù)訓(xùn)練的,原始的UIE是基于T5模型。
圖2-4 UIE抽取模型
三、實(shí)驗(yàn)結(jié)果
該部分主要采用主流小樣本NER模型在中文數(shù)據(jù)上的實(shí)驗(yàn)效果。
通用數(shù)據(jù)1測(cè)試效果:
Method | 5-shot | 10-shot | 20-shot | 50-shot |
---|---|---|---|---|
BERT-CRF | - | 0.56 | 0.66 | 0.74 |
LightNER | 0.21 | 0.42 | 0.57 | 0.73 |
TemplateNER | 0.24 | 0.44 | 0.51 | 0.61 |
EntLM | 0.46 | 0.54 | 0.56 | - |
從實(shí)驗(yàn)結(jié)果來(lái)看,其小樣本NER模型在中文上的效果都不是特別理想,沒(méi)有達(dá)到Bert-CRF的效果,一開(kāi)始懷疑結(jié)果過(guò)擬了,重新?lián)Q了測(cè)試集,發(fā)現(xiàn)BERT-CRF效果依舊變化不大,就是比其他的小樣本學(xué)習(xí)方法好。
3.1、UIE實(shí)驗(yàn)結(jié)果
UIE部分做的實(shí)驗(yàn)相對(duì)較多,首先是消融實(shí)驗(yàn),明確UIE通用信息抽取的能力是因?yàn)轭A(yù)訓(xùn)練模型的原因,還是因?yàn)槟P捅旧淼慕7绞阶屍湫Ч?,其中,BERTUIE,采用BERT作為預(yù)訓(xùn)練語(yǔ)言模型,pytorch實(shí)現(xiàn),抽取方式采用UIE的方式,抽取實(shí)體的開(kāi)始和結(jié)束位置。
領(lǐng)域數(shù)據(jù)1測(cè)試結(jié)果(實(shí)體類(lèi)型7類(lèi)):
預(yù)訓(xùn)練模型 | 框架 | F1 | Epoch |
---|---|---|---|
Ernie3.0 | Paddle | 0.71 | 200 |
Uie-base | paddle | 0.72 | 100 |
BERT | pytorch | 0.705 | 30 |
從本部分實(shí)驗(yàn)可以確定的是,預(yù)訓(xùn)練模型其實(shí)就是一個(gè)錦上添花的作用, UIE的本身建模方式更重要也更有效。
領(lǐng)域數(shù)據(jù)1測(cè)試結(jié)果(實(shí)體類(lèi)型7類(lèi)):
5-shot | 10-shot | 20-shot | 50-shot | |
---|---|---|---|---|
BERT-CRF | 0.697 | 0.75 | 0.82 | 0.85 |
百度UIE | 0.76 | 0.81 | 0.84 | 0.87 |
BERTUIE | 0.73 | 0.79 | 0.82 | 0.87 |
T5(放寬后評(píng)價(jià)) | 0.71 | 0.75 | 0.79 | 0.81 |
領(lǐng)域數(shù)據(jù)3測(cè)試效果(實(shí)體類(lèi)型6類(lèi)),20-shot實(shí)驗(yàn)結(jié)果:
BERT-CRF | LightNER | EntLM | 百度UIE | BERTUIE | |
---|---|---|---|---|---|
F1 | 0.69 | 0.57 | 0.58 | 0.72 | 0.69 |
UIE在小樣本下的效果相較于BERT-CRF之類(lèi)的抽取模型要好,但是UIE的速度較于BERT-CRF慢很多,大家可以根據(jù)需求決定用哪個(gè)模型。如果想進(jìn)一步提高效果,可以針對(duì)領(lǐng)域數(shù)據(jù)做預(yù)訓(xùn)練,本人也做了預(yù)訓(xùn)練,效果確實(shí)有提高。
-
百度
+關(guān)注
關(guān)注
9文章
2335瀏覽量
92242 -
語(yǔ)言模型
+關(guān)注
關(guān)注
0文章
561瀏覽量
10795 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25449
原文標(biāo)題:中文小樣本NER模型方法總結(jié)和實(shí)戰(zhàn)
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
[討論]提高網(wǎng)站關(guān)鍵詞排名的28個(gè)SEO小技巧
為什么要添加標(biāo)簽呢?添加標(biāo)簽對(duì)你有什么好處
標(biāo)簽不能輸入中文,應(yīng)該怎么解決?
關(guān)鍵詞優(yōu)化有哪些實(shí)用的方法
中文分詞研究難點(diǎn)-詞語(yǔ)切分和語(yǔ)言規(guī)范
開(kāi)發(fā)語(yǔ)音產(chǎn)品時(shí)設(shè)計(jì)喚醒詞和命令詞的技巧
量子Fourier變換構(gòu)造FQT電路
鋁電解的構(gòu)造和生產(chǎn)過(guò)程
計(jì)算機(jī)程序的構(gòu)造和解釋中文版
基于強(qiáng)度熵解決中文關(guān)鍵詞識(shí)別

基于標(biāo)簽優(yōu)先的抽取排序方法

評(píng)論