chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于中文數(shù)據(jù)的標(biāo)簽詞構(gòu)造過(guò)程

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:深度學(xué)習(xí)自然語(yǔ)言 ? 2022-08-19 16:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一、簡(jiǎn)介

在UIE出來(lái)以前,小樣本NER主要針對(duì)的是英文數(shù)據(jù)集,目前主流的小樣本NER方法大多是基于prompt,在英文上效果好的方法,在中文上不一定適用,其主要原因可能是:

中文長(zhǎng)實(shí)體相對(duì)英文較多,英文是按word進(jìn)行切割,很多實(shí)體就是一個(gè)詞;邊界相對(duì)來(lái)說(shuō)更清晰;

生成方法對(duì)于長(zhǎng)實(shí)體來(lái)說(shuō)更加困難。但是隨著UIE的出現(xiàn),中文小樣本NER 的效果得到了突破。

二、主流小樣本NER方法

2.1、EntLM

EntLM該方法核心思想:拋棄模板,把NER作為語(yǔ)言模型任務(wù),實(shí)體的位置預(yù)測(cè)為label word,非實(shí)體位置預(yù)測(cè)為原來(lái)的詞,該方法速度較快。模型結(jié)果圖如圖2-1所示:

a5f6bcb4-1f7f-11ed-ba43-dac502259ad0.png圖2-1 EntLM模型

論文重點(diǎn)在于如何構(gòu)造label word:在中文數(shù)據(jù)上本實(shí)驗(yàn)做法與論文稍有區(qū)別,但整體沿用論文思想:下面介紹了基于中文數(shù)據(jù)的標(biāo)簽詞構(gòu)造過(guò)程;

采用領(lǐng)域數(shù)據(jù)構(gòu)造實(shí)體詞典;

基于實(shí)體詞典和已有的實(shí)體識(shí)別模型對(duì)中文數(shù)據(jù)(100 000)進(jìn)行遠(yuǎn)程監(jiān)督,構(gòu)造偽標(biāo)簽數(shù)據(jù);

采用預(yù)訓(xùn)練的語(yǔ)言模型對(duì)計(jì)算LM的輸出,取實(shí)體部分概率較高的top3個(gè)詞;

根據(jù)偽標(biāo)簽數(shù)據(jù)和LM的輸出結(jié)果,計(jì)算詞頻;由于可能出現(xiàn)在很多類(lèi)中都出現(xiàn)的高頻標(biāo)簽詞,因此需要去除沖突,該做法沿用論文思想;

使用均值向量作為類(lèi)別的原型,選擇top6高頻詞的進(jìn)行求平均得到均值向量;

2.2、TemplateNER

TemplateNER的核心思想就是采用生成模型的方法來(lái)解決NER問(wèn)題,訓(xùn)練階段通過(guò)構(gòu)造模板,讓模型學(xué)習(xí)哪些span是實(shí)體,哪些span不是實(shí)體,模板集合為:$T=[T+,T+ ...T+,T-]$,T+為xx is aentity,T-為 xx is not aentity,訓(xùn)練時(shí)采用目標(biāo)實(shí)體作為正樣本,負(fù)樣本采用隨機(jī)非實(shí)體進(jìn)行構(gòu)造,負(fù)樣本的個(gè)數(shù)是正樣本的1.5倍。推理階段,原始論文中是 n-gram 的數(shù)量限制在 1 到 8 之間,作為實(shí)體候選,但是中文的實(shí)體往往過(guò)長(zhǎng),所以實(shí)驗(yàn)的時(shí)候是將,n-gram的長(zhǎng)度限制在15以內(nèi),推理階段就是對(duì)每個(gè)模板進(jìn)行打分,選擇得分最大的作為最終實(shí)體。

這篇論文在應(yīng)用中的需要注意的主要有二個(gè)方面:

模板有差異,對(duì)結(jié)果影響很大,模板語(yǔ)言越復(fù)雜,準(zhǔn)確率越低;

隨著實(shí)體類(lèi)型的增加,會(huì)導(dǎo)致候選實(shí)體量特別多,訓(xùn)練,推理時(shí)間更,尤其在句子較長(zhǎng)的時(shí)候,可能存在效率問(wèn)題,在中文數(shù)據(jù)中,某些實(shí)體可能涉及到15個(gè)字符(公司名),導(dǎo)致每個(gè)句子的候選span增加,線上使用困難,一條樣本推理時(shí)間大概42s

a61096a2-1f7f-11ed-ba43-dac502259ad0.png圖2-2 TemplateNER抽取模型

2.3、LightNER

LightNER的核心思想采用生成模型進(jìn)行實(shí)體識(shí)別,預(yù)訓(xùn)練模型采用 BART通過(guò) prompt 指導(dǎo)注意力層來(lái)重新調(diào)整注意力并適應(yīng)預(yù)先訓(xùn)練的權(quán)重, 輸入一個(gè)句子,輸出是:實(shí)體的序列,每個(gè)實(shí)體包括:實(shí)體 span 在輸入句子中的 start index,end index ,以及實(shí)體類(lèi)型 ,該方法的思想具有一定的通用性,可以用于其他信息抽取任務(wù)。

a623d546-1f7f-11ed-ba43-dac502259ad0.png圖2-3 LightNER抽取模型

2.4、UIE

UIE(通用信息抽取框架)真正的實(shí)現(xiàn)其實(shí)是存在兩個(gè)版本,最初是中科院聯(lián)合百度發(fā)的ACL2022的一篇論文,Unified Structure Generation for Universal Information Extraction,這個(gè)版本采用的是T5模型來(lái)進(jìn)行抽取,采用的是生成模型,后來(lái)百度推出的UIE信息抽取框架,采用的是span抽取方式,直接抽取實(shí)體的開(kāi)始位置和結(jié)束位置,其方法和原始論文并不相同,但是大方向相同。

輸入形同:UIE采用的是前綴prompt的形式,采用的是Schema+Text的形式作為輸入,文本是NER任務(wù),所以Schema為實(shí)體類(lèi)別,比如:人名、地名等。

采用的訓(xùn)練形式相同,都是采用預(yù)訓(xùn)練加微調(diào)的形式

不同點(diǎn):

百度UIE是把NER作為抽取任務(wù),分別預(yù)測(cè)實(shí)體開(kāi)始和結(jié)束的位置,要針對(duì)schema進(jìn)行多次解碼,比如人名進(jìn)行一次抽取,地名要進(jìn)行一次抽取,以次類(lèi)推,也就是一條文本要進(jìn)行n次,n為schema的個(gè)數(shù),原始UIE是生成任務(wù),一次可以生成多個(gè)schema對(duì)應(yīng)的結(jié)果

百度UIE是在ernie基礎(chǔ)上進(jìn)行預(yù)訓(xùn)練的,原始的UIE是基于T5模型。

a637e5ea-1f7f-11ed-ba43-dac502259ad0.png圖2-4 UIE抽取模型

三、實(shí)驗(yàn)結(jié)果

該部分主要采用主流小樣本NER模型在中文數(shù)據(jù)上的實(shí)驗(yàn)效果。

通用數(shù)據(jù)1測(cè)試效果:

Method 5-shot 10-shot 20-shot 50-shot
BERT-CRF - 0.56 0.66 0.74
LightNER 0.21 0.42 0.57 0.73
TemplateNER 0.24 0.44 0.51 0.61
EntLM 0.46 0.54 0.56 -

從實(shí)驗(yàn)結(jié)果來(lái)看,其小樣本NER模型在中文上的效果都不是特別理想,沒(méi)有達(dá)到Bert-CRF的效果,一開(kāi)始懷疑結(jié)果過(guò)擬了,重新?lián)Q了測(cè)試集,發(fā)現(xiàn)BERT-CRF效果依舊變化不大,就是比其他的小樣本學(xué)習(xí)方法好。

3.1、UIE實(shí)驗(yàn)結(jié)果

UIE部分做的實(shí)驗(yàn)相對(duì)較多,首先是消融實(shí)驗(yàn),明確UIE通用信息抽取的能力是因?yàn)轭A(yù)訓(xùn)練模型的原因,還是因?yàn)槟P捅旧淼慕7绞阶屍湫Ч?,其中,BERTUIE,采用BERT作為預(yù)訓(xùn)練語(yǔ)言模型,pytorch實(shí)現(xiàn),抽取方式采用UIE的方式,抽取實(shí)體的開(kāi)始和結(jié)束位置。

領(lǐng)域數(shù)據(jù)1測(cè)試結(jié)果(實(shí)體類(lèi)型7類(lèi)):

預(yù)訓(xùn)練模型 框架 F1 Epoch
Ernie3.0 Paddle 0.71 200
Uie-base paddle 0.72 100
BERT pytorch 0.705 30

從本部分實(shí)驗(yàn)可以確定的是,預(yù)訓(xùn)練模型其實(shí)就是一個(gè)錦上添花的作用, UIE的本身建模方式更重要也更有效。

領(lǐng)域數(shù)據(jù)1測(cè)試結(jié)果(實(shí)體類(lèi)型7類(lèi)):

5-shot 10-shot 20-shot 50-shot
BERT-CRF 0.697 0.75 0.82 0.85
百度UIE 0.76 0.81 0.84 0.87
BERTUIE 0.73 0.79 0.82 0.87
T5(放寬后評(píng)價(jià)) 0.71 0.75 0.79 0.81

領(lǐng)域數(shù)據(jù)3測(cè)試效果(實(shí)體類(lèi)型6類(lèi)),20-shot實(shí)驗(yàn)結(jié)果:

BERT-CRF LightNER EntLM 百度UIE BERTUIE
F1 0.69 0.57 0.58 0.72 0.69

UIE在小樣本下的效果相較于BERT-CRF之類(lèi)的抽取模型要好,但是UIE的速度較于BERT-CRF慢很多,大家可以根據(jù)需求決定用哪個(gè)模型。如果想進(jìn)一步提高效果,可以針對(duì)領(lǐng)域數(shù)據(jù)做預(yù)訓(xùn)練,本人也做了預(yù)訓(xùn)練,效果確實(shí)有提高。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 百度
    +關(guān)注

    關(guān)注

    9

    文章

    2335

    瀏覽量

    92242
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10795
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25449

原文標(biāo)題:中文小樣本NER模型方法總結(jié)和實(shí)戰(zhàn)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    [討論]提高網(wǎng)站關(guān)鍵排名的28個(gè)SEO小技巧

    提高網(wǎng)站關(guān)鍵排名的28個(gè)SEO小技巧關(guān)鍵位置、密度、處理 URL中出現(xiàn)關(guān)鍵(英文) 網(wǎng)頁(yè)標(biāo)題中出現(xiàn)關(guān)鍵(1-3個(gè)) 關(guān)鍵
    發(fā)表于 12-01 17:08

    為什么要添加標(biāo)簽呢?添加標(biāo)簽對(duì)你有什么好處

    為什么要添加標(biāo)簽呢?1、什么是標(biāo)簽標(biāo)簽是——描述主題內(nèi)容的關(guān)鍵。2、標(biāo)簽有什么作用??jī)?yōu)質(zhì)的標(biāo)簽
    發(fā)表于 09-29 17:11

    標(biāo)簽不能輸入中文,應(yīng)該怎么解決?

    標(biāo)簽中輸入中文時(shí)候突然跳出對(duì)話框,如下圖所示然后發(fā)現(xiàn)所有控件的標(biāo)簽都不能輸入中文,只能是創(chuàng)建后默認(rèn)的中文名字,修改的話只能輸入非
    發(fā)表于 12-26 13:38

    關(guān)鍵優(yōu)化有哪些實(shí)用的方法

    的排名。還有一些實(shí)用的方法就是網(wǎng)站的一個(gè)關(guān)鍵布局,這里應(yīng)該設(shè)計(jì)seo算法中的頁(yè)面相關(guān)匹配程度,這樣來(lái)提升網(wǎng)站頁(yè)面的整體相關(guān)性,其次是重要的位置部署好我們要做的關(guān)鍵,比如重要的一些標(biāo)簽來(lái)添加我們做
    發(fā)表于 08-11 01:19

    中文分詞研究難點(diǎn)-詞語(yǔ)切分和語(yǔ)言規(guī)范

    ,我們?cè)谶M(jìn)行數(shù)據(jù)挖掘、精準(zhǔn)推薦和自然語(yǔ)言處理工作中也會(huì)經(jīng)常用到中文分詞技術(shù)。是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分,英文單詞之間是以空格作為自然分界符的,而漢語(yǔ)是以字為基本的書(shū)寫(xiě)單位,詞語(yǔ)之間沒(méi)有
    發(fā)表于 09-04 17:39

    開(kāi)發(fā)語(yǔ)音產(chǎn)品時(shí)設(shè)計(jì)喚醒和命令的技巧

    在實(shí)際開(kāi)發(fā)語(yǔ)音產(chǎn)品過(guò)程中,要達(dá)到好的語(yǔ)音識(shí)別效果,除了語(yǔ)音算法要給力外,設(shè)計(jì)出好的喚醒和命令也能起到事倍功半的效果。所以下面介紹一下如何設(shè)計(jì)中文的英文的喚醒
    發(fā)表于 10-25 15:09

    量子Fourier變換構(gòu)造FQT電路

    摘要:利用量子Fourier變換,給出構(gòu)造3個(gè)量子位的量子Fourier變換電路的方法,利用該方法可構(gòu)造出n個(gè)量子住的QFT電路。關(guān)鍵:量子位;量子Fourier變換;FQT電路
    發(fā)表于 05-31 10:58 ?12次下載

    鋁電解的構(gòu)造和生產(chǎn)過(guò)程

    鋁電解的構(gòu)造和生產(chǎn)過(guò)程 鋁電解基本由正極箔+氧化膜(不能獨(dú)立于正極箔存在)+電解紙(浸有電解液)+負(fù)極箔+外殼+膠塞+引線+
    發(fā)表于 10-07 15:35 ?1772次閱讀

    計(jì)算機(jī)程序的構(gòu)造和解釋中文

    電子發(fā)燒友網(wǎng)站提供《計(jì)算機(jī)程序的構(gòu)造和解釋中文版.txt》資料免費(fèi)下載
    發(fā)表于 01-04 17:24 ?0次下載

    基于強(qiáng)度熵解決中文關(guān)鍵識(shí)別

    文本的關(guān)鍵識(shí)別是文本挖掘中的基本問(wèn)題之一。在研究現(xiàn)有基于復(fù)雜網(wǎng)絡(luò)的關(guān)鍵識(shí)別方法的基礎(chǔ)上,從整個(gè)復(fù)雜網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特征的信息缺失角度來(lái)考察各節(jié)點(diǎn)的重要程度。提出強(qiáng)度熵測(cè)度來(lái)量化評(píng)估各節(jié)點(diǎn)重要程度,用于解決中文關(guān)鍵
    發(fā)表于 11-24 09:54 ?7次下載
    基于強(qiáng)度熵解決<b class='flag-5'>中文</b>關(guān)鍵<b class='flag-5'>詞</b>識(shí)別

    基于標(biāo)簽優(yōu)先的抽取排序方法

    針對(duì)微博關(guān)鍵抽取準(zhǔn)確率不高的問(wèn)題,提出一種基于標(biāo)簽優(yōu)先的抽取排序方法。該方法利用微博本身具有的社交特征標(biāo)簽,從微博內(nèi)容集中抽取關(guān)鍵。該方法首先根據(jù)微博自身建立初始
    發(fā)表于 12-25 15:04 ?0次下載
    基于<b class='flag-5'>標(biāo)簽</b>優(yōu)先的抽取排序方法

    Python數(shù)據(jù)挖掘:WordCloud云配置過(guò)程及詞頻分析

    下面這部分代碼參考老曹的,希望對(duì)你有所幫助。 老曹說(shuō):什么是云呢?云又叫文字云,是對(duì)文本數(shù)據(jù)中出現(xiàn)頻率較高的“關(guān)鍵”在視覺(jué)上的突出呈現(xiàn),形成關(guān)鍵
    的頭像 發(fā)表于 09-14 14:55 ?4194次閱讀

    Chrome新增一項(xiàng)功能 部分標(biāo)簽頁(yè)可顯示該頁(yè)面關(guān)鍵

    作為全球最受歡迎的互聯(lián)網(wǎng)瀏覽器,Chrome的功能仍在不斷豐富,從而為用戶提供更無(wú)縫的使用體驗(yàn)。近日谷歌在Chrome瀏覽器中新增了一項(xiàng)新功能,在部分標(biāo)簽頁(yè)預(yù)覽中能夠顯示該頁(yè)面的關(guān)鍵。例如在搜索“cnBeta”的標(biāo)簽頁(yè)切換時(shí)候
    的頭像 發(fā)表于 04-15 08:38 ?3496次閱讀

    面向短文本的中文錯(cuò)誤檢測(cè)與修復(fù)

    在線學(xué)習(xí)社區(qū)中的中文錯(cuò)誤會(huì)給中文文本語(yǔ)義的理解帶來(lái)困難,從而影響基于在線學(xué)習(xí)社區(qū)文本的學(xué)習(xí)分析效果。為此,提出一種針對(duì)在線學(xué)習(xí)社區(qū)短文本的真錯(cuò)誤檢測(cè)與修復(fù)方法。構(gòu)建混淆
    發(fā)表于 06-08 14:47 ?6次下載

    面向短文本的中文錯(cuò)誤檢測(cè)與修復(fù)

    在線學(xué)習(xí)社區(qū)中的中文錯(cuò)誤會(huì)給中文文本語(yǔ)義的理解帶來(lái)困難,從而影響基于在線學(xué)習(xí)社區(qū)文本的學(xué)習(xí)分析效果。為此,提出一種針對(duì)在線學(xué)習(xí)社區(qū)短文本的真錯(cuò)誤檢測(cè)與修復(fù)方法。構(gòu)建混淆
    發(fā)表于 06-08 14:47 ?2次下載