論文標(biāo)題:
Decomposed Meta-Learning for Few-Shot Named Entity Recognition
論文鏈接:
https://arxiv.org/abs/2204.05751
代碼鏈接:
https://github.com/microsoft/vert-papers/tree/master/papers/DecomposedMetaNER
Abstract
少樣本 NER 的系統(tǒng)目的在于通過很少的標(biāo)注樣本來識(shí)別新的命名實(shí)體類。本文提出了一個(gè)分解的元學(xué)習(xí)方法來解決小樣本 NER,通過將原問題分解為小樣本跨度預(yù)測和小樣本實(shí)體分類兩個(gè)過程。具體來說,我們將跨度預(yù)測當(dāng)作序列標(biāo)注問題并且使用 MAML 算法訓(xùn)練跨度預(yù)測器來找到更好的模型初始化參數(shù)并且使模型能夠快速適配新實(shí)體。對(duì)于實(shí)體分類,我們提出 MAML-ProtoNet,一個(gè) MAML 增強(qiáng)的原型網(wǎng)絡(luò),能夠找到好的嵌入空間來更好的分辨不同實(shí)體類的跨度。在多個(gè) benchmark 上的實(shí)驗(yàn)表明,我們的方法取得了比之前的方法更好的效果。
Intro
NER 目的在于定位和識(shí)別文本跨度中的預(yù)定義實(shí)體類諸如 location、organization。在標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí) NER 中深度學(xué)習(xí)的架構(gòu)取得了很大的成功。然而,在實(shí)際應(yīng)用中,NER 的模型通常需要迅速適配一些新的未見過的實(shí)體類,且通常標(biāo)注大量的新樣本開銷很大。因此,小樣本 NER 近年來得到了廣泛的研究。 之前關(guān)于小樣本 NER 的研究都是基于 token 級(jí)的度量學(xué)習(xí),將每個(gè)查詢 token 和原型進(jìn)行度量上的比較,然后為每個(gè) token 分配標(biāo)簽。最近的很多研究都轉(zhuǎn)為跨度級(jí)的度量學(xué)習(xí),能夠繞過 token 對(duì)標(biāo)簽的以來并且明確利用短語的表征。 然而這些方法在遇到較大領(lǐng)域偏差時(shí)可能沒那么有效,因?yàn)樗麄冎苯邮褂脤W(xué)習(xí)的度量而沒有對(duì)目標(biāo)域進(jìn)行適配。換句話說,這些方法沒有完全挖掘支持集數(shù)據(jù)的信息。現(xiàn)在的方法還存在以下限制: 1. 解碼過程需要對(duì)重疊的跨度仔細(xì)處理; 2. 非實(shí)體類型“O”通常時(shí)噪聲,因?yàn)檫@些詞之間幾乎沒有共同點(diǎn)。 此外,當(dāng)針對(duì)一個(gè)不同的領(lǐng)域時(shí),唯一可用的信息僅僅是很少的支持樣本,不幸的是,這些樣本在之前的方法中僅僅被應(yīng)用在推理階段計(jì)算相似度的過程中。 為了解決這些局限性,本文提出了一種分解的元學(xué)習(xí)方法,將原問題分解為跨度預(yù)測和實(shí)體分類兩個(gè)過程。具體來講: 1. 對(duì)于小樣本跨度預(yù)測來說,我們將其看作序列標(biāo)注問題來解決重疊跨度的問題。這個(gè)過程目的在于定位命名實(shí)體并且是與類別無關(guān)的。然后我們僅僅對(duì)被標(biāo)注出的跨度進(jìn)行實(shí)體分類,這樣也可以消除“O”類噪聲的影響。當(dāng)訓(xùn)練跨度檢測模塊時(shí),我們采用的 MAML 算法來找到好的模型初始化參數(shù),在使用少量目標(biāo)域支持集樣本更新后,能夠快速適配新實(shí)體類。在模型更新時(shí),特定領(lǐng)域的跨度邊界信息能夠被模型有效的利用,使模型能夠更好的遷移到目標(biāo)領(lǐng)域; 2. 對(duì)于實(shí)體分類,采用了 MAML-ProtoNet 來縮小源域和目標(biāo)域的差距。 我們在一些 benchmark 上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)表明我們提出的框架比之前的 SOTA 模型表現(xiàn)更好,我們還進(jìn)行了定性和定量的分析,不同的元學(xué)習(xí)策略對(duì)于模型表現(xiàn)的影響。
Method
本文遵循傳統(tǒng)的 N-way-K-shot 的小樣本設(shè)置,示例如下表(2-way-1-shot):
下圖為模型的總體結(jié)構(gòu):
2.1 Entity Span Detection
跨度檢測階段不需要分類具體的實(shí)體類,因此模型的參數(shù)可以在不同的領(lǐng)域之間共享?;诖耍覀儾捎?MAML 來促進(jìn)領(lǐng)域不變的內(nèi)部表征學(xué)習(xí)而不是針對(duì)特定領(lǐng)域特征的學(xué)習(xí)。這種方式訓(xùn)練的元學(xué)習(xí)模型對(duì)于目標(biāo)域的樣本更加敏感,因此只需要少量樣本進(jìn)行微調(diào)就能取得很好的效果而不會(huì)過擬合。 2.1.1 Basic Detector 基檢測器是一個(gè)標(biāo)準(zhǔn)的序列標(biāo)注任務(wù),采用 BIOES 的標(biāo)注策略,對(duì)于一個(gè)句子序列 {xi},使用一個(gè)編碼器得到其上下文表征 h,然后通過 softmax 生成概率分布。
▲ fθ:編碼器
▲概率分布 模型的訓(xùn)練誤差在交叉熵?fù)p失基礎(chǔ)上添加了最大值項(xiàng)來緩解對(duì)于損失較高的 token 學(xué)習(xí)不足的問題:
▲交叉熵?fù)p失 推理階段采用了維特比解碼,這里我們沒有訓(xùn)練轉(zhuǎn)移矩陣,簡單的添加了一些限制保證預(yù)測的標(biāo)簽不違反 BIOES 的標(biāo)注規(guī)則。 2.1.2 Meta-Learning Procedure 元訓(xùn)練過程具體來說,首先隨機(jī)采樣一組訓(xùn)練 episode:
使用支持集進(jìn)行 inner-update 過程:
其中 Un 代表 n 步梯度更新,損失采用上文所述的損失函數(shù)。然后使用更新后的參數(shù) Θ' 在查詢集上進(jìn)行評(píng)估,將一個(gè) batch 內(nèi)的所有 episode 的損失求和,訓(xùn)練目標(biāo)是最小化該損失:
用上述損失來更新模型的原參數(shù) Θ,這里使用一階導(dǎo)數(shù)來近似計(jì)算:
MAML 數(shù)學(xué)推導(dǎo)參考:MAML
https://zhuanlan.zhihu.com/p/181709693
在推理階段先使用基模型中提到的交叉熵?fù)p失在支持集上微調(diào),然后在查詢集上使用微調(diào)后的模型進(jìn)行測試。
2.2 Entity Typing
實(shí)體分類模塊采用原型網(wǎng)絡(luò)作為基礎(chǔ)模型,使用 MAML 算法對(duì)模型進(jìn)行增強(qiáng),使模型得到一個(gè)更具代表性的嵌入空間來更好的區(qū)分不同的實(shí)體類。 2.2.1 Basic Model 這里使用了另一個(gè)編碼器來對(duì)輸入 token 進(jìn)行編碼,然后使用跨度檢測模塊輸出的跨度 x[i,j],將跨度中所有的 token 表征取平均來代表此跨度的表征:
遵循原型網(wǎng)絡(luò)的設(shè)置,使用支持集中屬于同一實(shí)體類的跨度的求和平均作為類原型的表示:
模型的訓(xùn)練過程先采用支持集計(jì)算每個(gè)類原型的表示,然后對(duì)于查詢集中的每個(gè)跨度,通過計(jì)算其到某一類原型的距離來計(jì)算其屬于該類的概率:
模型的訓(xùn)練目標(biāo)是一個(gè)交叉熵?fù)p失:
推理階段就是簡單的計(jì)算與哪一類原型距離最近即可:
2.2.2 MAML Enhanced ProtoNet 這一過程的設(shè)置與跨度檢測中應(yīng)用的 MAML 一致,同樣是使用 MAML 算法來找到一個(gè)更好的初始化參數(shù),詳細(xì)過程參考上文:
推理階段也與上文一致,這里不詳細(xì)說明了。
實(shí)驗(yàn)
3.1 數(shù)據(jù)集和設(shè)置
本文采用 Few-NERD,一個(gè)專門為 few-shot NER 推出的數(shù)據(jù)集以及 cross-dataset,四種不同領(lǐng)域的數(shù)據(jù)集的整合。對(duì)于 Few-NERD 使用 P、R、micro-F1 作為評(píng)價(jià)指標(biāo),cross-dataset 采用 P、R、F1 作為評(píng)價(jià)指標(biāo)。文中兩個(gè)編碼器采用兩個(gè)獨(dú)立的 BERT,優(yōu)化器使用 AdamW。
3.2 主實(shí)驗(yàn)
▲ Few-NERD
▲Cross-Dataset
3.3 消融實(shí)驗(yàn)
3.4 分析
對(duì)于跨度檢測,作者用一個(gè)全監(jiān)督的跨度檢測器進(jìn)行實(shí)驗(yàn):
作者分析,未精調(diào)的模型預(yù)測的 Broadway 對(duì)于新實(shí)體類來說是一個(gè)錯(cuò)誤的預(yù)測(Broadway 出現(xiàn)在了訓(xùn)練數(shù)據(jù)中),然后通過對(duì)該模型采用新實(shí)體類樣本進(jìn)行精調(diào),可以看出模型能夠預(yù)測出正確的跨度,但是 Broadway 這一跨度仍然被預(yù)測了。這表明傳統(tǒng)的精調(diào)雖然可以使模型獲取一定的新類信息,但是其還是存在很大偏差。 然后作者對(duì)比了 MAML 增強(qiáng)的模型和未使用 MAML 模型的 F1 指標(biāo):
MAML 算法可以更好的利用支持集的數(shù)據(jù),找到一個(gè)更好的初始化參數(shù),使模型能夠快速適配到新域中。 然后作者分析了 MAML 如何提升原型網(wǎng)絡(luò),首先是指標(biāo)上 MAML 增強(qiáng)的原型網(wǎng)絡(luò)會(huì)有一定的提升:
接著作者進(jìn)行了可視化分析:
從上圖可以看出,MAML 增強(qiáng)的原型網(wǎng)絡(luò)能夠更好的區(qū)分各個(gè)類原型。
Conclusion
本文提出了一個(gè)兩階段的模型,跨度檢測和實(shí)體分類來進(jìn)行小樣本 NER 任務(wù),兩個(gè)階段的模型均使用元學(xué)習(xí) MAML 的方法來進(jìn)行增強(qiáng),獲取了更好的初始化參數(shù),能夠使模型通過少量樣本快速適配到新域中。本文也算是一篇啟發(fā)性的文章,在指標(biāo)上可以看出,元學(xué)習(xí)的方法對(duì)小樣本 NER 任務(wù)有著巨大的提升。
審核編輯 :李倩
-
模型
+關(guān)注
關(guān)注
1文章
3520瀏覽量
50419 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122794
原文標(biāo)題:ACL2022 | 分解的元學(xué)習(xí)小樣本命名實(shí)體識(shí)別
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
基于LockAI視覺識(shí)別模塊:C++人臉識(shí)別
PCB最全封裝命名規(guī)范
ADS1274識(shí)別的信號(hào)可以小于噪聲1000倍,是真的嗎?
適用于內(nèi)窺鏡鏡頭模組的環(huán)氧樹脂封裝膠

千萬級(jí) FA 鏡頭應(yīng)用線路板缺陷檢測

【「嵌入式系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)」閱讀體驗(yàn)】“基于車牌識(shí)別的自動(dòng)地鎖”案例學(xué)習(xí)
使用TUSB1046插入U(xiǎn)SB3.0的U盤,發(fā)現(xiàn)有不識(shí)別的現(xiàn)象,為什么?
ASR與傳統(tǒng)語音識(shí)別的區(qū)別
風(fēng)華貼片瓷介電容型號(hào)識(shí)別及命名方法

GPU深度學(xué)習(xí)應(yīng)用案例
TAC5242EVM-K通過usb連接電腦出現(xiàn)不能識(shí)別的問題,怎么解決?
深度識(shí)別人臉識(shí)別有什么重要作用嗎
使用 TMP1826 嵌入式 EEPROM 替換用于模塊識(shí)別的外部存儲(chǔ)器

評(píng)論