命名實體識別是NLP領(lǐng)域中的一項基礎(chǔ)任務(wù),在文本搜索、文本推薦、知識圖譜構(gòu)建等領(lǐng)域都起著至關(guān)重要的作用,一直是熱點研究方向之一。多模態(tài)命名實體識別在傳統(tǒng)的命名實體識別基礎(chǔ)上額外引入了圖像,可以為文本補充語義信息來進(jìn)行消岐,近些年來受到人們廣泛的關(guān)注。
盡管當(dāng)前的多模態(tài)命名實體識別方法取得了成功,但仍然存在著兩個問題:(1)當(dāng)前大部分方法基于注意力機(jī)制來進(jìn)行文本和圖像間的交互,但由于不同模態(tài)的表示來自于不同的編碼器,想要捕捉文本中token和圖像中區(qū)域之間的關(guān)系是困難的。如下圖所示,句子中的‘Rob’應(yīng)該和圖像中存在貓的區(qū)域(V5,V6,V9等)有著較高的相似度,但由于文本和圖像的表示并不一致,在通過點積等形式計算相似度時,‘Rob’可能會和其它區(qū)域有著較高的相似度得分。因此,表示的不一致會導(dǎo)致模態(tài)之間難以建立起較好的關(guān)系。

(2)當(dāng)前的方法認(rèn)為文本與其隨附的圖像是匹配的,并且可以幫助識別文本中的命名實體。然而,并不是所有的文本和圖像都是匹配的,模型考慮這種不匹配的圖像將會做出錯誤的預(yù)測。如下圖所示,圖片中沒有任何與命名實體“Siri”相關(guān)的信息,如果模型考慮這張不匹配的圖像,便會受圖中“人物”的影響將“Siri”預(yù)測為PER(人)。而在只有文本的情況下,預(yù)訓(xùn)練模型(BERT等)通過預(yù)訓(xùn)練任務(wù)中學(xué)到的知識可以將“Siri”的類型預(yù)測為MISC(雜項)。
為了解決上述存在的問題,本文提出了MAF,一種通用匹配對齊框架(General Matching and Alignment Framework),將文本和圖像的表示進(jìn)行對齊并通過圖文匹配的概率過濾圖像信息 。由于該框架中的模塊是插件式的,其可以很容易地被拓展到其它多模態(tài)任務(wù)上。
本文研究成果已被WSDM2022接收,


整體框架
本文框架如下圖所示,由5個主要部分組成:
Input Representations
將原始的文本輸入轉(zhuǎn)為token序列的表示以及文本整體的表示,將原始的圖像輸入轉(zhuǎn)為圖像區(qū)域的表示以及圖像整體的表示。
Cross-Modal Alignment Module
接收文本整體的表示和圖像整體的表示作為輸入,通過對比學(xué)習(xí)將文本和圖像的表示變得更為一致。
Cross-Modal Interaction Module
接收token序列的表示以及圖像區(qū)域的表示作為輸入,使用注意力機(jī)制建立起文本token和圖像區(qū)域之間的聯(lián)系得到文本增強(qiáng)后的圖像的表示。
Cross-Modal Matching Module
接收文本序列的表示和文本增強(qiáng)后的圖像的表示作為輸入,用于判斷文本和圖像匹配的概率,并用輸出的概率對圖像信息進(jìn)行過濾。
Cross-Modal Fusion Module
將文本token序列的表示和最終圖像的表示結(jié)合在一起輸入到CRF層進(jìn)行預(yù)測。


主要部分
Input Representations






實驗
主要結(jié)果
本文的方法在Twitter-2015和Twitter-2017數(shù)據(jù)集上效果均優(yōu)于之前的方法。

運行時間
本文的方法相比于之前的方法除了有著模態(tài)之間交互的模塊(本文中為CI),還添加了對齊模態(tài)表示的CA以及判斷圖文是否匹配的CM,這可能會導(dǎo)致訓(xùn)練成本以及預(yù)測成本增加。但本文簡化了模態(tài)之間交互的過程,因此整體訓(xùn)練和預(yù)測時間以及模型大小均由于之前的SOTA方法。

消融實驗
本文進(jìn)行了消融實驗,驗證了CA和CM的有效性。

樣例分析
本文還進(jìn)行了樣例分析來更加直觀地展示CA和CM的有效性。

審核編輯:劉清
-
編碼器
+關(guān)注
關(guān)注
45文章
3929瀏覽量
141982 -
MLP
+關(guān)注
關(guān)注
0文章
57瀏覽量
4951
原文標(biāo)題:用于多模態(tài)命名實體識別的通用匹配對齊框架
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
一種無OS的MCU實用軟件框架
用于窄帶匹配高速射頻ADC的全新方法
頻譜分析儀與電壓探頭匹配指南
TDK MAF1005P型噪聲抑制濾波器:設(shè)計利器的深度剖析
TDK MAF1005FR音頻線路噪聲抑制濾波器:設(shè)計工程師的理想之選
摩爾線程新一代大語言模型對齊框架URPO入選AAAI 2026
一種適用于動態(tài)環(huán)境的自適應(yīng)先驗場景-對象SLAM框架
dhkey chcks不匹配怎么解決?
Allegro Skill布局功能--器件絲印過孔對齊介紹與演示
一種新型激光雷達(dá)慣性視覺里程計系統(tǒng)介紹
一種實時多線程VSLAM框架vS-Graphs介紹
PCB布局太亂? Altium Designer這個快捷鍵幫你一秒對齊全場
一種多模態(tài)駕駛場景生成框架UMGen介紹
Orcad繪制原理圖的元器件對齊方法
介紹一種通用匹配對齊框架MAF
評論