chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

研究人員為多模態(tài)NER任務提出新穎的關系增強圖卷積網(wǎng)絡

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2022-09-28 11:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

命名實體識別(NER)是信息抽取的一項基本任務,它的目的是識別文本片段中的實體及類型,如人名(PER),地名(LOC)和組織名(ORG)。命名實體識別在許多下游任務都有著廣泛的應用,如實體鏈接和關系抽取。

最近,大多數(shù)關于NER的研究只依靠文本模態(tài)來推斷實體標簽[3,4,5],然而,當文本中包括多義實體時,只依賴文本模態(tài)的信息來識別命名實體就變得非常困難[6,7]。一種有希望的解決方案是引入其他模態(tài)(比如圖像)作為文本模態(tài)的補充。如圖1所示,Twitter文本中出現(xiàn)的單詞“Alibaba”可以被識別為多種類型的實體,例如人名或組織名,但當我們將單詞“Alibaba”與圖片中的視覺對象person對齊后,組織名就會被過濾掉。

從上面的例子中可以看出,將文本中的單詞與圖片中的視覺對象對齊是多模態(tài)命名實體識別任務(MNER)的核心。為此做了很多努力,大致可以分為以下三個方面:(1)將整張圖片編碼為一個全局特征向量,然后設計有效的注意力機制來提取與文本相關的視覺信息[6];(2)將整張圖片平均地分為多個視覺區(qū)域,然后顯式地建模文本序列與視覺區(qū)域之間的相關性[7,8,9,10,11,12];(3)僅保留圖片中的視覺對象區(qū)域,然后將其與文本序列進行交互[13,14,15,16]。

盡管取得了很好的效果,但上述研究獨立地建模了一對圖片和文本中的內部匹配關系,忽略了不同(圖片、文本)對之間的外部匹配關系。在這項工作中,我們認為這種外部關系對于緩解 MNER 任務中的圖片噪聲至關重要。具體來說,我們探索了數(shù)據(jù)集中的兩種外部匹配關系:

模態(tài)間關系(Inter-modal relation):從文本的角度來看,一段文本可能與數(shù)據(jù)集中的多張圖片存在關聯(lián),當文本中的命名實體沒有出現(xiàn)在相應的圖片中時,其它相關圖片通常對識別文本中的命名實體是有幫助的。如圖2(b)所示,句子S2中的命名實體"Trump"沒有出現(xiàn)在相應的圖片中,因此僅僅依靠非正式的句子S2很難推斷出命名實體標簽。然而,當考慮到與句子 S2 密切相關的其他圖片時(例如圖2(a)和2(c)),句子S2中的命名實體標簽大概率是“PER”,因為這些相關的圖片中都包含了視覺對象person。因此,一個可行且自然的方法是建立不同(圖片、文本)對中圖片與文本之間的關聯(lián);

模態(tài)內關系(Intra-modal relation):從圖片的角度來看,不同的圖片中往往包含著相同類型的視覺對象,清晰的視覺對象區(qū)域比模糊的視覺對象區(qū)域更容易識別命名實體標簽。例如,圖2(d)與2(e)中都包含了視覺對象person,雖然通過圖2(d)中模糊的視覺對象區(qū)域來推斷句子 S4 中的命名實體標簽相對困難,但我們根據(jù)圖2(e)可以推斷出句子S4中的命名實體標簽很可能是“PER”,因為圖2(e)中清晰的視覺對象更容易推斷出命名實體標簽"PER"。因此,一個可行且自然的方法是建立不同(圖片、文本)對中圖片之間的關聯(lián);

669b982a-398b-11ed-9e49-dac502259ad0.png

圖:每個藍色框包含數(shù)據(jù)集中的一對圖片和文本。命名實體及其對應的實體類型在文本中突出顯示。黑色箭頭表示圖像-文本對中的內部匹配關系。綠色箭頭表示不同圖文對中圖片和文本之間的模態(tài)間關系,紅色箭頭表示不同圖文對中圖片之間的模態(tài)內關系

為了更好地建模上述兩種外部匹配關系,我們提出了一個用于多模態(tài)NER任務的關系增強圖卷積網(wǎng)絡(R-GCN)。具體來說,R-GCN主要包括兩個模塊:第一個模塊構建了一個模態(tài)內關系圖和一個模態(tài)間關系圖分別來收集數(shù)據(jù)集中與當前圖片和文本最相關的圖片信息。第二個模塊執(zhí)行多模態(tài)交互和融合,最終預測 NER 的標簽序列。廣泛的實驗結果表明,我們的R-GCN網(wǎng)絡在兩個基準數(shù)據(jù)集上始終優(yōu)于當前最先進的工作。

貢獻

1.據(jù)我們所知,我們是第一個提出利用不同(圖片、文本)對之間的外部匹配關系來提升MNER任務性能的工作;

2. 我們設計了一個關系增強的圖卷積神經網(wǎng)絡來同時建模模態(tài)間關系和模態(tài)內關系;

3. 我們在兩個基準數(shù)據(jù)集上的實驗結果都達到了最先進的性能,進一步的實驗分析驗證了我們方法的有效性;

解決方案

6780623e-398b-11ed-9e49-dac502259ad0.png

圖3:R-GCN模型的整體架構

在本文中,我們提出了關系增強的圖卷積神經網(wǎng)絡R-GCN來建模兩種外部匹配關系,圖3展示了該模型的整體架構。它主要由四個模塊組成:(1) 模態(tài)間關系模塊;(2) 模態(tài)內關系模塊;(3)多模態(tài)交互模塊;(4)CRF解碼模塊。下面,我們主要介紹前兩個核心模塊。

模態(tài)間關系:根據(jù)我們的觀察,一段文本可能與數(shù)據(jù)集中的多張圖片存在關聯(lián),當文本中的命名實體沒有出現(xiàn)在相應的圖片中時,其它相關圖片通常對識別文本中的命名實體是有幫助的。為此,我們提出了模態(tài)間關系圖從數(shù)據(jù)集中收集與輸入句子具有相似含義的其他圖片。下面,我們將詳細介紹如何構建模態(tài)間關系圖的頂點和邊:

頂點:模態(tài)間關系圖中有兩種類型的頂點,分別是文本節(jié)點和圖片節(jié)點。文本結點作為中心節(jié)點,它通過將句子輸入到預訓練模型BERT中得到,而圖片節(jié)點是從預訓練模型 ResNet [17]中提取的圖片表示,旨在為中心節(jié)點提供輔助信息。

邊:我們的目標是衡量數(shù)據(jù)集中其他圖片是否包含輸入句子中提及的相似場景。然而,由于圖片與文本之間存在天然的語義鴻溝,因此實現(xiàn)這個目標并不容易。為此,我們首先利用image caption模型[18]將圖片轉化為文本描述,然后將輸入句子和文本描述之間的cos相似度視為文本節(jié)點和圖片節(jié)點之間的邊。

模態(tài)內關系:就像前面提到的,當不同的圖片中包含著相同類型的視覺對象時,清晰的視覺對象區(qū)域比模糊的視覺對象區(qū)域更容易識別文本中的命名實體標簽。為此,我們建立了一個模態(tài)內關系圖從數(shù)據(jù)集中收集與輸入圖片包含相同類型視覺對象的其它圖片。下面,我們將詳細介紹如何構建模態(tài)內關系圖的頂點和邊:

頂點:對于數(shù)據(jù)集中的每張圖片,我們將從預訓練ResNet中提取的圖片特征作為圖片節(jié)點,其中當前輸入圖片對應的特征表示作為中心節(jié)點。

邊:我們的目標是衡量數(shù)據(jù)集中的其他圖片是否包含與輸入圖片相同類型的視覺對象。顯然,ResNet沒有能力獲得圖片中的視覺對象區(qū)域。因此,我們首先利用目標檢測模型Faster-RCNN為每張圖片生成一組視覺對象,然后將輸入圖片和數(shù)據(jù)集中其它圖片的視覺對象表示之間的余弦相似度作為圖片節(jié)點之間的邊。

我們使用圖卷積神經網(wǎng)絡來建模這兩種外部匹配關系,為每個模態(tài)生成關系增強的特征向量。此外,和以前的方法一樣,我們通過多模態(tài)交互模塊建模了圖片和文本之間的內部匹配關系,最后,我們使用條件隨機場[4]對文本表示進行解碼,識別出文本序列中包含的命名實體。

實驗

我們在兩個公開的數(shù)據(jù)集Twitter2015和Twitter2017上進行實驗,結果如表 1 所示,我們報告了整體的Precision, Recall和F1 score,以及每種實體類型的F1 score。與之前的工作一樣,我們主要關注整體的F1 score。實驗結果表明,與UMT和UMGF等多模態(tài)NER模型相比,R-GCN在兩個數(shù)據(jù)集上都取得了有競爭力的結果。值得一提的是,我們的R-GCN模型在F1 score上分別超出了目前性能最好的模型UMGF 1.48%和1.97%。此外,從單個實體類型來看,R-GCN在Twitter2015數(shù)據(jù)集上最多超過UMGF 1.86%,在Twitter2017數(shù)據(jù)集上最多超過UMGF 5.08%。這些結果驗證了我們模型的有效性。

表1:主實驗結果

67b3851a-398b-11ed-9e49-dac502259ad0.png

表2:模態(tài)內關系模塊和模態(tài)間關系模塊的消融實驗結果

6800799c-398b-11ed-9e49-dac502259ad0.png

為了研究單個模塊和多個模塊的組合對模型整體效果的影響,我們對 R-GCN 中的兩個模塊進行了消融研究,即模態(tài)內關系模塊(IntraRG)和模態(tài)間關系模塊(InterRG),從表2中我們可以得出以下結論:

1. 移除任意一個模塊都會使總體性能變差,這驗證了利用數(shù)據(jù)集中不同(圖片,文本)對中的外部匹配關系來提升MNER任務性能的合理性。同時移除IntraRG和InterRG模塊后性能進一步下降,這說明IntraRG和InterRG這兩個模塊從不同的視角提升了MNER任務的性能;

2. 與Intra-RG相比較,Inter-RG對R-GCN模型的影響更大。這是因為我們主要依靠文本序列來預測NER標簽。因此,將相似的圖片信息聚集到文本序列中對我們模型的貢獻更大,這與我們的期望是一致的。

案例分析

為了更好的理解IntraRG模塊和InterRG模塊的作用,我們定性地比較了我們的方法與當前性能最好的兩個方法UMT和UMGF的結果。在圖4(a)中,句子中的命名實體“KyrieIrving”沒有出現(xiàn)在對應的圖片中,所以UMT和UMGF錯誤地將該實體預測為了“MISC”。然而,在InterRG模塊的幫助下,該句子可以與數(shù)據(jù)集中的其他圖片建立聯(lián)系,考慮到這些相關的圖片中都包含了視覺對象person,因此模型給出了正確的標簽預測“PER”。在圖4(b)中,顯然視覺對象區(qū)域是模糊的,這為命名實體的識別帶來了很大的挑戰(zhàn),因此UMT和UMGF都認為句子中沒有命名實體。但是在 IntraRG 的幫助下,我們將包含清晰視覺對象區(qū)域的相似圖片聚合到當前圖片中從而做出正確的預測,因為這些清晰的視覺對象區(qū)域降低了識別命名實體的難度。

6a5c82a8-398b-11ed-9e49-dac502259ad0.png

圖:錯誤類型分析

此外,我們還對模型進行了錯誤分析。具體來說,我們隨機抽取了R-GCN模型預測錯誤的100個樣例,并將其歸納為三種錯誤類型。圖5展示了每種錯誤類型的比例以及一些代表性示例。

1. 第一類為標注帶來的偏差,在圖5(a)中,命名實體“Pebble Beach Residence”被標注為“ORG”,但如果我們將其標注為“LOC”也是合理的,在這種情況下,我們的模型很難區(qū)分它們,因為它們都是正確的。

2.第二類為背景知識缺乏,在圖5(b)中,命名實體“Jonas brother”是一個著名樂隊的名字,在缺乏背景知識的情況下,模型很容易將該實體識別為“PER”

3. 第三類為信息缺失,在圖5(c)中,句子非常的短,圖片中的內容也很簡單,它們不能為模型提供足夠的信息來判斷實體類型。

對于這幾類典型的錯誤,未來應該會有更先進的自然語言處理技術來解決它們。

總結

在本文中,我們?yōu)槎嗄B(tài)NER任務提出了一個新穎的關系增強圖卷積網(wǎng)絡。我們方法的主要思想是利用不同(圖像、文本)對中的兩種外部匹配關系(即模態(tài)間關系和模態(tài)內關系)來提高識別文本中命名實體的能力。大量實驗的結果表明,我們的模型比其他先進的方法具有更好的性能。進一步的分析也驗證了R-GCN模型的有效性。

在未來,我們希望將我們的方法應用到其他多模態(tài)任務中,比如多模態(tài)對話或者多模態(tài)蘊含。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3517

    瀏覽量

    50382
  • NER
    NER
    +關注

    關注

    0

    文章

    7

    瀏覽量

    6341
  • 圖卷積網(wǎng)絡

    關注

    0

    文章

    8

    瀏覽量

    1574

原文標題:ACMMM2022 | 從不同的文本圖片對中學習:用于多模態(tài)NER的關系增強圖卷積網(wǎng)絡

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    什么是圖卷積神經網(wǎng)絡?

    圖卷積神經網(wǎng)絡
    發(fā)表于 08-20 12:05

    卷積神經網(wǎng)絡模型發(fā)展及應用

    network,DBN)[24], 從此拉開了深度學習大幕。隨著深度學習理論的研究和發(fā)展,研究人員提 出了一系列卷積神經網(wǎng)絡模型。為了比較不同模型 的質量,收集并整理了文獻中模型在分
    發(fā)表于 08-02 10:39

    卷積神經網(wǎng)絡的振動信號模態(tài)參數(shù)識別

    針對現(xiàn)有的時域模態(tài)參數(shù)識別方法大多存在難定階和抗噪性差的問題,提出一種無監(jiān)督學習的卷積神經網(wǎng)絡(CNN)的振動信號模態(tài)識別方法。該算法在
    發(fā)表于 12-05 14:39 ?5次下載
    <b class='flag-5'>卷積</b>神經<b class='flag-5'>網(wǎng)絡</b>的振動信號<b class='flag-5'>模態(tài)</b>參數(shù)識別

    如何使用尺度多任務卷積神經網(wǎng)絡進行人群計數(shù)的詳細資料說明

    智能監(jiān)控領域,實現(xiàn)人群計數(shù)具有重要價值,針對人群尺度不一、人群密度分布不均及遮擋等問題,提出一種尺度多任務卷積神經網(wǎng)絡( MMCNN)進行
    發(fā)表于 03-28 15:37 ?6次下載
    如何使用<b class='flag-5'>多</b>尺度多<b class='flag-5'>任務</b><b class='flag-5'>卷積</b>神經<b class='flag-5'>網(wǎng)絡</b>進行人群計數(shù)的詳細資料說明

    什么是圖卷積網(wǎng)絡?為什么要研究GCN?

    下面就讓我們來深入了解一下什么是圖卷積網(wǎng)絡,以及它在行為識別領域的最新工作進展吧!
    的頭像 發(fā)表于 06-10 14:07 ?3w次閱讀

    研究人員提出了一系列新的點云處理模塊

    為了探索這些問題的解決辦法、來自倫敦大學學院的研究人員提出了一系列新的點云處理模塊,從效率、信息共享和點云卷積操作等方面進行了研究,得到了更寬、更深、更快效率更高的點云處理
    的頭像 發(fā)表于 08-02 14:44 ?3315次閱讀
    <b class='flag-5'>研究人員</b>們<b class='flag-5'>提出</b>了一系列新的點云處理模塊

    使用尺度多任務卷積神經網(wǎng)絡進行人群計數(shù)的資料說明

    在智能監(jiān)控領域,實現(xiàn)人群計數(shù)具有重要價值,針對人群尺度不一、人群密度分布不均及遮擋等問題,提出一種尺度多任務卷積神經網(wǎng)絡(MMCNN)進行
    發(fā)表于 11-06 15:46 ?10次下載
    使用<b class='flag-5'>多</b>尺度多<b class='flag-5'>任務</b><b class='flag-5'>卷積</b>神經<b class='flag-5'>網(wǎng)絡</b>進行人群計數(shù)的資料說明

    圖卷積網(wǎng)絡解決語義分割問題

    為了避免上述問題,來自中科院自動化所、北京中醫(yī)藥大學的研究者們提出一個執(zhí)行圖像語義分割任務的圖模型 Graph-FCN,該模型由全卷積網(wǎng)絡
    的頭像 發(fā)表于 05-13 15:21 ?7418次閱讀

    基于圖卷積的層級圖網(wǎng)絡用于基于點云的3D目標檢測

    (例如稀疏性),所以一些關鍵的語義信息(如物體形狀)不能被很好的捕捉到。本文提出了一種基于層級圖網(wǎng)絡(HGNet)的 圖卷積 (GConv),可以直接將點云作為輸入來預測 3D 的邊界框。形狀注意
    的頭像 發(fā)表于 06-21 12:15 ?6518次閱讀
    基于<b class='flag-5'>圖卷積</b>的層級圖<b class='flag-5'>網(wǎng)絡</b>用于基于點云的3D目標檢測

    研究人員研發(fā)一種讓自動駕駛汽車免受網(wǎng)絡攻擊的系統(tǒng)

    據(jù)外媒報道,研究人員研發(fā)了一種新穎的控制架構,能夠保護復雜且網(wǎng)絡互連的系統(tǒng),而此類系統(tǒng)此前容易受到網(wǎng)絡攻擊。
    的頭像 發(fā)表于 11-24 09:57 ?2117次閱讀

    如何使用尺度和多任務卷積神經網(wǎng)絡實現(xiàn)人群計數(shù)

    在智能監(jiān)控領域,實現(xiàn)人群計數(shù)具有重要價值,針對人群尺度不一、人群密度分布不均及遮擋等問題,提出一種尺度多任務卷積神經網(wǎng)絡(MMCNN)進行
    發(fā)表于 01-18 16:47 ?9次下載

    基于三維密集卷積網(wǎng)絡模態(tài)手勢識別方法

    增強時間卷積網(wǎng)絡(TCNs)在時間特征提取方面的能力,提岀一種基于三維密集卷積網(wǎng)絡與改進TCN
    發(fā)表于 03-21 09:42 ?8次下載
    基于三維密集<b class='flag-5'>卷積</b><b class='flag-5'>網(wǎng)絡</b>的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>手勢識別方法

    基于深度圖卷積膠囊網(wǎng)絡融合的圖分類模型

    針對提取圖表征用于圖分類過程中的結構信息提取過程的問題,提出了一種圖卷積神經網(wǎng)絡與膠囊網(wǎng)絡融合的圖分類模型。首先,利用圖卷積神經
    發(fā)表于 05-07 15:17 ?9次下載

    基于卷積神經網(wǎng)絡的人群計數(shù)算法

    解決單幅圖像中的人群遮擋和尺度變化問題,提出一種基于卷積神經網(wǎng)絡的人群計數(shù)算法。利用具有不同尺寸感受野的
    發(fā)表于 05-28 11:08 ?6次下載

    一種基于因果路徑的層次圖卷積注意力網(wǎng)絡

    機電系統(tǒng)中的故障檢測對其可維護性和安全性至關重要。然而,系統(tǒng)監(jiān)測變量往往具有復雜的聯(lián)系,很難表征它們的關系并提取有效的特征。本文開發(fā)了一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(HGCAN),以提高復雜
    的頭像 發(fā)表于 11-12 09:52 ?1056次閱讀
    一種基于因果路徑的層次<b class='flag-5'>圖卷積</b>注意力<b class='flag-5'>網(wǎng)絡</b>