一句話總結(jié)
信息抽取任務(wù)具有多樣的抽取目標(biāo)和異構(gòu)的結(jié)構(gòu),而傳統(tǒng)的模型需要針對特定的任務(wù)進行任務(wù)設(shè)計和標(biāo)簽標(biāo)注,這樣非常的耗時耗力。本文提出一種USM方法,將各種信息抽取任務(wù)通過一種統(tǒng)一的模型方法完成。
USM
信息抽?。↖E)的挑戰(zhàn)在于標(biāo)簽?zāi)J降亩鄻有院徒Y(jié)構(gòu)的異構(gòu)性。
傳統(tǒng)方法需要針對特定任務(wù)的模型設(shè)計,并且嚴(yán)重依賴昂貴的監(jiān)督,因此很難推廣到新模式。
在本文中,我們將 IE 分解為兩種基本能力,「結(jié)構(gòu)化」(Structuring)和「概念化」(Conceptualizing),它們由不同的任務(wù)和模式共享。
基于這種范式,我們建議使用「統(tǒng)一語義匹配 (Unified Semantic Matching, USM)」 框架對各種 IE 任務(wù)進行通用建模,該框架引入了三個統(tǒng)一的標(biāo)記鏈接操作來建模結(jié)構(gòu)化和概念化的能力。
這樣,USM 可以聯(lián)合編碼模式和輸入文本,并行地統(tǒng)一提取子結(jié)構(gòu),并按需可控地解碼目標(biāo)結(jié)構(gòu)。
本文的貢獻為:
算法細(xì)節(jié)
實驗分析
對 4 個 IE 任務(wù)的實證評估表明,所提出的方法在監(jiān)督實驗下實現(xiàn)了最先進的性能,并在零/少鏡頭傳輸設(shè)置中表現(xiàn)出強大的泛化能力。
USM在不同數(shù)據(jù)集上的結(jié)果
零樣本遷移實驗
少樣本實驗
總結(jié)
在本文中,我們提出了一個統(tǒng)一的語義匹配框架——USM,它對提取模式和輸入文本進行聯(lián)合編碼,并行地統(tǒng)一提取子結(jié)構(gòu),并按需可控地解碼目標(biāo)結(jié)構(gòu)。
實驗結(jié)果表明,USM 在監(jiān)督實驗下實現(xiàn)了最先進的性能,并在零/少場景設(shè)置下表現(xiàn)出強大的泛化能力,驗證了 USM 是一種新穎、可傳輸、可控和高效的框架。
對于未來的工作,我們希望將 USM 擴展到 NLU 任務(wù),例如文本分類,并研究 IE 的更多間接監(jiān)督信號,例如文本蘊含。
審核編輯:劉清
-
編碼器
+關(guān)注
關(guān)注
45文章
3792瀏覽量
137870 -
編解碼
+關(guān)注
關(guān)注
1文章
145瀏覽量
20095 -
USM
+關(guān)注
關(guān)注
0文章
7瀏覽量
7323
原文標(biāo)題:AAAI2023 | 百度+中科院提出USM:一種信息抽取的大一統(tǒng)方法
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
PD快充協(xié)議有望一統(tǒng)嗎?
基于子樹廣度的Web信息抽取
文本分類中一種混合型特征降維方法
快遞好壞京東一人說了算,天天快遞服務(wù)太爛?躺著被“封殺”
基于WebHarvest的健康領(lǐng)域Web信息抽取方法
蘋果實現(xiàn)大一統(tǒng):打通PC、平板、手機隔閡
為應(yīng)對蘋果大一統(tǒng),微軟盡力讓win10全力擁抱Android
美國正式宣布放棄DSRC車聯(lián)網(wǎng)標(biāo)準(zhǔn)轉(zhuǎn)向C-V2X
華為要最終實現(xiàn)其全場景、大一統(tǒng)的生態(tài)
一個接口一統(tǒng)江湖!Intel雷電成功了
一種面向維吾爾語的停用詞抽取方法
一種全新易用的基于Word-Word關(guān)系的NER統(tǒng)一模型
基于統(tǒng)一語義匹配的通用信息抽取框架USM
學(xué)技術(shù) | 充電器大一統(tǒng):USB Type-C接口PD協(xié)議解決方案

評論