什么是關(guān)系抽取
知識就是力量。使人類及機(jī)器能夠更好地利用知識是提升工作效率及實(shí)現(xiàn)人工智能的關(guān)鍵所在,也催生了包括知識表示、知識推理在內(nèi)的一系列研究。作為一切對知識的利用的基礎(chǔ),我們首先要獲取知識,即知識抽取。
與我們一般通過閱讀書籍來獲取知識一樣,知識抽取的主要數(shù)據(jù)來源是文本(如新聞、小說、維基百科等)。通常來講,我們可以直接從文本中獲取的知識包含兩類:實(shí)體 (entity) 和關(guān)系 (relation) [1],這也對應(yīng)了兩類知識抽取任務(wù):實(shí)體識別 (entity recognition) 和關(guān)系抽取 (relation extraction)。下表給出了一個從句子中進(jìn)行知識抽取的示例。在本文中,我們將主要關(guān)注「關(guān)系抽取」。
ID | 文本 | 實(shí)體 | 關(guān)系 |
---|---|---|---|
1 | 北京是中國的首都,具有悠久的歷史。 | 北京,中國 | 首都 |
2 | 比爾蓋茨是微軟的創(chuàng)始人。 | 比爾蓋茨,微軟 | 創(chuàng)始人 |
3 | 合肥位于安徽中部,是安徽省會。 | 合肥,安徽 | 位于,是省會 |
顧名思義,關(guān)系抽取的目的就是從文本數(shù)據(jù)中抽取出關(guān)系。直觀來講,關(guān)系必然存在于兩個(或多個實(shí)體)之間,比如在“合肥位于安徽中部”這一文本中,“位于”是“合肥”和“安徽”之間的關(guān)系,而撇開實(shí)體或者單看某單一實(shí)體時(shí)不會有關(guān)系這一概念的出現(xiàn)。從上表第三個例子又可以看出,”合肥“和”安徽“之間同時(shí)具有”位于“和”省會“兩個關(guān)系,即一個文本中的實(shí)體對之間事實(shí)上可以存在多個不同的關(guān)系。因此,在不考慮發(fā)現(xiàn)未知的新關(guān)系時(shí),我們可以將關(guān)系抽取定義成一個「給定實(shí)體對」情況下的「多標(biāo)簽分類」(multi-label classification) 任務(wù),其中的標(biāo)簽即為實(shí)體對之間的關(guān)系。
關(guān)系抽取的難點(diǎn)
從上一節(jié)對關(guān)系抽取任務(wù)的定義可以看出,要訓(xùn)練一個關(guān)系抽取模型,數(shù)據(jù)中應(yīng)同時(shí)包含對實(shí)體對和關(guān)系的標(biāo)注。實(shí)體的標(biāo)注對應(yīng)了實(shí)體識別任務(wù),目前可以通過較為成熟的命名實(shí)體識別 (NER) 等技術(shù)來進(jìn)行高質(zhì)量自動標(biāo)注。但關(guān)系的標(biāo)注通常較為困難,一些句子中甚至不會顯式的出現(xiàn)定義好的關(guān)系的相近描述。如“合肥是安徽的省會”一句中事實(shí)上是蘊(yùn)含了“位于”這一關(guān)系,但句子中并沒有顯式地出現(xiàn)“位于”的相關(guān)描述,我們需要通過一些人類的常識進(jìn)行推斷。因此,在構(gòu)建精確標(biāo)注的關(guān)系抽取數(shù)據(jù)集時(shí),大量人工標(biāo)注通常是必不可少的,這就導(dǎo)致數(shù)據(jù)集的構(gòu)建成本非常高昂。
此外,如 Mintz 等人指出,在特定領(lǐng)域的語料上進(jìn)行關(guān)系標(biāo)注而訓(xùn)練得到的關(guān)系抽取模型通常具有偏置 (bias) [2]。比如,發(fā)表于 ACL2020 的一篇文章 [3] 中對關(guān)系抽取中存在的性別偏見 (Gender Bias) 進(jìn)行了討論,感興趣的讀者可以去讀一下這篇文章。
在上文中我們提到了僅利用給定語料上精確標(biāo)注數(shù)據(jù)集進(jìn)行關(guān)系抽取模型訓(xùn)練存在的兩個問題,即「標(biāo)注成本高」和存在「偏置」。那么該怎樣解決這些問題呢?
標(biāo)注成本高問題
如果我們繼續(xù)采用監(jiān)督學(xué)習(xí) (supervised learning) 來對模型進(jìn)行訓(xùn)練,那這個問題就很難回避。盡管我們可以通過少樣本學(xué)習(xí) (few shot learning) 等技術(shù)來充分利用已有的少量精確標(biāo)注數(shù)據(jù),但這些標(biāo)注本身就更容易產(chǎn)生偏置,這就會導(dǎo)致第二個問題變得更加突出。
因此,要想從根本上緩解標(biāo)注成本高問題,我們應(yīng)該考慮放棄監(jiān)督學(xué)習(xí),轉(zhuǎn)而采用弱監(jiān)督、無監(jiān)督,或者探索一種新的學(xué)習(xí)方式。
偏置問題
偏置問題產(chǎn)生的主要原因是在若干個特定領(lǐng)域的標(biāo)注語料庫上進(jìn)行訓(xùn)練,因此解決偏置問題最簡單粗暴的做法自然是選擇覆蓋面較廣的數(shù)據(jù)。幸運(yùn)地是,我們并不缺少這種數(shù)據(jù):現(xiàn)在網(wǎng)絡(luò)、書刊等媒體上充斥著大量文本,這些文本獲取成本低且覆蓋領(lǐng)域廣,如果能夠有效利用這些數(shù)據(jù),那偏置問題將在很大程度上得到緩解。然而,這些數(shù)據(jù)又轉(zhuǎn)而面臨標(biāo)注成本高問題。
遠(yuǎn)程監(jiān)督
為同時(shí)解決以上兩個問題,Mintz 等人于 2009 年提出一種能夠在未經(jīng)精確標(biāo)注的文本上進(jìn)行關(guān)系抽取的新學(xué)習(xí)框架---「遠(yuǎn)程監(jiān)督」(distant supervision) [2]。
何為遠(yuǎn)程監(jiān)督
遠(yuǎn)程監(jiān)督通過文本之外的、由大量實(shí)體對與關(guān)系構(gòu)成的知識庫來對文本進(jìn)行關(guān)系標(biāo)注。其中,“遠(yuǎn)程”可以理解為利用了文本之外的知識庫,而“監(jiān)督”可以理解為提供了關(guān)系標(biāo)簽(即監(jiān)督信息)。
遠(yuǎn)程監(jiān)督的基本假設(shè)
遠(yuǎn)程監(jiān)督具有如下假設(shè) [2]:
「如果一對實(shí)體之間具有某種關(guān)系,那么所有包含這對實(shí)體的句子都將表達(dá)這個關(guān)系的含義?!?/p>
因此,對于一個已經(jīng)識別出某實(shí)體對的句子,知識庫中所有該實(shí)體對之間具有的關(guān)系都可以被看成句子的標(biāo)簽。
遠(yuǎn)程監(jiān)督的基本流程
從上文介紹中可以看出,利用遠(yuǎn)程監(jiān)督進(jìn)行關(guān)系抽取模型的學(xué)習(xí),我們只需要收集文本,在文本中識別實(shí)體對,然后與知識庫中進(jìn)行比對以標(biāo)注關(guān)系即可。需要注意,根據(jù)遠(yuǎn)程監(jiān)督的基本假設(shè),實(shí)體對之間所有能夠成立的關(guān)系都會成為句子的標(biāo)簽。其基本流程可用下例來表示。
很明顯,遠(yuǎn)程監(jiān)督方法極大地?cái)U(kuò)充了關(guān)系抽取能夠利用的數(shù)據(jù)量,其標(biāo)注成本極低,覆蓋面可以極廣。如果標(biāo)注的每個句子都是正確的,那么問題就歸結(jié)于一個相對較為簡單的文本分類任務(wù)。
但是,細(xì)心的讀者可能已經(jīng)發(fā)現(xiàn)了,我們假定存在給定實(shí)體對的句子就能表示這對實(shí)體之間的所有關(guān)系,這勢必會「引入錯誤的標(biāo)注」。如“合肥”和“安徽”之間同時(shí)存在“位于”、“是省會”兩個關(guān)系,那對于“合肥位于安徽”這一句子,我們也會同時(shí)給他標(biāo)注“位于”和“是省會”兩個關(guān)系。但很明顯,這句話并沒有表達(dá)”是省會“這一關(guān)系的含義。如果模型在這錯誤的標(biāo)注上進(jìn)行訓(xùn)練并將這個模式“記住”,即”A位于B“蘊(yùn)含了A是B的省會,那在遇到”黃山位于安徽“這一句子時(shí),它就會認(rèn)為”黃山“和”安徽“之間也具有”是省會“這一關(guān)系,這明顯是不合理的。因此,利用遠(yuǎn)程監(jiān)督進(jìn)行關(guān)系抽取的關(guān)鍵在于「如何消除錯誤標(biāo)注樣本對模型訓(xùn)練的影響」。
遠(yuǎn)程監(jiān)督關(guān)系抽取模型
為了消除錯誤標(biāo)注樣本的影響,遠(yuǎn)程監(jiān)督關(guān)系抽取模型主要采用了兩種方法:錯誤標(biāo)注樣本「篩除」法和錯誤標(biāo)注樣本「轉(zhuǎn)正確標(biāo)注」法。
在本節(jié)中,我們將從上述兩種方法出發(fā)簡單介紹幾個經(jīng)典的模型。受篇幅限制,我們在本文中僅介紹這些模型的核心思路,技術(shù)細(xì)節(jié)請參照原文。因此類模型大都考慮句子級文本,在下文中涉及到數(shù)據(jù)的描述時(shí)我們不再對“句子”和“文本”進(jìn)行區(qū)分。
錯誤標(biāo)注樣本篩除
PCNN
可以設(shè)想,在遠(yuǎn)程監(jiān)督框架下,如果我們每次都將一個帶標(biāo)注的句子作為模型訓(xùn)練的樣本,那甚至可以說訓(xùn)練過程中所使用的大部分樣本都是被錯誤標(biāo)注的,這將會極大地影響模型在實(shí)際應(yīng)用中的效果。
因此,Zeng 等 在 PCNN [4] 一文中提出將多實(shí)例學(xué)習(xí) (multi-instance learning) 應(yīng)用于遠(yuǎn)程監(jiān)督中。其采用 expressed-at-least-once [5] 假設(shè):
「當(dāng)一對實(shí)體之間存在某個關(guān)系,那么包含這對實(shí)體的句子中至少有一個能夠表達(dá)這個關(guān)系。」
在上述假設(shè)下,Zeng 等不再將帶標(biāo)注的句子逐個送入模型進(jìn)行訓(xùn)練,而是將具有相同實(shí)體對和關(guān)系標(biāo)注的所有(也可以是一部分,但直觀上來講越多越好)句子看成一個整體,稱為「包 (bag)」,然后將標(biāo)注的關(guān)系作為整個包的標(biāo)簽進(jìn)行訓(xùn)練。如下圖
這樣一來,即便存在句子是被錯誤標(biāo)注為了某關(guān)系的,但包中有這么多句子,我們總能找到一個句子是具有這個關(guān)系的吧!再退一步,就算包中所有句子都不表達(dá)所標(biāo)注的關(guān)系,那結(jié)果也不會變得更壞了。因此從整體上來看,錯誤標(biāo)注的幾率被降低。
顯然,接下來的工作就是如何「從包中選擇」出那個被正確標(biāo)注的樣本來進(jìn)行接下來的訓(xùn)練了。PCNN 一文中采取的方式是挑選使得條件概率 p(包的標(biāo)簽|句子) 最大的那個句子作為正確標(biāo)注樣本,具體實(shí)現(xiàn)細(xì)節(jié)在此不再贅述。
其他模型
PCNN 每次只選取包中一個句子作為正確標(biāo)注樣本的做法存在一個問題:如果包中有多個句子是被正確標(biāo)注的,那么它們中的大部分都將被舍棄,從而造成了數(shù)據(jù)的浪費(fèi)。為此,一系列基于「注意力機(jī)制」(attention mechanism) 的模型被提出 [6,7,8],它們通過對包中的句子進(jìn)行注意力權(quán)重的分配來同時(shí)選擇多個句子。若包中存在多個被正確標(biāo)注的句子,那么它們的注意力權(quán)重都會較高,從而都會在最終關(guān)系預(yù)測中發(fā)揮作用;此外,被正確標(biāo)注的置信度(即注意力權(quán)重)越高,發(fā)揮的作用將越大。這種軟選擇 (soft selection) 機(jī)制有效地緩解了 PCNN 中硬選擇 (hard selection) 帶來的數(shù)據(jù)浪費(fèi)問題,從而可能在相同樣本量的情況下達(dá)到更高的性能。
錯誤標(biāo)注樣本轉(zhuǎn)正確標(biāo)注
無論怎樣進(jìn)行樣本的篩選,部分確定被錯誤標(biāo)注的樣本總是可以被看成在數(shù)據(jù)集中剔除掉了。那么,這些錯誤標(biāo)注的樣本真的對遠(yuǎn)程監(jiān)督關(guān)系抽取不起作用嗎?(此句借用了 Shang 等論文 [9] 的題目)至少在一些論文的作者看來,答案是否定的。
比如,Shang 等 [9] 利用無監(jiān)督聚類的方法來為錯誤標(biāo)注的樣本重新分配新的標(biāo)簽;而 Wu 等 [10] 認(rèn)為每個句子的現(xiàn)有標(biāo)注和其應(yīng)有標(biāo)注之間存在映射關(guān)系,于是通過學(xué)習(xí)轉(zhuǎn)移矩陣來模擬該映射,進(jìn)而將每個句子的標(biāo)注都轉(zhuǎn)換成其應(yīng)有標(biāo)注。
通過將錯誤標(biāo)注樣本轉(zhuǎn)換為正確標(biāo)注,此類模型在一定程度上擴(kuò)充了數(shù)據(jù)量,也為提升關(guān)系抽取的質(zhì)量提供了新的可能性。但要注意的是,轉(zhuǎn)換后的樣本標(biāo)注可能還是錯的,有時(shí)仍需要進(jìn)行進(jìn)一步的篩選。
總結(jié)
在不考慮發(fā)現(xiàn)未知的新關(guān)系時(shí),關(guān)系抽取本質(zhì)上是一個多標(biāo)簽分類任務(wù)。但因任務(wù)的特殊性,關(guān)系抽取常面臨標(biāo)注數(shù)據(jù)不足等問題。遠(yuǎn)程監(jiān)督的提出在一定程度上解決了這些問題,但它同時(shí)也引入了錯誤標(biāo)注樣本。因此,如何在存在錯誤標(biāo)注樣本的數(shù)據(jù)上學(xué)習(xí)一個優(yōu)秀的分類器成為遠(yuǎn)程監(jiān)督關(guān)系抽取模型的關(guān)鍵。
[1] Ji, S., Pan, S., Cambria, E., Marttinen, P., & Yu, P. S. (2020). A Survey on Knowledge Graphs: Representation, Acquisition and Applications. arXiv preprint arXiv:2002.00388.
[2] Mintz, M., Bills, S., Snow, R., & Jurafsky, D. (2009). Distant supervision for relation extraction without labeled data. Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2 - ACL-IJCNLP ’09, 2(2005), 1003.
[3] Gaut, A., Sun, T., Tang, S., Huang, Y., Qian, J., ElSherief, M., Zhao, J., Mirza, D., Belding, E., Chang, K.-W., & Wang, W. Y. (2020). Towards Understanding Gender Bias in Relation Extraction. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 1(1), 2943–2953.
[4] Zeng, D., Liu, K., Chen, Y., & Zhao, J. (2015). Distant supervision for relation extraction via Piecewise Convolutional Neural Networks. Conference Proceedings - EMNLP 2015: Conference on Empirical Methods in Natural Language Processing, September, 1753–1762.
[5] Riedel, S., Yao, L., & McCallum, A. (2010). Modeling relations and their mentions without labeled text. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 6323 LNAI(PART 3), 148–163.
[6] Lin, Y., Shen, S., Liu, Z., Luan, H., & Sun, M. (2016). Neural relation extraction with selective attention over instances. 54th Annual Meeting of the Association for Computational Linguistics, ACL 2016 - Long Papers, 4, 2124–2133.
[7] Han, X., Yu, P., Liu, Z., Sun, M., & Li, P. (2018). Hierarchical relation extraction with coarse-to-fine grained attention. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, EMNLP 2018, 2236–2245.
[8] Ye, Z.-X., & Ling, Z.-H. (2019). Distant Supervision Relation Extraction with Intra-Bag and Inter-Bag Attentions. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 1, 2810–2819.
[9] Shang, Y., Huang, H.-Y., Mao, X.-L., Sun, X., & Wei, W. (2020). Are Noisy Sentences Useless for Distant Supervised Relation Extraction? Proceedings of the AAAI Conference on Artificial Intelligence, 34(05), 8799–8806.
[10] Wu, S., Fan, K., & Zhang, Q. (2019). Improving Distantly Supervised Relation Extraction with Neural Noise Converter and Conditional Optimal Selector. Proceedings of the AAAI Conference on Artificial Intelligence, 33, 7273–7280.
作者簡介:張占秋,2018年畢業(yè)于中國科學(xué)技術(shù)大學(xué)數(shù)學(xué)科學(xué)學(xué)院,獲得理學(xué)學(xué)士學(xué)位?,F(xiàn)于中國科學(xué)技術(shù)大學(xué)電子工程與信息科學(xué)系的 MIRA Lab 實(shí)驗(yàn)室攻讀博士生,師從王杰教授。研究興趣包括知識圖譜與自然語言處理。
責(zé)任編輯:xj
原文標(biāo)題:遠(yuǎn)程監(jiān)督在關(guān)系抽取中的應(yīng)用
文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
人工智能
+關(guān)注
關(guān)注
1807文章
49028瀏覽量
249551 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8503瀏覽量
134625 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122796
原文標(biāo)題:遠(yuǎn)程監(jiān)督在關(guān)系抽取中的應(yīng)用
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
使用MATLAB進(jìn)行無監(jiān)督學(xué)習(xí)

在OpenVINO?工具套件的深度學(xué)習(xí)工作臺中無法導(dǎo)出INT8模型怎么解決?
軍事應(yīng)用中深度學(xué)習(xí)的挑戰(zhàn)與機(jī)遇
BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系
AI自動化生產(chǎn):深度學(xué)習(xí)在質(zhì)量控制中的應(yīng)用

GPU在深度學(xué)習(xí)中的應(yīng)用 GPUs在圖形設(shè)計(jì)中的作用
時(shí)空引導(dǎo)下的時(shí)間序列自監(jiān)督學(xué)習(xí)框架

評論