高成本的人工標(biāo)簽使得弱監(jiān)督學(xué)習(xí)備受關(guān)注。seed-driven 是弱監(jiān)督學(xué)習(xí)中的一種常見(jiàn)模型。該模型要求用戶提供少量的seed words,根據(jù)seed words對(duì)未標(biāo)記的訓(xùn)練數(shù)據(jù)生成偽標(biāo)簽,增加訓(xùn)練樣本。
但是由于一詞多義現(xiàn)象的存在,同一個(gè)seed word會(huì)出現(xiàn)在不同的類(lèi)別中,從而增加生成正確偽標(biāo)簽的難度;同時(shí),單詞w在語(yǔ)料庫(kù)中的所有位置都使用一個(gè)的詞向量,也會(huì)降低分類(lèi)模型的準(zhǔn)確性。
而本篇論文主要貢獻(xiàn)有:
開(kāi)發(fā)一種無(wú)監(jiān)督的方法,可以根據(jù)詞向量和seed words,解決語(yǔ)料庫(kù)中單詞的一詞多義問(wèn)題。
設(shè)計(jì)一種排序機(jī)制,消除seed words中一些無(wú)效的單詞;并將有效的單詞擴(kuò)充進(jìn)seed words中。
模型整體結(jié)構(gòu)為:

第一步:使用聚類(lèi)算法解決語(yǔ)料庫(kù)中單詞的一詞多義問(wèn)題
對(duì)于每一個(gè)單詞 w, 假設(shè)w出現(xiàn)在語(yǔ)料庫(kù)的n個(gè)不同位置, 分別為 ,使用K-Means算法將分成K類(lèi),這里K可理解為單詞w的K個(gè)不同解釋。
用下列公式計(jì)算K的值:

其中代表第i個(gè)聚類(lèi)中心的向量。的計(jì)算方法如下:

這里s表示一個(gè)seed word,且表示s在語(yǔ)料庫(kù)第i次出現(xiàn),對(duì)應(yīng)的詞向量為。
sim() 表示余弦函數(shù),median( )表示取中位數(shù)。
則對(duì)于任意,有

綜上,一詞多義問(wèn)題解決算法如下:

使用上面算法,我們就可以將原始語(yǔ)料庫(kù)轉(zhuǎn)變?yōu)榛谡Z(yǔ)境下的語(yǔ)料庫(kù):

第二步:對(duì)未標(biāo)記的訓(xùn)練數(shù)據(jù)生成偽標(biāo)簽令表示文檔d的偽標(biāo)簽;表示類(lèi)別為的seed word 集合;表示單詞w出現(xiàn)在文檔d的詞頻

第三步:使用基于語(yǔ)境下的語(yǔ)料庫(kù)進(jìn)行文檔分類(lèi)
本篇論文使用Hierarchical Attention Networks (HAN) 進(jìn)行文本分類(lèi)。

第四步:設(shè)計(jì)排序函數(shù),更新seed words我們?cè)O(shè)計(jì)出一個(gè)打分函數(shù),用于表示單詞w僅高頻的出現(xiàn)在類(lèi)別為的文檔。分值越高,表示單詞w對(duì)類(lèi)別越重要。我們可以選擇分值最高的前幾個(gè)單詞作為新的seed word。也可以剔除一些不重要的seed word。

其中:

表示類(lèi)別為的文檔的數(shù)量。表示類(lèi)別為且含有單詞w的文檔的數(shù)量。表示在類(lèi)別為的文檔中,單詞w的詞頻。
n為語(yǔ)料庫(kù)D的文檔總數(shù)目表示語(yǔ)料庫(kù)D中含有單詞w的文檔的數(shù)量。
結(jié)果
我們的完整模型稱(chēng)為 ConWea,
而 ConWea-NoCon是 ConWea確實(shí)缺少第一步的變體。
ConWea-NoExpan是 ConWea確實(shí)缺少第四步的變體。
ConWea-WSD是將 ConWea第一步的方法換成Lesk算法。

責(zé)任編輯:xj
原文標(biāo)題:【ACL2020】基于語(yǔ)境的文本分類(lèi)弱監(jiān)督學(xué)習(xí)
文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
文本分類(lèi)
+關(guān)注
關(guān)注
0文章
18瀏覽量
7451 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8546瀏覽量
136535 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5594瀏覽量
124157
原文標(biāo)題:【ACL2020】基于語(yǔ)境的文本分類(lèi)弱監(jiān)督學(xué)習(xí)
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個(gè)常見(jiàn)錯(cuò)誤與局限性
【團(tuán)購(gòu)】獨(dú)家全套珍藏!龍哥LabVIEW視覺(jué)深度學(xué)習(xí)實(shí)戰(zhàn)課(11大系列課程,共5000+分鐘)
【團(tuán)購(gòu)】獨(dú)家全套珍藏!龍哥LabVIEW視覺(jué)深度學(xué)習(xí)實(shí)戰(zhàn)課程(11大系列課程,共5000+分鐘)
如何深度學(xué)習(xí)機(jī)器視覺(jué)的應(yīng)用場(chǎng)景
自動(dòng)駕駛中常提的“強(qiáng)化學(xué)習(xí)”是個(gè)啥?
如何在機(jī)器視覺(jué)中部署深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)
深度學(xué)習(xí)對(duì)工業(yè)物聯(lián)網(wǎng)有哪些幫助
自動(dòng)駕駛中Transformer大模型會(huì)取代深度學(xué)習(xí)嗎?
任正非說(shuō) AI已經(jīng)確定是第四次工業(yè)革命 那么如何從容地加入進(jìn)來(lái)呢?
使用MATLAB進(jìn)行無(wú)監(jiān)督學(xué)習(xí)
深度學(xué)習(xí):基于語(yǔ)境的文本分類(lèi)弱監(jiān)督學(xué)習(xí)
評(píng)論