在本文中,我們將介紹亞馬遜團(tuán)隊(duì)在ACL2022中的一篇論文VaSCL,該論文在SimCSE的基礎(chǔ)上,提出了一種基于k近鄰與高斯噪聲的虛擬困難樣本增強(qiáng)方法。作者在無監(jiān)督訓(xùn)練中,進(jìn)行困難樣本增強(qiáng),從而提高了模型的性能,并且超過了SimCSE。

論文標(biāo)題:
Virtual Augmentation Supported Contrastive Learning of Sentence Representations
論文鏈接:
https://arxiv.org/abs/2110.08552
01
引言
在ACL2021中,陳丹琦團(tuán)隊(duì)提出了使用Dropout進(jìn)行正樣本增強(qiáng)的對比學(xué)習(xí)方法SimCSE,該方法操作簡單卻十分有效,在無監(jiān)督對比學(xué)習(xí)中取得了非常好的效果。在有監(jiān)督SimCSE中,作者對困難負(fù)樣本的作用進(jìn)行了探究實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明,引入困難負(fù)樣本后,有監(jiān)督SimCSE的指標(biāo)從84.9提升至86.2。這說明,在對比學(xué)習(xí)中,引入困難樣本是能夠提升模型效果的。
然而在無監(jiān)督SimCSE中,作者僅使用dropout的方式進(jìn)行了正樣本增強(qiáng),沒有額外引入困難樣本,這在一定程度上限制了模型的能力?;谶@個動機(jī),亞馬遜提出了一種基于k近鄰與高斯噪聲的虛擬困難樣本增強(qiáng)的無監(jiān)督對比學(xué)習(xí)方法VaSCL。
02
論文解讀
基于Dropout的對比損失
在介紹VaSCL模型之前,我們先簡單回顧一下無監(jiān)督SimCSE。假設(shè)訓(xùn)練時的batch size為N,將一個batch的數(shù)據(jù)記作,將同一個樣本分別輸入模型中兩次,使用不同的dropout mask編碼得到兩個向量和。則在規(guī)模為N的batch中,與的InfoNCE損失為:
基于k近鄰的虛擬增強(qiáng)對比損失
在無監(jiān)督SimCSE的損失函數(shù)的基礎(chǔ)上,作者還設(shè)計(jì)了一種基于k近鄰的虛擬困難樣本增強(qiáng)的損失函數(shù)。
將通過模型編碼之后得到向量序列。
作者通過以下方式獲得第i個句向量的虛擬困難樣本:
正樣本增強(qiáng):對添加高斯噪聲,得到,其中就是經(jīng)過高斯增強(qiáng)后的正樣本。
獲得k近鄰:獲得在中距離最近的k個負(fù)樣本,在本文中我們稱之為k近鄰,記作。
對于來說,是正樣本,是負(fù)樣本集合。則對于,k近鄰虛擬增強(qiáng)的對比損失如下。分子表示拉近與的距離,分母表示拉遠(yuǎn)與負(fù)樣本之間的距離。
在CV中,我們會為輸入的圖片添加高斯噪聲以增加模型的泛化性。添加了高斯噪聲的圖片,肉眼能看出微小的區(qū)別,但不會影響整張圖片的語義信息。所以為句向量添加合適的高斯噪聲,理論上也不會對句向量的語義信息產(chǎn)生很大的改變。
在的k近鄰中,存放的是距離最近的k個負(fù)樣本,也就是與最相似的k個負(fù)樣本。只要batch size足夠大,我們可以近似認(rèn)為,就是的困難負(fù)樣本集合,同樣也是的困難負(fù)樣本集合。
如何獲得上述的高斯噪聲呢?最容易想到的做法便是隨機(jī)生成一個高斯噪聲,直接添加到句向量中。但是為了提高模型的訓(xùn)練難度,生成更高質(zhì)量的高斯噪聲,作者生成若干個候選高斯噪聲,然后選出一個使得最大化的高斯噪聲。
從上述操作可以看出,對于最優(yōu)的高斯噪聲,作者希望它增強(qiáng)后的正樣本與的距離盡可能遠(yuǎn),與負(fù)樣本的距離盡可能近,作者希望這個高斯噪聲能夠?qū)δP彤a(chǎn)生盡可能大的迷惑性。通過這個高斯噪聲,我們就可以得到困難正樣本,并且從某種意義來說,也使得與的距離盡可能拉近,達(dá)到了增強(qiáng)負(fù)樣本難度的目的,做法確實(shí)挺巧妙。
VaSCL對比損失

將上述兩種對比損失進(jìn)行組合,得到最終的VaSCL損失函數(shù):
這個損失函數(shù)的含義如下:
對于每個句子,拉近同一個句子經(jīng)過dropout之后的兩個句向量之間的距離,拉遠(yuǎn)它們與其他句子的距離。
對于每個句子,拉近原句向量與高斯噪聲增強(qiáng)之后的句向量的距離,拉遠(yuǎn)它們與k近鄰負(fù)樣本之間的距離。
03
實(shí)驗(yàn)結(jié)果
作者分別在STS任務(wù)、短文本聚類、意圖識別等任務(wù)中進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如下表所示??梢钥吹?,在三種任務(wù)中,絕大部分?jǐn)?shù)據(jù)集上,VaSCL的表現(xiàn)都要優(yōu)于SimCSE,這表明了基于k近鄰與高斯噪聲的困難樣本增強(qiáng)的有效性。



04
總結(jié)
SimCSE通過dropout mask這種簡單的方法,避免了人工進(jìn)行正樣本增強(qiáng)所帶來的語義改變的問題,并且在無監(jiān)督訓(xùn)練中取得了不錯的效果。而VaSCL論文延續(xù)了SimCSE這種思想,引入了高斯噪聲進(jìn)行正樣本增強(qiáng),有著異曲同工之妙。
VaSCL在SimCSE的基礎(chǔ)上,也進(jìn)行了困難樣本的增強(qiáng)。在進(jìn)行高斯噪聲增強(qiáng)時,使得增強(qiáng)的樣本與原始樣本盡可能不相似,與負(fù)樣本盡可能相似,已達(dá)到【混淆視聽】的效果。通過這種方式,VaSCL在絕大多數(shù)據(jù)集上的表現(xiàn),也超過了SimCSE。
審核編輯 :李倩
-
噪聲
+關(guān)注
關(guān)注
13文章
1154瀏覽量
48887 -
函數(shù)
+關(guān)注
關(guān)注
3文章
4405瀏覽量
66797 -
模型
+關(guān)注
關(guān)注
1文章
3645瀏覽量
51685
原文標(biāo)題:ACL'22 | VaSCL:基于k近鄰與高斯噪聲的困難樣本增強(qiáng)的對比學(xué)習(xí)方法,超越SimCSE
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
NC407B噪聲二極管現(xiàn)貨庫存
基于FPGA的CLAHE圖像增強(qiáng)算法設(shè)計(jì)
噪聲的測量方法詳細(xì)干貨
GLAD應(yīng)用:高斯光束的吸收和自聚焦效應(yīng)
GLAD應(yīng)用:高斯光束的吸收和自聚焦效應(yīng)
基于高斯的稠密視覺SLAM研究
精選好文!噪聲系數(shù)測量的三種方法
NC401-C50H噪聲二極管Noisecom?現(xiàn)貨庫存
是德示波器噪聲水平的優(yōu)化方法
VirtualLab Fusion應(yīng)用:通過熱透鏡聚焦不同類型的高斯模式
高斯計(jì)霍爾探頭對磁場測量什么影響?
多功能三維高斯計(jì)
開關(guān)電源紋波噪聲產(chǎn)生原因和測試方法
圖像高斯濾波的原理及FPGA實(shí)現(xiàn)思路

基于k近鄰與高斯噪聲的虛擬困難樣本增強(qiáng)方法
評論