論文:MCSE: Multimodal Contrastive Learning of Sentence Embeddings
鏈接:https://aclanthology.org/2022.naacl-main.436.pdf
代碼:https://github.com/uds-lsv/MCSE

視覺作為人類感知體驗(yàn)的核心部分,已被證明在建立語言模型和提高各種NLP任務(wù)的性能方面是有效的。作者認(rèn)為視覺作為輔助語義信息可以進(jìn)一步促進(jìn)句子表征學(xué)習(xí)。在這篇論文中,為了同時利用視覺信息和文本信息,作者采用了sota句子嵌入框架SimCSE,并將其擴(kuò)展為多模態(tài)對比目標(biāo)。作者發(fā)現(xiàn),除了文本語料庫之外,使用少量多模態(tài)數(shù)據(jù)可以顯著提高STS任務(wù)的性能。在論文的最后,作者也對該方法所存在的局限性進(jìn)行了分析
雖然這篇論文的框架非常簡單,但是我覺得對于實(shí)驗(yàn)和作者的局限性分析還是有值得思考的地方
方法

MCSE模型
SimCSE:

就是通過dropout+編碼兩次構(gòu)建正樣本對,進(jìn)行對比學(xué)習(xí)
給定一個圖像句子對,把他們映射到一個共同的嵌入空間中

f()為預(yù)訓(xùn)練的語言編碼器和預(yù)訓(xùn)練的圖像編碼器,g()為映射頭
接下來就是多模態(tài)對比學(xué)習(xí):

最終的損失函數(shù)為 SimCSE的損失+多模態(tài)對比損失:

Experiments
作者使用Flickr30k(包含29, 783個訓(xùn)練圖像)和MS-COCO(包含82, 783個訓(xùn)練圖像)作為多模態(tài)數(shù)據(jù)集,使用Wiki1M(個句子)作為文本語料庫
SimCSE和MCSE的差別就是,MCSE利用了圖像-句子對,引入了多模態(tài)對比損失。即使多模態(tài)數(shù)據(jù)量相對較小,可獲得輔助視覺信息的MCSE模型也能進(jìn)一步取得顯著的改進(jìn)。在STS16上,Bert+MCSE的性能較差,作者解釋為域差異,其中一些接近訓(xùn)練分布的子集比其他子集更能從視覺基礎(chǔ)中獲益。

表1
為了進(jìn)一步研究不同數(shù)據(jù)集的影響,作者只在多模態(tài)數(shù)據(jù)上訓(xùn)練模型,并在表2中報告結(jié)果。我們觀察到,在沒有大型純文本語料庫的情況下,性能比表1中的結(jié)果下降了很多,但是依然可以超過SimCSE。此外,作者將成對的圖像替換為打亂的圖像進(jìn)行訓(xùn)練,模型下降了0.8-5.0個點(diǎn),進(jìn)一步驗(yàn)證了視覺語義的有效性。
這點(diǎn)其實(shí)我不太理解,是將圖像句子對的匹配關(guān)系給打亂了么,如果是這樣的話,感覺好像沒什么意義呀

表2
作者使用bert-base model只在多模態(tài)數(shù)據(jù)上進(jìn)行了訓(xùn)練,來研究數(shù)據(jù)規(guī)模大小對性能的影響,在數(shù)量有限的樣本上,SimCSE取得了更好的性能,隨著數(shù)據(jù)量的增加,MCSE的性能更好,作者推測,這一現(xiàn)象可以歸因于多模態(tài)映射投權(quán)重的漸進(jìn)訓(xùn)練。

作者報告了alignment and uniformity兩個量化指標(biāo),結(jié)果表明,與SimCSE模型相比,MCSE模型在保持一致性的同時獲得了更好的對齊得分。這一分析進(jìn)一步支持了視覺基礎(chǔ)可以通過改善文本嵌入空間的對齊特性來增強(qiáng)句子特征學(xué)習(xí)。



Limitations
作者還指出了該方法所存在的局限性,多模態(tài)數(shù)據(jù)收集標(biāo)注困難,如果可以合理的利用噪聲圖像-句子對,或者擺脫顯式的圖像文本對齊關(guān)系,將會有很大的實(shí)用價值。此外,我們發(fā)現(xiàn)只有來自相關(guān)領(lǐng)域的子集可以獲得顯著的改進(jìn),而其他子集則受到域偏移的影響。對于學(xué)習(xí)通用的句子嵌入來說,減小域偏移是至關(guān)重要的。此外,“語義相似度”的定義是高度任務(wù)依賴的。除了STS基準(zhǔn)之外,值得探討的是純文本模型和多模態(tài)模型在其他基準(zhǔn)上的性能差距,這些基準(zhǔn)也可以評估句子特征的質(zhì)量。
編輯:黃飛
-
nlp
+關(guān)注
關(guān)注
1文章
491瀏覽量
23244
原文標(biāo)題:NAACL22 | 引入多模態(tài)對比學(xué)習(xí)來增強(qiáng)句子特征學(xué)習(xí)
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
適用于任意數(shù)據(jù)模態(tài)的自監(jiān)督學(xué)習(xí)數(shù)據(jù)增強(qiáng)技術(shù)
基于增強(qiáng)學(xué)習(xí)算法的PID參數(shù)調(diào)整方法研究
通過對比深度學(xué)習(xí)各大框架的優(yōu)缺點(diǎn)尋找最優(yōu)
基于多模態(tài)特征數(shù)據(jù)的多標(biāo)記遷移學(xué)習(xí)方法的早期阿爾茨海默病診斷
多文化場景下的多模態(tài)情感識別
通過多模態(tài)特征融合來設(shè)計(jì)三維點(diǎn)云分類模型
基于語義耦合相關(guān)的判別式跨模態(tài)哈希特征表示學(xué)習(xí)算法
可提高跨模態(tài)行人重識別算法精度的特征學(xué)習(xí)框架
特征選擇和機(jī)器學(xué)習(xí)的軟件缺陷跟蹤系統(tǒng)對比
對比學(xué)習(xí)的關(guān)鍵技術(shù)和基本應(yīng)用分析
結(jié)合句子間差異的無監(jiān)督句子嵌入對比學(xué)習(xí)方法-DiffCSE
通過對比學(xué)習(xí)的角度來解決細(xì)粒度分類的特征質(zhì)量問題
CMU最新《多模態(tài)機(jī)器學(xué)習(xí)的基礎(chǔ)和最新趨勢》綜述
通過強(qiáng)化學(xué)習(xí)策略進(jìn)行特征選擇
如何通過多模態(tài)對比學(xué)習(xí)增強(qiáng)句子特征學(xué)習(xí)
評論