chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于k近鄰與高斯噪聲的虛擬困難樣本增強方法

深度學習自然語言處理 ? 來源:YeungNLP ? 作者:荷風微擺 ? 2022-05-12 11:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在本文中,我們將介紹亞馬遜團隊在ACL2022中的一篇論文VaSCL,該論文在SimCSE的基礎上,提出了一種基于k近鄰與高斯噪聲的虛擬困難樣本增強方法。作者在無監(jiān)督訓練中,進行困難樣本增強,從而提高了模型的性能,并且超過了SimCSE。

6338e638-d19e-11ec-bce3-dac502259ad0.png

論文標題:

Virtual Augmentation Supported Contrastive Learning of Sentence Representations

論文鏈接:

https://arxiv.org/abs/2110.08552

01

引言

在ACL2021中,陳丹琦團隊提出了使用Dropout進行正樣本增強的對比學習方法SimCSE,該方法操作簡單卻十分有效,在無監(jiān)督對比學習中取得了非常好的效果。在有監(jiān)督SimCSE中,作者對困難負樣本的作用進行了探究實驗,實驗結果證明,引入困難負樣本后,有監(jiān)督SimCSE的指標從84.9提升至86.2。這說明,在對比學習中,引入困難樣本是能夠提升模型效果的。

然而在無監(jiān)督SimCSE中,作者僅使用dropout的方式進行了正樣本增強,沒有額外引入困難樣本,這在一定程度上限制了模型的能力?;谶@個動機,亞馬遜提出了一種基于k近鄰與高斯噪聲的虛擬困難樣本增強的無監(jiān)督對比學習方法VaSCL。

02

論文解讀

基于Dropout的對比損失

在介紹VaSCL模型之前,我們先簡單回顧一下無監(jiān)督SimCSE。假設訓練時的batch size為N,將一個batch的數(shù)據(jù)記作,將同一個樣本分別輸入模型中兩次,使用不同的dropout mask編碼得到兩個向量和。則在規(guī)模為N的batch中,與的InfoNCE損失為:

基于k近鄰的虛擬增強對比損失

在無監(jiān)督SimCSE的損失函數(shù)的基礎上,作者還設計了一種基于k近鄰的虛擬困難樣本增強的損失函數(shù)。

將通過模型編碼之后得到向量序列。

作者通過以下方式獲得第i個句向量的虛擬困難樣本:

正樣本增強:對添加高斯噪聲,得到,其中就是經(jīng)過高斯增強后的正樣本。

獲得k近鄰:獲得在中距離最近的k個負樣本,在本文中我們稱之為k近鄰,記作。

對于來說,是正樣本,是負樣本集合。則對于,k近鄰虛擬增強的對比損失如下。分子表示拉近與的距離,分母表示拉遠與負樣本之間的距離。

在CV中,我們會為輸入的圖片添加高斯噪聲以增加模型的泛化性。添加了高斯噪聲的圖片,肉眼能看出微小的區(qū)別,但不會影響整張圖片的語義信息。所以為句向量添加合適的高斯噪聲,理論上也不會對句向量的語義信息產(chǎn)生很大的改變。

在的k近鄰中,存放的是距離最近的k個負樣本,也就是與最相似的k個負樣本。只要batch size足夠大,我們可以近似認為,就是的困難負樣本集合,同樣也是的困難負樣本集合。

如何獲得上述的高斯噪聲呢?最容易想到的做法便是隨機生成一個高斯噪聲,直接添加到句向量中。但是為了提高模型的訓練難度,生成更高質量的高斯噪聲,作者生成若干個候選高斯噪聲,然后選出一個使得最大化的高斯噪聲。

從上述操作可以看出,對于最優(yōu)的高斯噪聲,作者希望它增強后的正樣本與的距離盡可能遠,與負樣本的距離盡可能近,作者希望這個高斯噪聲能夠對模型產(chǎn)生盡可能大的迷惑性。通過這個高斯噪聲,我們就可以得到困難正樣本,并且從某種意義來說,也使得與的距離盡可能拉近,達到了增強負樣本難度的目的,做法確實挺巧妙。

VaSCL對比損失

63676d46-d19e-11ec-bce3-dac502259ad0.png

將上述兩種對比損失進行組合,得到最終的VaSCL損失函數(shù):

這個損失函數(shù)的含義如下:

對于每個句子,拉近同一個句子經(jīng)過dropout之后的兩個句向量之間的距離,拉遠它們與其他句子的距離。

對于每個句子,拉近原句向量與高斯噪聲增強之后的句向量的距離,拉遠它們與k近鄰負樣本之間的距離。

03

實驗結果

作者分別在STS任務、短文本聚類、意圖識別等任務中進行了實驗,實驗結果如下表所示??梢钥吹剑谌N任務中,絕大部分數(shù)據(jù)集上,VaSCL的表現(xiàn)都要優(yōu)于SimCSE,這表明了基于k近鄰與高斯噪聲的困難樣本增強的有效性。

6385a8ce-d19e-11ec-bce3-dac502259ad0.png

63c1165c-d19e-11ec-bce3-dac502259ad0.png

63d37914-d19e-11ec-bce3-dac502259ad0.png

04

總結

SimCSE通過dropout mask這種簡單的方法,避免了人工進行正樣本增強所帶來的語義改變的問題,并且在無監(jiān)督訓練中取得了不錯的效果。而VaSCL論文延續(xù)了SimCSE這種思想,引入了高斯噪聲進行正樣本增強,有著異曲同工之妙。

VaSCL在SimCSE的基礎上,也進行了困難樣本的增強。在進行高斯噪聲增強時,使得增強的樣本與原始樣本盡可能不相似,與負樣本盡可能相似,已達到【混淆視聽】的效果。通過這種方式,VaSCL在絕大多數(shù)據(jù)集上的表現(xiàn),也超過了SimCSE。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 噪聲
    +關注

    關注

    13

    文章

    1162

    瀏覽量

    49432
  • 函數(shù)
    +關注

    關注

    3

    文章

    4422

    瀏覽量

    67855
  • 模型
    +關注

    關注

    1

    文章

    3825

    瀏覽量

    52276

原文標題:ACL'22 | VaSCL:基于k近鄰與高斯噪聲的困難樣本增強的對比學習方法,超越SimCSE

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    VirtualLab Fusion光源的這些設置方法,你掌握了嗎?

    ,本期將重點介紹四種方法方法一:Sources選項 在頂部的功能區(qū)菜單中選擇Sources,可以看到VirtualLab Fusion提供了基礎光源(包含高斯光束、平面波、像散波、球面波、超
    發(fā)表于 04-02 08:19

    VirtualLab:Ince高斯模式

    **摘要 ** 除了Hermite和Laguerre高斯模式之外,近軸波動方程還有第三種嚴格的正交解族,即所謂的Ince高斯模式。這些解在橢圓坐標中定義,并且通過橢圓參數(shù)允許在Hermite
    發(fā)表于 03-20 08:58

    VirtualLab:Ince高斯模式

    **摘要 ** 除了Hermite和Laguerre高斯模式之外,近軸波動方程還有第三種嚴格的正交解族,即所謂的Ince高斯模式。這些解在橢圓坐標中定義,并且通過橢圓參數(shù)允許在Hermite
    發(fā)表于 03-19 08:36

    山西大學在量子增強相位噪聲濾波器研究中取得新進展

    圖1.量子增強激光噪聲穩(wěn)定原理。(a) 量子增強振幅噪聲穩(wěn)定;(b) 量子增強相位噪聲穩(wěn)定;(c
    的頭像 發(fā)表于 03-10 06:40 ?128次閱讀
    山西大學在量子<b class='flag-5'>增強</b>相位<b class='flag-5'>噪聲</b>濾波器研究中取得新進展

    NC203DO35噪聲二極管現(xiàn)貨庫存

    NC203DO35噪聲二極管現(xiàn)貨庫存NC203DO35是Noisecom公司NC-200系列里的一款寬帶噪聲二極管,采用DO-35玻璃封裝,主要用于0.1 Hz-100 MHz頻段的精密白高斯
    發(fā)表于 01-13 09:22

    NC407B噪聲二極管現(xiàn)貨庫存

    NC407B是Noisecom公司推出的一款高性能硅基梁式引線(beam-lead)噪聲二極管,采用超寬帶設計,憑借其高穩(wěn)定性、對稱高斯噪聲特性及軍用級溫度適應性,廣泛應用于超寬帶噪聲
    發(fā)表于 11-24 09:07

    基于FPGA的CLAHE圖像增強算法設計

    CLAHE圖像增強算法又稱為對比度有限的自適應直方圖均衡算法,其算法原理是通過有限的調整圖像局部對比度來增強有效信號和抑制噪聲信號。
    的頭像 發(fā)表于 10-15 10:14 ?806次閱讀
    基于FPGA的CLAHE圖像<b class='flag-5'>增強</b>算法設計

    噪聲的測量方法詳細干貨

    隨著近幾年電路集成規(guī)模和信號頻率的日益提高以及對低功耗的追求,導致信號環(huán)境日趨復雜,相對應測量小信號的精度要求不斷提高,測量儀器的噪聲大小成為重要的參數(shù)指標。而噪聲是幅值很低的信號,觀測需要有效的方法,本期介紹
    的頭像 發(fā)表于 06-19 09:19 ?1639次閱讀
    <b class='flag-5'>噪聲</b>的測量<b class='flag-5'>方法</b>詳細干貨

    GLAD應用:高斯光束的吸收和自聚焦效應

    的,這將使不同空間位置的光所經(jīng)歷的光程長度不同,即介質對入射光束的作用等價于光學透鏡,從而導致光束的自行聚焦效果。 特別地,當入射光束強度沿垂直光軸的界面內呈高斯形時,且強度足夠產(chǎn)生非線性效應的情況下
    發(fā)表于 06-17 08:52

    嵌入式AI技術漫談:怎么為訓練AI模型采集樣本數(shù)據(jù)

    Q 需要為嵌入式AI模型提供多少樣本數(shù)據(jù)? 我在向客戶介紹如何使用AI方法設計一款客戶產(chǎn)品時,客戶理解,AI嵌入式項目的開發(fā)都是圍繞數(shù)據(jù)展開的,如此,我經(jīng)常會被問到這樣的問題:客戶的工程師需要采集
    的頭像 發(fā)表于 06-11 16:30 ?1553次閱讀

    輪轂電機電磁噪聲測試方法及特性分析

    設計了一種輪轂電機在負載扭矩作用下的電磁噪聲測試方法,對不同轉速和負載扭矩下的輪轂電機電磁噪聲進行了測試,試驗結果表明轉速對電磁噪聲影響較大,而負載扭短對其影響不明顯?;贏nsoft
    發(fā)表于 06-10 13:19

    三維高斯潑濺大規(guī)模視覺SLAM系統(tǒng)解析

    近期興起的神經(jīng)輻射場(NeRF)與三維高斯潑濺(3DGS)技術在視覺SLAM中展現(xiàn)出令人鼓舞的突破性成果。然而,當前主流方法多依賴RGBD傳感器,并且僅適用于室內環(huán)境。在大規(guī)模室外場景中的重建魯棒性
    的頭像 發(fā)表于 05-27 14:13 ?1825次閱讀
    三維<b class='flag-5'>高斯</b>潑濺大規(guī)模視覺SLAM系統(tǒng)解析

    GLAD應用:高斯光束的吸收和自聚焦效應

    的,這將使不同空間位置的光所經(jīng)歷的光程長度不同,即介質對入射光束的作用等價于光學透鏡,從而導致光束的自行聚焦效果。 特別地,當入射光束強度沿垂直光軸的界面內呈高斯形時,且強度足夠產(chǎn)生非線性效應的情況下
    發(fā)表于 05-16 08:47

    基于高斯的稠密視覺SLAM研究

    基于高斯的場景表示在新視角下會出現(xiàn)幾何失真,這大大降低了基于高斯的跟蹤方法的準確性。這些幾何不一致主要源于高斯基元的深度建模以及在深度融合過程中表面之間的相互干擾。為了解決這些問題,我
    的頭像 發(fā)表于 05-15 10:36 ?1252次閱讀
    基于<b class='flag-5'>高斯</b>的稠密視覺SLAM研究

    精選好文!噪聲系數(shù)測量的三種方法

    本文介紹了測量噪聲系數(shù)的三種方法:增益法、Y系數(shù)法和噪聲系數(shù)測試儀法。這三種方法的比較以表格的形式給出。 在無線通信系統(tǒng)中,噪聲系數(shù)(NF)
    發(fā)表于 05-07 10:18