chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

結(jié)合句子間差異的無(wú)監(jiān)督句子嵌入對(duì)比學(xué)習(xí)方法-DiffCSE

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:NLP工作站 ? 作者:劉聰NLP ? 2022-05-05 11:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

寫在前面

今天分享給大家一篇NAACL2022論文,結(jié)合句子間差異的無(wú)監(jiān)督句子嵌入對(duì)比學(xué)習(xí)方法-DiffCSE,全名《DiffCSE: Difference-based Contrastive Learning for Sentence Embeddings》。該篇論文主要是在SimCSE上進(jìn)行優(yōu)化,通過ELECTRA模型的生成偽造樣本和RTD(Replaced Token Detection)任務(wù),來(lái)學(xué)習(xí)原始句子與偽造句子之間的差異,以提高句向量表征模型的效果。

paper:https://arxiv.org/pdf/2204.10298.pdf
github:https://github.com/voidism/DiffCSE

介紹

句向量表征技術(shù)目前已經(jīng)通過對(duì)比學(xué)習(xí)獲取了很好的效果。而對(duì)比學(xué)習(xí)的宗旨就是拉近相似數(shù)據(jù),推開不相似數(shù)據(jù),有效地學(xué)習(xí)數(shù)據(jù)表征。SimCSE方法采用dropout技術(shù),對(duì)原始文本進(jìn)行數(shù)據(jù)增強(qiáng),構(gòu)造出正樣本,進(jìn)行后續(xù)對(duì)比學(xué)習(xí)訓(xùn)練,取得了較好的效果;并且在其實(shí)驗(yàn)中表明”dropout masks機(jī)制來(lái)構(gòu)建正樣本,比基于同義詞或掩碼語(yǔ)言模型的刪除或替換等更復(fù)雜的增強(qiáng)效果要好得多。“。這一現(xiàn)象也說(shuō)明,「直接增強(qiáng)(刪除或替換)往往改變句子本身語(yǔ)義」。

paper:https://aclanthology.org/2021.emnlp-main.552.pdf
github:https://github.com/princeton-nlp/SimCSE
論文解讀:https://zhuanlan.zhihu.com/p/452761704

Dangovski等人發(fā)現(xiàn),在圖像上,采用不變對(duì)比學(xué)習(xí)和可變對(duì)比學(xué)習(xí)相互結(jié)合的方法可以提高圖像表征的效果。而采用不敏感的圖像轉(zhuǎn)換(如,灰度變換)進(jìn)行數(shù)據(jù)增強(qiáng)再對(duì)比損失來(lái)改善視覺表征學(xué)習(xí),稱為「不變對(duì)比學(xué)習(xí)」。而「可變對(duì)比學(xué)習(xí)」,則是采用敏感的圖像轉(zhuǎn)換(如,旋轉(zhuǎn)變換)進(jìn)行數(shù)據(jù)增強(qiáng)的對(duì)比學(xué)習(xí)。如下圖所示,做左側(cè)為不變對(duì)比學(xué)習(xí),右側(cè)為可變對(duì)比學(xué)習(xí)。對(duì)于NLP來(lái)說(shuō),「dropout方法」進(jìn)行數(shù)據(jù)增強(qiáng)為不敏感變化,采用「詞語(yǔ)刪除或替換等」方法進(jìn)行數(shù)據(jù)增強(qiáng)為敏感變化。

0a73af38-cbbd-11ec-bce3-dac502259ad0.png

paper:https://arxiv.org/pdf/2111.00899.pdf

作者借鑒Dangovski等人在圖像上的做法,提出來(lái)「DiffCSE方法」,通過使用基于dropout masks機(jī)制的增強(qiáng)作為不敏感轉(zhuǎn)換學(xué)習(xí)對(duì)比學(xué)習(xí)損失和基于MLM語(yǔ)言模型進(jìn)行詞語(yǔ)替換的方法作為敏感轉(zhuǎn)換學(xué)習(xí)「原始句子與編輯句子」之間的差異,共同優(yōu)化句向量表征。

模型

模型如下圖所示,

0a944d06-cbbd-11ec-bce3-dac502259ad0.png

左側(cè)為一個(gè)標(biāo)準(zhǔn)的SimCSE模型,右側(cè)為一個(gè)帶條件的句子差異預(yù)測(cè)模型。給定一個(gè)句子,SimCSE模型通過dropout機(jī)制構(gòu)造一個(gè)正例,使用BERT編碼器f,獲取句向量,SimCSE模型的訓(xùn)練目標(biāo)為:

其中,為訓(xùn)練輸入batch大小,為余弦相似度,為溫度參數(shù).

右側(cè)實(shí)際上是ELECTRA模型,包含生成器和判別器。給定一個(gè)長(zhǎng)度為T的句子,,生成一個(gè)隨機(jī)掩碼序列,其中。使用MLM預(yù)訓(xùn)練語(yǔ)言模型作為生成器G,通過掩碼序列來(lái)生成句子中被掩掉的token,獲取生成序列。然后使用判別器D進(jìn)行替換token檢測(cè),也就是預(yù)測(cè)哪些token是被替換的。其訓(xùn)練目標(biāo)為:

針對(duì)一個(gè)batch的訓(xùn)練目標(biāo)為。

最終將兩個(gè)loss通過動(dòng)態(tài)權(quán)重將其結(jié)合,

為了使判別器D的損失可以傳播的編碼器f中,將句向量拼接到判別器D的輸入中,輔助進(jìn)行RTD任務(wù),這樣做可以鼓勵(lì)編碼器f使信息量足夠大,從而使判別器D能夠區(qū)分和之間的微小差別。

當(dāng)訓(xùn)練DiffCSE模型時(shí),固定生成器G參數(shù),只有句子編碼器f和鑒別器D得到優(yōu)化。訓(xùn)練結(jié)束后,丟棄鑒別器D,只使用句子編碼器f提取句子嵌入對(duì)下游任務(wù)進(jìn)行評(píng)價(jià)。

結(jié)果&分析

在句子相似度任務(wù)以及分類任務(wù)上的效果,如下表1和表2所示,相比與SimCSE模型均有提高,

0aa24fdc-cbbd-11ec-bce3-dac502259ad0.png

0ac4e8e4-cbbd-11ec-bce3-dac502259ad0.png

為了驗(yàn)證DiffCSE模型具體是哪個(gè)部分有效,進(jìn)行以下消融實(shí)驗(yàn)。

Removing Contrastive Loss

如表3所示,當(dāng)去除對(duì)比學(xué)習(xí)損失,僅采用RTD損失時(shí),在句子相似度任務(wù)上,下降30%,在分類任務(wù)上下降2%。

0af3bdd6-cbbd-11ec-bce3-dac502259ad0.png

Next Sentence vs. Same Sentence

如表3所示,當(dāng)將同句話預(yù)測(cè)任務(wù),變成預(yù)測(cè)下句話任務(wù)時(shí),在句子相似度任務(wù)和分類任務(wù)上,具有不同程度的下降。

Other Conditional Pretraining Tasks

DiffCSE模型采用MLM模型和LM模型分別作為生成器時(shí),效果如表3所示,在句子相似度任務(wù)和分類任務(wù)上,具有不同程度的下降。句子相似度任務(wù)上下降的較為明顯。

Augmentation Methods: Insert/Delete/Replace

將MLM模型生成偽造句換成隨機(jī)插入、隨機(jī)刪除或隨機(jī)替換的效果,如表示所4,MLM模型的效果綜合來(lái)說(shuō)較為優(yōu)秀。

0b2021e6-cbbd-11ec-bce3-dac502259ad0.png

Pooler Choice

在SimCSE模型中,采用pooler層(一個(gè)帶有tanh激活函數(shù)的全連接層)作為句子向量輸出。該論文實(shí)驗(yàn)發(fā)現(xiàn),采用帶有BN的兩層pooler效果更為突出,如表5所示;并發(fā)現(xiàn),BN在SimCSE模型上依然有效。

0b423128-cbbd-11ec-bce3-dac502259ad0.png

代碼如下:

classProjectionMLP(nn.Module):
def__init__(self,config):
super().__init__()
in_dim=config.hidden_size
hidden_dim=config.hidden_size*2
out_dim=config.hidden_size
affine=False
list_layers=[nn.Linear(in_dim,hidden_dim,bias=False),
nn.BatchNorm1d(hidden_dim),
nn.ReLU(inplace=True)]
list_layers+=[nn.Linear(hidden_dim,out_dim,bias=False),
nn.BatchNorm1d(out_dim,affine=affine)]
self.net=nn.Sequential(*list_layers)

defforward(self,x):
returnself.net(x)

Size of the Generator

在DiffCSE模型中,嘗試了不同大小的生成器G,如下表所示,DistilBERTbase模型效果最優(yōu)。并且發(fā)現(xiàn)與原始ELECTRA模型的結(jié)論不太一致。原始ELECTRA認(rèn)為生成器的大小在判別器的1/4到1/2之間效果是最好的,過強(qiáng)的生成器會(huì)增大判別器的難度。而DiffCSE模型由于融入了句向量,導(dǎo)致判別器更容易判別出token是否被替換,所以生成器的生成能力需要適當(dāng)提高。

0b4ebb78-cbbd-11ec-bce3-dac502259ad0.png

Masking Ratio

對(duì)于掩碼概率,經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),在掩碼概率為30%時(shí),模型效果最優(yōu)。

0b5df624-cbbd-11ec-bce3-dac502259ad0.png

Coefficient λ

針對(duì)兩個(gè)損失之間的權(quán)重值,經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),對(duì)比學(xué)習(xí)損失為RTD損失200倍時(shí),模型效果最優(yōu)。

0b710796-cbbd-11ec-bce3-dac502259ad0.png

總結(jié)

個(gè)人覺得這篇論文的主要思路還是通過加入其他任務(wù),來(lái)增強(qiáng)句向量表征任務(wù),整體來(lái)說(shuō)挺好的。但是該方法如何使用到監(jiān)督學(xué)習(xí)數(shù)據(jù)上,值得思考,歡迎留言討論。

審核編輯 :李倩
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7314

    瀏覽量

    93912
  • 生成器
    +關(guān)注

    關(guān)注

    7

    文章

    322

    瀏覽量

    22489
  • 向量
    +關(guān)注

    關(guān)注

    0

    文章

    55

    瀏覽量

    11974

原文標(biāo)題:DiffCSE:結(jié)合句子間差異的無(wú)監(jiān)督句子嵌入對(duì)比學(xué)習(xí)方法

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【EMC標(biāo)準(zhǔn)分析】消費(fèi)電子與汽車電子ESD測(cè)試標(biāo)準(zhǔn)差異對(duì)比

    【EMC標(biāo)準(zhǔn)分析】消費(fèi)電子與汽車電子ESD測(cè)試標(biāo)準(zhǔn)差異對(duì)比
    的頭像 發(fā)表于 09-09 17:32 ?788次閱讀
    【EMC標(biāo)準(zhǔn)分析】消費(fèi)電子與汽車電子ESD測(cè)試標(biāo)準(zhǔn)<b class='flag-5'>差異</b><b class='flag-5'>對(duì)比</b>

    【EMC標(biāo)準(zhǔn)分析】GB_T 18655最新2025版與2018版的標(biāo)準(zhǔn)差異對(duì)比

    【EMC標(biāo)準(zhǔn)分析】GB_T 18655最新2025版與2018版的標(biāo)準(zhǔn)差異對(duì)比
    的頭像 發(fā)表于 08-14 17:45 ?6907次閱讀
    【EMC標(biāo)準(zhǔn)分析】GB_T 18655最新2025版與2018版的標(biāo)準(zhǔn)<b class='flag-5'>差異</b><b class='flag-5'>對(duì)比</b>

    有鉛VS無(wú)鉛:PCBA加工工藝的6大核心差異,工程師必看

    發(fā)現(xiàn),許多客戶對(duì)PCBA加工中有鉛工藝與無(wú)鉛工藝的選擇存在疑問。本文將結(jié)合行業(yè)標(biāo)準(zhǔn)與我們的生產(chǎn)經(jīng)驗(yàn),深入解析二者的核心差異。 PCBA加工有鉛工藝與無(wú)鉛工藝的六大
    的頭像 發(fā)表于 08-08 09:25 ?445次閱讀

    ARM入門學(xué)習(xí)方法分享

    。 以下是一些入門學(xué)習(xí)方法的分享: 一、 理解基本概念:首先,了解ARM是什么以及它的基本概念是很重要的。ARM(Advanced RISC Machines)指的是一種精簡(jiǎn)指令集計(jì)算機(jī)(RISC
    發(fā)表于 07-23 10:21

    英語(yǔ)單詞學(xué)習(xí)頁(yè)面+單詞朗讀實(shí)現(xiàn) -- 【1】頁(yè)面實(shí)現(xiàn) ##HarmonyOS SDK AI##

    ?先看一下頁(yè)面效果 ? 整體頁(yè)面是一個(gè)比較簡(jiǎn)潔的頁(yè)面,其中有兩個(gè)特色功能 對(duì)于例句中,能夠?qū)崿F(xiàn)將當(dāng)前的單詞從句子中進(jìn)行識(shí)別并突出顯示 對(duì)于單詞和句子,可以進(jìn)行朗讀,這個(gè)朗讀使用的是Core
    發(fā)表于 06-29 23:24

    機(jī)器學(xué)習(xí)異常檢測(cè)實(shí)戰(zhàn):用Isolation Forest快速構(gòu)建無(wú)標(biāo)簽異常檢測(cè)系統(tǒng)

    本文轉(zhuǎn)自:DeepHubIMBA無(wú)監(jiān)督異常檢測(cè)作為機(jī)器學(xué)習(xí)領(lǐng)域的重要分支,專門用于在缺乏標(biāo)記數(shù)據(jù)的環(huán)境中識(shí)別異常事件。本文深入探討異常檢測(cè)技術(shù)的理論基礎(chǔ)與實(shí)踐應(yīng)用,通過IsolationForest
    的頭像 發(fā)表于 06-24 11:40 ?1185次閱讀
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>異常檢測(cè)實(shí)戰(zhàn):用Isolation Forest快速構(gòu)建<b class='flag-5'>無(wú)</b>標(biāo)簽異常檢測(cè)系統(tǒng)

    第一章 W55MH32 高性能以太網(wǎng)單片機(jī)的學(xué)習(xí)方法概述

    本章介紹W55MH32的學(xué)習(xí)方法,建議先了解硬件資源,按基礎(chǔ)篇、入門篇循序漸進(jìn)學(xué)習(xí)。參考兩份手冊(cè),提供例程資料,還給出官網(wǎng)、github 等學(xué)習(xí)資料查找渠道。讓我們一起踏上W55MH32高性能以太網(wǎng)單片機(jī)的
    的頭像 發(fā)表于 05-26 09:07 ?518次閱讀
    第一章 W55MH32 高性能以太網(wǎng)單片機(jī)的<b class='flag-5'>學(xué)習(xí)方法</b>概述

    無(wú)源晶振vs有源晶振:參數(shù)差異如何影響系統(tǒng)設(shè)計(jì)

    在電子系統(tǒng)設(shè)計(jì)中,晶振是至關(guān)重要的組件,為系統(tǒng)提供穩(wěn)定的時(shí)鐘信號(hào)。晶振主要分為無(wú)源晶振和有源晶振兩大類,它們?cè)趨?shù)上存在明顯差異,這些差異對(duì)系統(tǒng)設(shè)計(jì)有著不同的影響。本文將詳細(xì)對(duì)比兩者的
    的頭像 發(fā)表于 05-22 16:14 ?806次閱讀
    <b class='flag-5'>無(wú)</b>源晶振vs有源晶振:參數(shù)<b class='flag-5'>差異</b>如何影響系統(tǒng)設(shè)計(jì)

    使用MATLAB進(jìn)行無(wú)監(jiān)督學(xué)習(xí)

    無(wú)監(jiān)督學(xué)習(xí)是一種根據(jù)未標(biāo)注數(shù)據(jù)進(jìn)行推斷的機(jī)器學(xué)習(xí)方法。無(wú)監(jiān)督學(xué)習(xí)旨在識(shí)別數(shù)據(jù)中隱藏的模式和關(guān)系,無(wú)需任何
    的頭像 發(fā)表于 05-16 14:48 ?1155次閱讀
    使用MATLAB進(jìn)行<b class='flag-5'>無(wú)</b><b class='flag-5'>監(jiān)督學(xué)習(xí)</b>

    嵌入式適合自學(xué)嗎?

    學(xué)習(xí)者可能會(huì)因?yàn)槿狈I(yè)的指導(dǎo)而走很多彎路。例如,在學(xué)習(xí)STM32時(shí),可能會(huì)因?yàn)椴涣私庹_的學(xué)習(xí)方法和順序,而花費(fèi)大量時(shí)間在一些不必要的內(nèi)容上。 2)難以解決實(shí)際問題:在嵌入式開發(fā)中
    發(fā)表于 04-27 09:54

    18個(gè)常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

    本來(lái)轉(zhuǎn)自:DeepHubIMBA本文系統(tǒng)講解從基本強(qiáng)化學(xué)習(xí)方法到高級(jí)技術(shù)(如PPO、A3C、PlaNet等)的實(shí)現(xiàn)原理與編碼過程,旨在通過理論結(jié)合代碼的方式,構(gòu)建對(duì)強(qiáng)化學(xué)習(xí)算法的全面理解。為確保內(nèi)容
    的頭像 發(fā)表于 04-23 13:22 ?1267次閱讀
    18個(gè)常用的強(qiáng)化<b class='flag-5'>學(xué)習(xí)</b>算法整理:從基礎(chǔ)<b class='flag-5'>方法</b>到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

    一種無(wú)刷直流電機(jī)霍耳信號(hào)與定子繞組關(guān)系自學(xué)習(xí)方法

    的關(guān)系。提出了一種無(wú)刷直流電機(jī)霍耳信號(hào)與定子繞組關(guān)系自學(xué)習(xí)方法,該方法通過不同的繞組通電組合將電機(jī)轉(zhuǎn)子依次轉(zhuǎn)到6個(gè)不同的位置并記錄對(duì)應(yīng)的霍耳信號(hào),然后得出霍耳信號(hào)與定子繞組的對(duì)應(yīng)關(guān)系。所提出的
    發(fā)表于 03-25 15:15

    DeepSeek與Kimi揭示o1秘密,思維鏈學(xué)習(xí)方法顯成效

    據(jù)消息,OpenAI近日發(fā)布了一項(xiàng)重要研究報(bào)告。報(bào)告指出,DeepSeek和Kimi兩家機(jī)構(gòu)通過獨(dú)立研究,成功利用思維鏈學(xué)習(xí)方法,在數(shù)學(xué)解題與編程挑戰(zhàn)中顯著提升了模型的綜合表現(xiàn)。 Kimi的研究員
    的頭像 發(fā)表于 02-18 15:13 ?686次閱讀

    傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    用于開發(fā)生物學(xué)數(shù)據(jù)的機(jī)器學(xué)習(xí)方法。盡管深度學(xué)習(xí)(一般指神經(jīng)網(wǎng)絡(luò)算法)是一個(gè)強(qiáng)大的工具,目前也非常流行,但它的應(yīng)用領(lǐng)域仍然有限。與深度學(xué)習(xí)相比,傳統(tǒng)方法在給定問題上的開發(fā)和測(cè)試速度更快。
    的頭像 發(fā)表于 12-30 09:16 ?1955次閱讀
    傳統(tǒng)機(jī)器<b class='flag-5'>學(xué)習(xí)方法</b>和應(yīng)用指導(dǎo)

    嵌入式系統(tǒng)開發(fā)中的測(cè)試方法 嵌入式系統(tǒng)開發(fā)與AI結(jié)合應(yīng)用

    嵌入式系統(tǒng)開發(fā)中的測(cè)試方法 嵌入式系統(tǒng)開發(fā)是一個(gè)復(fù)雜的過程,涉及到硬件和軟件的緊密結(jié)合。測(cè)試是確保系統(tǒng)可靠性和性能的關(guān)鍵步驟。以下是一些常用的測(cè)試
    的頭像 發(fā)表于 12-09 10:22 ?2004次閱讀