chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

對比學習的關鍵技術和基本應用分析

深度學習自然語言處理 ? 來源:RUC AI Box ? 作者:楊錦霞 ? 2022-03-09 16:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

對比學習可以應用于監(jiān)督和無監(jiān)督的場景下,目前在CV、NLP等領域中取得了較好的性能。本文對對比學習進行基礎介紹,以及其在NLP和多模態(tài)中的應用。

引言

對比學習的主要思想是相似的樣本的表示相近,而不相似的遠離。對比學習可以應用于監(jiān)督和無監(jiān)督的場景下,并且目前在CV、NLP等領域中取得了較好的性能。本文先對對比學習進行基礎介紹,之后會介紹對比學習在NLP和多模態(tài)中的應用,歡迎大家批評和交流。

對比學習基礎介紹

損失函數(shù)

1. NCE[1](Noise-contrastive estimation):是估計統(tǒng)計模型的參數(shù)的一種方法,主要通過學習數(shù)據分布和噪聲分布之間的區(qū)別。下面給出NCE的原始形式,它包含一個正負樣本對。在之后的許多研究工作中,包含多個正樣本或負樣本也被廣義的稱為NCE。下式中x表示數(shù)據,y為噪聲。

a98c9e70-9dca-11ec-952b-dac502259ad0.png

2. InfoNCE[2]:在CPC中提出,使用分類交叉熵損失在一組負樣本中識別正樣本。原論文給出的式子如下:

a9a2fdfa-9dca-11ec-952b-dac502259ad0.png

3. Triplet Loss:三元組損失,最初是由谷歌在FaceNet[3]中提出,主要用于識別在不同角度和姿勢下的人臉。下式中加號在右下角表示max(x,0)。

aa52e85a-9dca-11ec-952b-dac502259ad0.png

4. N-pair Loss[4]:Multi-Class N-pair loss,是將Triplet Loss泛化到與多個負樣本進行對比。

aa64db6e-9dca-11ec-952b-dac502259ad0.png

衡量標準

衡量指標由(Wang & Isola, 2020)[5]提出,文中說明了對比學習算法具有兩個關鍵屬性alignment和uniformity,很多有效的對比學習算法正是較好地滿足了這兩種性質。

alignment:衡量正例樣本間的近似程度

uniformity:衡量特征向量在超球體上的分布的均勻性

文章同時給出了衡量兩種性質的評價指標,并同時指出優(yōu)化這兩個指標會在下游任務上表現(xiàn)更好。

aa8f6da2-9dca-11ec-952b-dac502259ad0.png

關鍵技術

1. 正負樣本的構造

數(shù)據增強:給定訓練數(shù)據,需要進行數(shù)據增強來得到更多正樣本。正確有效的數(shù)據增強技術對于學習好的表征至關重要。比如SimCLR[6]的實驗表明,圖片的隨機裁剪和顏色失真是最有效的兩種方式。而對于句子來說,刪除或替換可能會導致語義的改變。

負樣本構造:一般對比學習中使用in-batch negatives,將一個batch內的不相關數(shù)據看作負樣本。

多個模態(tài):正樣本對可以是兩種模態(tài)的數(shù)據,比如圖片和圖片對應描述。

2. 大的batch size

在訓練期間使用大的batch size是許多對比學習方法成功的一個關鍵因素。當batch size足夠大時,能夠提供大量的負樣本,使得模型學習更好表征來區(qū)別不同樣本。

對比學習在NLP領域的應用

A Simple but Tough-to-Beat Data Augmentation Approach for Natural Language Understanding and Generation

受多視圖學習的啟發(fā),這篇文章主要提出了一種Cutoff的數(shù)據增強方法,包含以下三種策略:

Token cutoff:刪除選中的token信息。為了防止信息泄露,三種類型的編碼都被改為0。

Feature cutoff:刪除特征,將整列置為0。。

Span cutoff:刪除連續(xù)的文本塊。

aaac500c-9dca-11ec-952b-dac502259ad0.png

作者將Cutoff應用到自然語言理解和機器翻譯任務上去,實驗結果表明這種簡單的數(shù)據增強方式得到了與基線相當或更好的結果。目前,Cutoff也作為一種常用的數(shù)據增強方法應用到不同的對比學習模型中去。

CERT:Contrastive Self-supervised Learning for Language Understanding

CERT主要流程圖如下??梢钥闯?,在預訓練Bert的基礎上,CERT增加了CSSL預訓練任務來得到更好的表征。

aac2ab4a-9dca-11ec-952b-dac502259ad0.png

本文首先通過back-translation方式進行數(shù)據增強,使用不同語言的翻譯模型來創(chuàng)建不同的正樣本。

CSSL Pretraining:使用類似MoCo[7]的對比學習框架,采用一個隊列去存儲數(shù)據增強后的keys,并且使用一種動量更新的方法對該隊列進行更新。給定句子q,設隊列中存有與其互為正樣本的k+,故對比損失定義如下:

aaf3bb7c-9dca-11ec-952b-dac502259ad0.png

作者測試了CERT在GLUE 數(shù)據集的上的性能。在11個任務中,CERT在7個任務上優(yōu)于BERT,2個任務上效果相當,整體性能優(yōu)于BERT。這進一步證明了對比自監(jiān)督學習是一個學習更好的語言表征的方法。

SimCSE: Simple Contrastive Learning of Sentence Embeddings(EMNLP2021)

SimCSE有兩個變體:Unsupervised SimCSE和Supervised SimCSE,主要不同在于對比學習的正負例的構造。

Unsupervised SimCSE:

ab106cc2-9dca-11ec-952b-dac502259ad0.png

正樣本:一個句子通過編碼器進行兩次編碼,兩次使用不同的dropout 掩碼,

ab542282-9dca-11ec-952b-dac502259ad0.png

Supervised SimCSE:

ab6acbfe-9dca-11ec-952b-dac502259ad0.png

使用NLI(Natural Language Inference)數(shù)據集,利用其標注的句子之間的關系來構造對比學習的正負樣本。如上圖所示,給定一個前提

ac071cd4-9dca-11ec-952b-dac502259ad0.png

本文作者在多個數(shù)據集上評估了SimCSE的性能,發(fā)現(xiàn)在STS(語義文本相似性)系列任務上,SimCSE在無監(jiān)督和有監(jiān)督的條件下均大幅超越了之前的SOTA模型。

上面提到了衡量對比學習質量的指標:alignment和uniformity,作者將其進行了可視化,可以發(fā)現(xiàn)所有模型的uniformity都有所改進,表明預訓練BERT的語義向量分布的奇異性被逐步減弱。

ac2583c2-9dca-11ec-952b-dac502259ad0.png

ESimCSE: Enhanced Sample Building Method for Contrastive Learning of Unsupervised Sentence Embedding

ESimCSE是對上述SimCSE構建正負樣本方法的改進,主要出發(fā)點如下:

句子的長度信息通常會被編碼,因此無監(jiān)督的SimCSE中的每個正對長度是相同的。故用這些正對訓練的無監(jiān)督SimCSE 往往會認為長度相同或相似的句子在語義上更相似。

Momentum Contrast(動量對比)最早是在MoCo提出,是一種能夠有效的擴展負例對并同時緩解內存限制的一種方法。ESimCSE借鑒了這一思想來擴展負例。

ac3b3212-9dca-11ec-952b-dac502259ad0.png

正例:作者先探究了句子對的長度差對SimCSE的影響,當長度差大于3時無監(jiān)督SimCSE模型的效果大幅度降低。為了降低句子長度差異的影響,作者嘗試了隨機插入、隨機刪除和詞重復三種方法構建正例,發(fā)現(xiàn)前兩者導致語義相似度下降明顯,而詞重復可以保持較高的相似度,同時緩解了句子長度帶來的問題。故使用word repetition進行正例構造。

負例:① in-batch negatives ② 動量更新隊列中的樣本

故損失函數(shù)如下:

ac5200b4-9dca-11ec-952b-dac502259ad0.png

實驗表明,ESimCSE整體效果優(yōu)于無監(jiān)督的SimCSE,在語義文本相似性(STS)任務上效果優(yōu)于BERTbase版的SimCSE 2%。

對比學習在多模態(tài)中的應用

Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision (ICML 2021)

本文提出ALIGN模型,作者利用了超過10億的圖像文本對的噪聲數(shù)據集,沒有進行細致的數(shù)據清洗或處理。ALIGN使用一個簡單的雙編碼器結構,基于對比學習損失來對齊圖像和文本對的視覺和語言表示 。作者證明了,數(shù)據規(guī)模的巨大提升可以彌補數(shù)據內部存在的噪聲,因此即使使用簡單的對比學習方式,模型也能達到SOTA的特征表示。

ac685f1c-9dca-11ec-952b-dac502259ad0.png

在預訓練中,將匹配的圖像-文本對視為正樣本,并將當前訓練batch中的其他隨機圖像-文本對視為負樣本。損失函數(shù)如下:

text-to-imageloss

ALIGN模型得到的對齊的圖像和文本表示在跨模態(tài)匹配/檢索任務中實現(xiàn)了SOTA效果。同時ALIGN模型也適用于zero-shot圖像分類、圖像分類等任務。例如,ALIGN在ImageNet中達到了88.64%的Top-1準確率 。

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation (NeurIPS 2021)

作者提出了 ALign BEfore Fuse(ALBEF) ,首先用一個圖像編碼器和一個文本編碼器獨立地對圖像和文本進行編碼。然后利用多模態(tài)編碼器,通過跨模態(tài)注意,將圖像特征與文本特征進行融合。并提出動量蒸餾(Momentum Distillation)對抗數(shù)據中的噪聲,得到更好的表征。

acac042e-9dca-11ec-952b-dac502259ad0.png

ALBEF預訓練任務:圖像-文本對比學習(ITC) 、掩蔽語言建模(MLM) 和圖像-文本匹配(ITM) 。

ITC:Image-Text Contrastive Learning,目的是在融合前學習到更好的單模態(tài)表征。受MoCo的啟發(fā),作者維護了兩個隊列來存儲最近的M個圖像-文本表示,故對于每個圖像和文本,作者計算圖像到文本和文本到圖像的相似度如下:

accc1674-9dca-11ec-952b-dac502259ad0.png

為ground truth(one-hot 編碼),ITC定義為p和y之間的交叉熵:

ad39573e-9dca-11ec-952b-dac502259ad0.png

MLM:Masked Language Modeling,利用給定圖像和上下文文本來預測mask詞

ITM:Image-Text Matching,把圖像和文本是否匹配看作二分類問題

故整個預訓練的損失函數(shù)為上述三者的和。

由于用于預訓練的數(shù)據集往往含有噪聲,作者提出同時從動量模型生產的偽標簽中去學習。將上述相似度計算公式中的

adadfc42-9dca-11ec-952b-dac502259ad0.png

同時,作者從互信息最大化的角度來證明了ALBEF實際上最大化了圖像-文本對的不同views之間的互信息的下界。

與現(xiàn)有的方法相比,ALBEF在多個下游視覺語言任務上達到了SOTA的效果。

VLMO: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

本文提出VLMO模型,既可以作為融合編碼器去做分類任務,也可以作為雙編碼器去做檢索任務。VLMO引入一個 Mixture-of-Modality-Experts(MoME)的Transformer,能夠根據輸入數(shù)據的類型選擇不同的expert,如下圖所示。

add054d6-9dca-11ec-952b-dac502259ad0.png

VLMO的預訓練任務與前面類似,通過圖像-文本對比學習、掩碼語言建模和圖像-文本對匹配進行聯(lián)合預訓練。

其中,Image-Text Contrast預訓練任務具體為:給定一個batch的圖像文本對,圖像文本對比學習的目標是從n*n個可能的圖像文本對中預測匹配的對,事實上在這一batch中有N個正樣本對,之后使用交叉熵損失進行訓練。下式中,h為編碼,p為softmax歸一化后的相似性。

ae354f62-9dca-11ec-952b-dac502259ad0.png

本文巧妙的地方在于采用了分階段的預訓練方式,得到了更泛化的表示。

ae5517b6-9dca-11ec-952b-dac502259ad0.png

VLMO模型在VQA等多模態(tài)下游任務上進行微調,效果達到了SOTA。

審核編輯:gt

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6254

    瀏覽量

    111569
  • nlp
    nlp
    +關注

    關注

    1

    文章

    491

    瀏覽量

    23308

原文標題:對比學習在NLP和多模態(tài)領域的應用

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    微電網保護的關鍵技術有哪些?

    電網的運行特性。近年來,隨著電力電子技術、通信技術、人工智能技術的深度融合,微電網保護技術體系不斷革新,形成了一系列針對性的關鍵技術,為微電
    的頭像 發(fā)表于 01-23 10:31 ?302次閱讀
    微電網保護的<b class='flag-5'>關鍵技術</b>有哪些?

    微電網標準體系解析:IEEE 1547與國標關鍵技術要求對比

    既存在共通的核心原則,又呈現(xiàn)鮮明的地域適配性特征。深入對比兩者的關鍵技術要求,不僅能為我國微電網標準化建設提供借鑒,更能為跨境微電網項目實施與技術輸出奠定基礎。
    的頭像 發(fā)表于 01-22 17:37 ?2061次閱讀
    微電網標準體系解析:IEEE 1547與國標<b class='flag-5'>關鍵技術</b>要求<b class='flag-5'>對比</b>

    基于CW32 MCU的I2C接口優(yōu)化穩(wěn)定讀寫EEPROM關鍵技術

    CW32 MCU優(yōu)化I2C接口,確保在與EEPROM芯片通信時的穩(wěn)定性。內容涵蓋以下幾個關鍵技術點: I2C時序與頻率調整:介紹如何根據EEPROM的特性,合理設置I2C時鐘頻率和時序參數(shù),避免因過高或
    發(fā)表于 12-03 07:29

    無源探頭與高壓探頭技術對比分析

    本文對比分析了無源探頭與高壓探頭的技術原理、性能參數(shù)及應用場景,為選擇合適探頭提供參考。
    的頭像 發(fā)表于 11-30 15:47 ?711次閱讀

    噪聲測量的關鍵技術方法與精度控制策略

    本文闡述了高速電路與低功耗系統(tǒng)中噪聲測量的關鍵技術,包括設備選型、環(huán)境優(yōu)化及參數(shù)設置,強調精度控制與干擾抑制。
    的頭像 發(fā)表于 10-30 14:10 ?521次閱讀

    石英壓力傳感器在核工業(yè)與高端裝備中的關鍵技術及應用

    本文系統(tǒng)分析了石英諧振壓力傳感器在核工業(yè)安全監(jiān)測、航空航天等高端裝備領域的關鍵技術與應用場景。通過案例解析,闡述了國產石英壓力傳感器如何解決極端環(huán)境下的高精度測量難題,并對未來技術發(fā)展趨勢進行了展望。
    的頭像 發(fā)表于 10-14 15:16 ?738次閱讀

    杰理科技關鍵技術達到國際領先水平

    2025年9月4日,廣東省高新技術企業(yè)協(xié)會組織召開“自適應ANC低延時無線通信端側AI芯片關鍵技術研發(fā)與應用”科技成果評價會。經評審,專家組一致認定杰理科技該技術成果在綜合技術領域已達
    的頭像 發(fā)表于 09-10 13:53 ?1205次閱讀

    設備互聯(lián)的關鍵技術有哪些

    物聯(lián)網中設備互聯(lián)的關鍵技術涵蓋感知、傳輸、處理、安全及協(xié)同管理等多個層級,這些技術共同支撐設備從數(shù)據采集到智能協(xié)作的全流程,具體可分為以下核心模塊: 一、感知層:設備互聯(lián)的數(shù)據源頭 傳感器技術 功能
    的頭像 發(fā)表于 08-22 14:41 ?826次閱讀

    B11:BMS分類架構及關鍵技術

    、各類BMS架構的原理框圖、實現(xiàn)方案;對不同架構BMS的優(yōu)缺點做對比總結;4、針對BMS關鍵功能(采樣、保護、均衡、SOC等)的技術要點做進一步介紹,并基于技術
    的頭像 發(fā)表于 08-19 09:24 ?724次閱讀
    B11:BMS分類架構及<b class='flag-5'>關鍵技術</b>

    Micro LED制造工藝中四大關鍵技術難點

    顯示等四大關鍵技術至關重要,這些技術的發(fā)展和突破對于實現(xiàn)MicroLED的商業(yè)化應用具有重要意義。美能顯示,作為專注于研發(fā)顯示行業(yè)精密高效檢測設備的企業(yè),深度參與到這
    的頭像 發(fā)表于 08-11 14:55 ?2979次閱讀
    Micro LED制造工藝中四大<b class='flag-5'>關鍵技術</b>難點

    Linux網絡管理的關鍵技術和最佳實踐

    在大型互聯(lián)網企業(yè)中,Linux網絡管理是運維工程師的核心技能之一。面對海量服務器、復雜網絡拓撲、高并發(fā)流量,運維人員需要掌握從基礎網絡配置到高級網絡優(yōu)化的全套技術棧。本文將結合大廠實際場景,深入解析Linux網絡管理的關鍵技術和最佳實踐。
    的頭像 發(fā)表于 07-09 09:53 ?985次閱讀

    雙電機驅動系統(tǒng)消隙技術分析

    摘要: 雙電機驅動系統(tǒng)是電力系統(tǒng)中重要的電機系統(tǒng),雙電機驅動的消隙技術是雙電機驅動系統(tǒng)中的關鍵技術,雙電機驅動系統(tǒng)能否實現(xiàn)正常運行關鍵在于消隙技術本身的水平。在人們對電機系統(tǒng)的要求越來
    發(fā)表于 06-19 11:01

    電機系統(tǒng)節(jié)能關鍵技術及展望

    節(jié)約能源既是我國經濟和社會發(fā)展的一項長遠戰(zhàn)略和基本國策,也是當前的緊迫任務。論文在深入分析國內外電機系統(tǒng)節(jié)能現(xiàn)狀和介紹先進的節(jié)能關鍵技術的基礎上,指出了現(xiàn)階段我國在電機系統(tǒng)節(jié)能方面存在的問題,并結合
    發(fā)表于 04-30 00:43

    解決錫膏焊接空洞率的關鍵技術

    抑制錫膏焊接空洞是確保焊接質量的關鍵技術,需從材料、工藝、設備等多方面進行優(yōu)化,傲??萍级ㄖ苹_發(fā)的焊膏,可以顯著降低焊接空洞率。
    的頭像 發(fā)表于 04-29 08:41 ?1586次閱讀
    解決錫膏焊接空洞率的<b class='flag-5'>關鍵技術</b>

    淺談華為通信大模型的關鍵技術

    推理、幻覺糾正及多維聯(lián)合決策等方面創(chuàng)新成果的肯定。為此,我們將分三期深入解讀華為通信大模型無線的關鍵技術和價值應用,本期聚焦于通信大模型的部署、訓練和推理的關鍵技術。
    的頭像 發(fā)表于 03-26 14:35 ?1248次閱讀