論文標(biāo)題:
DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions
論文鏈接:https://arxiv.org/pdf/2309.03576
代碼鏈接:https://github.com/Haochen-Wang409/DropPos
今天介紹我們?cè)?/span>自監(jiān)督視覺預(yù)訓(xùn)練領(lǐng)域的一篇原創(chuàng)工作,目前 DropPos 已被 NeurIPS 2023 接收,相關(guān)代碼已開源,有任何問題歡迎在 GitHub 提出。

TL;DR
我們提出了一種全新的自監(jiān)督代理任務(wù) DropPos,首先在 ViT 前向過程中屏蔽掉大量的 position embeddings(PE),然后利用簡(jiǎn)單的 cross-entropy loss 訓(xùn)練模型,讓模型重建那些無(wú) PE token 的位置信息。這個(gè)及其簡(jiǎn)單的代理任務(wù)就能在多種下游任務(wù)上取得有競(jìng)爭(zhēng)力的性能。

Motivation
在 MoCo v3 的論文中有一個(gè)很有趣的現(xiàn)象:ViT 帶與不帶 position embedding,在 ImageNet 上的分類精度相差無(wú)幾。
- 對(duì)比 CL,DropPos 不需要精心設(shè)計(jì)的數(shù)據(jù)增強(qiáng)(例如 multi-crop)。
- 對(duì)比 MIM,DropPos 不需要精心設(shè)計(jì)的掩碼策略和重建目標(biāo)。

Method
- 如果簡(jiǎn)單地把所有 PE 丟棄,讓模型直接重建每個(gè) patch 的位置,會(huì)導(dǎo)致上下游的 discrepency。因?yàn)橄掠稳蝿?wù)需要 PE,而上游預(yù)訓(xùn)練的模型又完全沒見過 PE。
- ViT 對(duì)于 long-range 的建模能力很強(qiáng),這個(gè)簡(jiǎn)單的位置重建任務(wù)可能沒辦法讓模型學(xué)到非常 high-level 的語(yǔ)義特征。
-
看上去相似的不同 patch(例如純色的背景)的位置無(wú)需被精準(zhǔn)重建,因此決定哪些 patch 的位置需要被重建非常關(guān)鍵。
- 針對(duì)問題一,我們采用了一個(gè)簡(jiǎn)單的隨機(jī)丟棄策略。每次訓(xùn)練過程中丟棄 75% 的 PE,保留 25% 的 PE。
- 針對(duì)問題二,我們采取了高比例的 patch mask,既能提高代理任務(wù)的難度,又能加快訓(xùn)練的速度。
- 針對(duì)問題三,我們提出了 position smoothing 和 attentive reconstruction 的策略。
3.1 DropPos 前向過程
3.2 Objective
我們使用了一個(gè)最簡(jiǎn)單的 cross-entropy loss 作為預(yù)訓(xùn)練的目標(biāo)函數(shù):





Experiments
4.1 與其他方法的對(duì)比


4.2 消融實(shí)驗(yàn)
本文主要有四個(gè)超參:patch mask ratio(gamma),position mask ratio(gamma_pos),sigma,和 tau。

- 一般來(lái)說,更高的 position 重建精度會(huì)帶來(lái)更高的下游任務(wù)性能。
- 上述結(jié)論存在例外:當(dāng) sigma = 0 時(shí),即不做位置平滑時(shí),位置預(yù)測(cè)精度高,而下游任務(wù)表現(xiàn)反而低;當(dāng) tau = inf 時(shí),即不做 attentive reconstruction 時(shí),位置預(yù)測(cè)精度高,而下游表現(xiàn)反而低。
-
因此,過分關(guān)注于預(yù)測(cè)每一個(gè) patch 的精確的位置,會(huì)導(dǎo)致局部最優(yōu),對(duì)于下游任務(wù)不利。
原文標(biāo)題:NeurIPS 2023 | 全新的自監(jiān)督視覺預(yù)訓(xùn)練代理任務(wù):DropPos
文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2931文章
46251瀏覽量
392627
原文標(biāo)題:NeurIPS 2023 | 全新的自監(jiān)督視覺預(yù)訓(xùn)練代理任務(wù):DropPos
文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
EASY EAl Orin Nano(RK3576) whisper語(yǔ)音識(shí)別訓(xùn)練部署教程

避障也能預(yù)判?視覺黑科技讓掃地機(jī)器人開啟“先知”模式
用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

從Open Model Zoo下載的FastSeg大型公共預(yù)訓(xùn)練模型,無(wú)法導(dǎo)入名稱是怎么回事?
用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)

DeepSeek推出NSA機(jī)制,加速長(zhǎng)上下文訓(xùn)練與推理
【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀
基于移動(dòng)自回歸的時(shí)序擴(kuò)散預(yù)測(cè)模型

知行科技大模型研發(fā)體系初見效果

《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型
KerasHub統(tǒng)一、全面的預(yù)訓(xùn)練模型庫(kù)
時(shí)空引導(dǎo)下的時(shí)間序列自監(jiān)督學(xué)習(xí)框架

如何訓(xùn)練自己的AI大模型
直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

評(píng)論