1. 背景介紹
近年來,大規(guī)模預(yù)訓(xùn)練后微調(diào)優(yōu)化方法在計算機視覺中取得了重大進(jìn)展。一系列預(yù)訓(xùn)練算法被設(shè)計出來,以學(xué)習(xí)特定領(lǐng)域的或任務(wù)感知的概念,以提升下游性能。就目標(biāo)檢測而言,當(dāng)前方法通常利用ImageNet來預(yù)訓(xùn)練骨干網(wǎng)絡(luò),采用面向分類的監(jiān)督。然而,與面向檢測的微調(diào)過程相比,這種預(yù)訓(xùn)練方法存在三個差異,如圖1所示。
數(shù)據(jù):大多數(shù)預(yù)訓(xùn)練方法是在單個以物體為中心的數(shù)據(jù)集上進(jìn)行的,如ImageNet。但是,檢測數(shù)據(jù)集,例如COCO,通常由不同尺度和位置的多個物體組成。數(shù)據(jù)特征和領(lǐng)域上的差異可能導(dǎo)致預(yù)訓(xùn)練偏離下游任務(wù)。
模型:由于檢測器的多樣性和復(fù)雜性,當(dāng)前預(yù)訓(xùn)練算法主要關(guān)注模型內(nèi)的部分模塊(例如骨干網(wǎng)絡(luò))。檢測器中的某些關(guān)鍵組件(例如RPN和回歸頭)仍然是隨機初始化的。
任務(wù):現(xiàn)有預(yù)訓(xùn)練方法僅將分類任務(wù)視為替代任務(wù),未能捕獲包括建議生成、目標(biāo)分配和框回歸在內(nèi)的與物體相關(guān)的位置上下文。
這些差異可能導(dǎo)致受限的結(jié)果、較差的泛化能力和較慢的收斂速度。
2. 相關(guān)知識補充
目標(biāo)檢測。 當(dāng)前的目標(biāo)檢測算法可以根據(jù)不同的預(yù)測流程分為基于錨點、基于點和基于查詢的方法?;阱^點的方法在每個像素上生成多個具有預(yù)定義大小和尺度的錨點。它們通常通過交并比將訓(xùn)練樣本劃分為正樣本和負(fù)樣本?;邳c的方法旨在找到與每個對象相對應(yīng)的參考點,這可以是每個實例的中心點,預(yù)定義或自學(xué)習(xí)的關(guān)鍵點 。與基于錨點和基于點的方法中使用預(yù)定義的先驗知識不同,基于查詢的方法通過一組可學(xué)習(xí)的查詢來表示不同的對象。
自監(jiān)督預(yù)訓(xùn)練。 自監(jiān)督學(xué)習(xí)充分利用了大量無標(biāo)注數(shù)據(jù)來學(xué)習(xí)結(jié)構(gòu)化的數(shù)據(jù)特征,預(yù)訓(xùn)練的權(quán)重被轉(zhuǎn)移到下游任務(wù)中以確保良好的初始化。已經(jīng)為無監(jiān)督預(yù)訓(xùn)練提出了許多替代任務(wù),例如特征聚類 ,著色,上下文預(yù)測,旋轉(zhuǎn)預(yù)測和圖像填充。一方面,對比學(xué)習(xí)通過最大化來自同一實例的不同視圖的相似度來捕獲良好的表征 ,在多個下游任務(wù)中取得了有競爭力的性能。另一方面,Mask Image Modeling (MIM)最近在自監(jiān)督學(xué)習(xí)中引起了越來越多的關(guān)注。MIM不需要特定的數(shù)據(jù)增強,并且對下游任務(wù)具有更強大的泛化能力。
目標(biāo)檢測的自監(jiān)督預(yù)訓(xùn)練。 盡管無監(jiān)督預(yù)訓(xùn)練在目標(biāo)檢測中顯示出了有競爭力的結(jié)果,但直接將圖像級預(yù)訓(xùn)練知識轉(zhuǎn)移到密集級下游任務(wù)存在一系列不一致之處。為減小預(yù)訓(xùn)練和微調(diào)之間的差距,一些方法通過探索不同視圖之間的局部特征相似性來提出密集級對比學(xué)習(xí)。一些研究人員發(fā)現(xiàn)僅預(yù)訓(xùn)練骨干網(wǎng)絡(luò)是不夠的,他們嘗試預(yù)訓(xùn)練其他常見模塊,如FPN 。然而,這些方法需要從頭開始進(jìn)行大量的預(yù)訓(xùn)練,檢測器中的其他關(guān)鍵模塊(如RetinaNet 中的回歸頭)仍然是隨機初始化的。另一方面,UP-DETR和DETReg 通過引入?yún)^(qū)域匹配和特征重構(gòu)替代任務(wù)來預(yù)訓(xùn)練整個DETR樣式檢測器。盡管這些方法可以對整個模型進(jìn)行充分的預(yù)訓(xùn)練,但DETR定向的替代任務(wù)無法直接應(yīng)用于其他檢測方法。相比之下,AlignDet實現(xiàn)了各種檢測器的高效充分的自監(jiān)督預(yù)訓(xùn)練。
3. 方法詳解
最近的工作通過構(gòu)建無監(jiān)督預(yù)訓(xùn)練替代任務(wù)來擴(kuò)展“預(yù)訓(xùn)練和微調(diào)”方法,與僅使用監(jiān)督預(yù)訓(xùn)練的方法相比,這些方法取得了更高的性能。然而,與檢測過程相比,當(dāng)前預(yù)訓(xùn)練方法在數(shù)據(jù)、模型和任務(wù)上存在不一致之處,如圖1所示。盡管可以通過大規(guī)模標(biāo)注數(shù)據(jù)集的訓(xùn)練來緩解這些不一致,但它需要巨大的計算資源和手工標(biāo)注成本。這些問題和局限激發(fā)我們提出AlignDet,一個通用的自監(jiān)督框架,用于減小預(yù)訓(xùn)練和微調(diào)階段中的差異。
圖2 AlignDet的預(yù)訓(xùn)練流程圖。監(jiān)督和自監(jiān)督預(yù)訓(xùn)練都可以用于圖像域階段,以捕捉整體視覺概念。對于框域預(yù)訓(xùn)練,首先采用選擇性搜索生成無監(jiān)督建議作為偽標(biāo)簽,然后對每個建議進(jìn)行擴(kuò)充,構(gòu)建兩個具有不同尺度和變換的視圖。每個預(yù)測框用于構(gòu)建對比學(xué)習(xí)和協(xié)調(diào)相關(guān)損失,以適應(yīng)檢測任務(wù)。
整個預(yù)訓(xùn)練流程如圖2所示。在以下小節(jié)中,我們分別在第3.1節(jié)和第3.2節(jié)中介紹圖像域預(yù)訓(xùn)練和框域預(yù)訓(xùn)練。我們提供了偽代碼,以便更直觀地理解AlignDet流程,以及與其他方法在技術(shù)細(xì)節(jié)上的比較見補充材料。
3.1 圖像域預(yù)訓(xùn)練
圖像域預(yù)訓(xùn)練優(yōu)化骨干網(wǎng)絡(luò),為后續(xù)的框域預(yù)訓(xùn)練提取高層語義特征,如圖2左側(cè)的步驟1所示。一方面,給定圖像x,骨干網(wǎng)絡(luò)可以在完全監(jiān)督的設(shè)置下與分類器和分類類別進(jìn)行預(yù)訓(xùn)練。另一方面,最近出現(xiàn)的無監(jiān)督學(xué)習(xí)算法有助于通過大量無標(biāo)注數(shù)據(jù)捕獲更普適的表征。以SimSiam 為例,從輸入圖像中構(gòu)造兩個視圖和,并采用不同的數(shù)據(jù)增強。骨干網(wǎng)絡(luò)可以通過最大化不同視圖的相似性來學(xué)習(xí)普適的表征,并且利用預(yù)測器和停止梯度用來防止模式崩潰。
圖像域預(yù)訓(xùn)練通常在大規(guī)模的圖像分類數(shù)據(jù)集(如ImageNet)上進(jìn)行,其中每個樣本主要包含一個或少數(shù)幾個主要物體位于圖像中心。這里存在一個差距,因為在預(yù)訓(xùn)練過程無法訪問包含不同尺度和位置的多個物體目標(biāo)數(shù)據(jù)集。此外,檢測頭仍然是隨機初始化的,回歸工作在此圖像域預(yù)訓(xùn)練中也未明確學(xué)習(xí)到。為此,我們設(shè)計框域預(yù)訓(xùn)練以減小這些差異。
3.2 框域預(yù)訓(xùn)練
4. 結(jié)論
本文中,我們指出預(yù)訓(xùn)練和微調(diào)階段在目標(biāo)檢測中存在數(shù)據(jù)、模型和任務(wù)的差異,并提出了AlignDet來解決這些問題。AlignDet學(xué)習(xí)分類和回歸知識,實現(xiàn)高效針對所有模塊的預(yù)訓(xùn)練。值得注意的是,AlignDet是第一個實現(xiàn)各種檢測器完全無監(jiān)督預(yù)訓(xùn)練的框架。我們廣泛的實驗表明,AlignDet可以在各種設(shè)置下顯著提升檢測性能,包括不同的檢測器、骨干網(wǎng)絡(luò)、數(shù)據(jù)設(shè)置和微調(diào)計劃。我們相信我們的工作為目標(biāo)檢測中的預(yù)訓(xùn)練問題提供了有價值的洞見,并開辟了新的研究方向。
審核編輯:劉清
-
檢測器
+關(guān)注
關(guān)注
1文章
894瀏覽量
48712 -
MIM
+關(guān)注
關(guān)注
0文章
13瀏覽量
9512 -
圖像變換
+關(guān)注
關(guān)注
0文章
5瀏覽量
1585
原文標(biāo)題:ICCV2023-AlignDet:在各種檢測器的所有模塊實現(xiàn)無監(jiān)督預(yù)訓(xùn)練
文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
無軸承異步電機轉(zhuǎn)子徑向位移白檢測
5 GHz 802.11ax 超線性 WLAN 前端模塊,帶集成對數(shù)檢測器 skyworksinc

帶功率檢測器的 5 GHz 前端模塊 skyworksinc

使用MATLAB進(jìn)行無監(jiān)督學(xué)習(xí)


用PaddleNLP在4060單卡上實踐大模型預(yù)訓(xùn)練技術(shù)

局域網(wǎng)地址檢測器
壓力檢測器有哪些優(yōu)勢
直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

UCC28070實現(xiàn)無橋功率因數(shù)校正(PFC)預(yù)調(diào)節(jié)器設(shè)計

評論