在本工作中,來自阿德萊德大學(xué)、烏魯姆大學(xué)的研究者針對(duì)當(dāng)前一致性學(xué)習(xí)出現(xiàn)的三個(gè)問題做了針對(duì)性的處理, 使得經(jīng)典的 teacher-student 架構(gòu) (A.K.A Mean-Teacher) 在半監(jiān)督圖像切割任務(wù)上得到了顯著的提升。
該研究已被計(jì)算機(jī)視覺頂會(huì) CVPR 2022 大會(huì)接收,論文標(biāo)題為《Perturbed and Strict Mean Teachers for Semi-supervised Semantic Segmentation》:
背景
語義分割是一項(xiàng)重要的像素級(jí)別分類任務(wù)。但是由于其非常依賴于數(shù)據(jù)的特性(data hungary), 模型的整體性能會(huì)因?yàn)閿?shù)據(jù)集的大小而產(chǎn)生大幅度變化。同時(shí), 相比于圖像級(jí)別的標(biāo)注, 針對(duì)圖像切割的像素級(jí)標(biāo)注會(huì)多花費(fèi)十幾倍的時(shí)間。因此, 在近些年來半監(jiān)督圖像切割得到了越來越多的關(guān)注。
半監(jiān)督分割的任務(wù)依賴于一部分像素級(jí)標(biāo)記圖像和無標(biāo)簽圖像 (通常來說無標(biāo)簽圖像個(gè)數(shù)大于等于有標(biāo)簽個(gè)數(shù)),其中兩種類型的圖像都遵從相同的數(shù)據(jù)分布。該任務(wù)的挑戰(zhàn)之處在于如何從未標(biāo)記的圖像中提取額外且有用的訓(xùn)練信號(hào),以使模型的訓(xùn)練能夠加強(qiáng)自身的泛化能力。
在當(dāng)前領(lǐng)域內(nèi)有兩個(gè)比較火熱的研究方向, 分別是自監(jiān)督訓(xùn)練(self-training) 和 一致性學(xué)習(xí) (consistency learning)。我們的項(xiàng)目主要基于后者來進(jìn)行。
一致性學(xué)習(xí)的介紹
簡(jiǎn)單來說, 一致性學(xué)習(xí)(consistency learning)過程可以分為 3 步來描述: 1)。 用不做數(shù)據(jù)增強(qiáng)的 “簡(jiǎn)單” 圖像來給像素區(qū)域打上偽標(biāo)簽, 2)。 用數(shù)據(jù)增強(qiáng) (或擾動(dòng)) 之后的 “復(fù)雜” 圖片進(jìn)行 2 次預(yù)測(cè), 和 3)。 用偽標(biāo)簽的結(jié)果來懲罰增強(qiáng)之后的結(jié)果。
可是, 為什么要進(jìn)行這 3 步呢? 先用簡(jiǎn)單圖像打標(biāo)簽, 復(fù)雜圖像學(xué)習(xí)的意義在哪?
從細(xì)節(jié)來說, 如上圖所示, 假設(shè)我們有一個(gè)像素的分類問題 (在此簡(jiǎn)化為 2 分類, 左下的三角和右上的圓圈) 。我們假設(shè)中間虛線為真實(shí)分布, 藍(lán)色曲線為模型的判別邊界。
在這個(gè)例子中, 假設(shè)這個(gè)像素的標(biāo)簽是圓圈, 并且由 1)。 得到的偽標(biāo)簽結(jié)果是正確的 (y_tilde=Circ.)。在 2)。 中如果像素的增強(qiáng)或擾動(dòng)可以讓預(yù)測(cè)成三角類, 那么隨著 3)步驟的懲罰, 模型的判別邊界會(huì) (順著紅色箭頭) 挪向真實(shí)分布。由此, 模型的泛化能力得到加強(qiáng)。
由此得出, 在 1)。 中使用 “簡(jiǎn)單” 的樣本更容易確保偽標(biāo)簽的正確性, 在 2)。 時(shí)使用增強(qiáng)后的 “復(fù)雜” 樣本來確保預(yù)測(cè)掉在邊界的另一端來增強(qiáng)泛化能力。可是在實(shí)踐中,
1)。 沒有經(jīng)受過增強(qiáng)的樣本也很可能被判斷錯(cuò) (hard samples), 導(dǎo)致模型在學(xué)習(xí)過程中打的偽標(biāo)簽正確性下降。
2)。 隨著訓(xùn)練的進(jìn)行, 一般的圖像增強(qiáng)將不能讓模型做出錯(cuò)誤判斷。這時(shí), 一致性學(xué)習(xí)的效率會(huì)大幅度下降。
3)。 被廣泛實(shí)用的半監(jiān)督 loss 例如 MSE, 在切割任務(wù)里不能給到足夠的力量來有效的推動(dòng)判別邊界。而 Cross-entropy 很容易讓模型過擬合錯(cuò)誤標(biāo)簽, 造成認(rèn)知偏差 (confirmation bias)。
針對(duì)這三個(gè)問題, 我們提出了:
1)。 新的基于一致性的半監(jiān)督語義分割 MT 模型。通過新引入的 teacher 模型提高未標(biāo)記訓(xùn)練圖像的分割精度。同時(shí), 用置信加權(quán) CE 損失 (Conf-CE) 代替 MT 的 MSE 損失,從而實(shí)現(xiàn)更強(qiáng)的收斂性和整體上更好的訓(xùn)練準(zhǔn)確性。
2)。 一種結(jié)合輸入、特征和網(wǎng)絡(luò)擾動(dòng)結(jié)合的數(shù)據(jù)增強(qiáng)方式,以提高模型的泛化能力。
3)。 一種新型的特征擾動(dòng),稱為 T-VAT。它基于 Teacher 模型的預(yù)測(cè)結(jié)果生成具有挑戰(zhàn)性的對(duì)抗性噪聲進(jìn)一步加強(qiáng)了 student 模型的學(xué)習(xí)效率。
方法介紹
1)。 Dual-Teacher Architecture
我們的方法基于 Mean-Teacher, 其中 student 的模型基于反向傳播做正常訓(xùn)練。在每個(gè) iteration 結(jié)束后, student 模型內(nèi)的參數(shù)以 expotional moving average (EMA)的方式轉(zhuǎn)移給 teacher 模型。
在我們的方法中, 我們使用了兩個(gè) Teacher 模型。在做偽標(biāo)簽時(shí), 我們用兩個(gè) teacher 預(yù)測(cè)的結(jié)果做一個(gè) ensemble 來進(jìn)一步增強(qiáng)偽標(biāo)簽的穩(wěn)定性。我們?cè)诿恳粋€(gè) epoch 的訓(xùn)練內(nèi)只更新其中一個(gè) teacher 模型的參數(shù), 來增加兩個(gè) teacher 之間的 diversity。
由于雙 teacher 模型并沒有參加到反向傳播的運(yùn)算中, 在每個(gè) iteration 內(nèi)他們只會(huì)消耗很小的運(yùn)算成本來更新參數(shù)。
2)。 Semi-supervised Loss
在訓(xùn)練中, teacher 模型的輸出經(jīng)過 softmax 后的置信度代表著它對(duì)對(duì)應(yīng)偽標(biāo)簽的信心。置信度越高, 說明這個(gè)偽標(biāo)簽潛在的準(zhǔn)確率可能會(huì)更高。在我們的模型中, 我們首先對(duì)同一張圖兩個(gè) teacher 的預(yù)測(cè)取平均值。然后通過最后的 confidence 作為權(quán)重, 對(duì) student 模型的輸出做一個(gè)基于 cross-entropy 懲罰。同時(shí), 我們會(huì)舍棄掉置信度過低的像素標(biāo)簽, 因?yàn)樗麄兪窃胍舻目赡苄詴?huì)更大。
3)。 Teacher-based Virtual Adversarial Training (T-VAT)
Virtual Adversarial Training (VAT) 是半監(jiān)督學(xué)習(xí)中常用的添加擾動(dòng)的方式, 它以部分反向傳播的方式來尋找能最大化預(yù)測(cè)和偽標(biāo)簽距離的噪音。
在我們的模型中, dual-teacher 的預(yù)測(cè)比學(xué)生的更加準(zhǔn)確, 并且 (由于 EMA 的更新方式使其) 更加穩(wěn)定。我們使用 teacher 模型替代 student 來尋找擾動(dòng)性最強(qiáng)的對(duì)抗性噪音, 進(jìn)而讓 student 的預(yù)測(cè)出錯(cuò)的可能性加大, 最后達(dá)到增強(qiáng)一致性學(xué)習(xí)效率的目的。
4)。 訓(xùn)練流程
i)。 supervised part: 我們用 strong-augmentation 后的圖片通過 cross-entropy 來訓(xùn)練 student 模型。
ii)。 unsupervised part: 我們首先喂給 dual-teacher 模型們一個(gè) weak-augmentation 的圖片, 并且用他們 ensemble 的結(jié)果生成標(biāo)簽。之后我們用 strong-augmentation 后的圖片喂給 student 模型。在通過 encoder 之后, 我們用 dual-teachers 來通過 T-VAT 尋找具有最強(qiáng)擾動(dòng)性的噪音并且注入到 (student encoded 之后的) 特征圖里, 并讓其 decoder 來做最終預(yù)測(cè)。
iii)。 我們通過 dual-teachers 的結(jié)果用 conf-ce 懲罰 student 的預(yù)測(cè)
iv)。 基于 student 模型的內(nèi)部參數(shù), 以 EMA 的方式更新一個(gè) teacher 模型。
實(shí)驗(yàn)
1)。 Compare with SOTAs.
Pascal VOC12 Dataset:
訓(xùn)練 log 可視化鏈接: https://wandb.ai/pyedog1976/PS-MT(VOC12)?workspace=user-pyedog1976
該數(shù)據(jù)集包含超過 13,000 張圖像和 21 個(gè)類別。它提供了 1,464 張高質(zhì)量標(biāo)簽的圖像用于訓(xùn)練,1,449 圖像用于驗(yàn)證,1,456 圖像用于測(cè)試。我們 follow 以往的工作, 使了 10582 張低質(zhì)量標(biāo)簽來做擴(kuò)展學(xué)習(xí), 并且使用了和相同的 label id。
Low-quality Experiments
該實(shí)驗(yàn)從整個(gè)數(shù)據(jù)集中隨機(jī) sample 不同 ratio 的樣本來當(dāng)作訓(xùn)練集 (其中包含高質(zhì)量和低質(zhì)量?jī)煞N標(biāo)簽), 旨在測(cè)試模型在有不同數(shù)量的標(biāo)簽時(shí)所展示的泛化能力。
在此實(shí)驗(yàn)中, 我們使用了 DeeplabV3 + 當(dāng)作架構(gòu), 并且用 ResNet50 和 ResNet101 得到了所有 ratio 的 SOTA。
High-quality Experiments
該實(shí)驗(yàn)從數(shù)據(jù)集提供的高質(zhì)量標(biāo)簽內(nèi)隨機(jī)挑取不同 ratio 的標(biāo)簽, 來測(cè)試模型在極少標(biāo)簽下的泛化能力。我們的模型在不同的架構(gòu)下 (e.g., Deeplabv3+ and PSPNet) 都取得了最好的結(jié)果。
Cityscapes Dataset
訓(xùn)練 log 可視化鏈接: https://wandb.ai/pyedog1976/PS-MT(City)?workspace=user-pyedog1976
Cityscapes 是城市駕駛場(chǎng)景數(shù)據(jù)集,其中包含 2,975 張訓(xùn)練圖像、500 張驗(yàn)證圖像和 1,525 張測(cè)試圖像。數(shù)據(jù)集中的每張圖像的分辨率為 2,048 ×1,024,總共有 19 個(gè)類別。
在 2021 年之前, 大多數(shù)方法用 712x712 作為訓(xùn)練的 resolution, 并且拿 Cross-entropy 當(dāng)作 supervised 的 loss function。在最近, 越來越多的方式傾向于用大 resolution (800x800)當(dāng)作輸入, OHEM 當(dāng)作 supervised loss function。為了公平的對(duì)比之前的工作, 我們分別對(duì)兩種 setting 做了單獨(dú)的訓(xùn)練并且都拿到了 SOTA 的結(jié)果。
2)。 Ablation Learnings.
我們使用 VOC 數(shù)據(jù)集中 1/8 的 ratio 來進(jìn)行消融實(shí)驗(yàn)。原本的 MT 我們依照之前的工作使用了 MSE 的 loss 方式。可以看到, conf-CE 帶來了接近 3 個(gè)點(diǎn)的巨大提升。在這之后, T-VAT (teacher-based virtual adversarial training)使 student 模型的一致性學(xué)習(xí)更有效率, 它對(duì)兩個(gè)架構(gòu)帶來了接近 1% 的提升。最后, dual-teacher 的架構(gòu)給兩個(gè) backbone 分別帶來了 0.83% 和 0.84% 的提升。
同時(shí)我們對(duì)比了多種針對(duì) feature 的擾動(dòng)的方法, 依次分別為不使用 perturbation, 使用 uniform sample 的噪音, 使用原本的 VAT 和我們提出的 T-VAT。T-VAT 依然帶來了最好的結(jié)果。
3)。 Improvements over Supervised Baseline.
我們的方法相較于相同架構(gòu)但只使用 label part 的數(shù)據(jù)集的結(jié)果有了巨大提升。以 Pascal VOC12 為例, 在 1/16 的比率中 (即 662 張標(biāo)記圖像), 我們的方法分別 (在 ResNet50 和 ResNet101 中) 超過了基于全監(jiān)督訓(xùn)練的結(jié)果 6.01% 和 5.97%。在其他 ratio 上,我們的方法也顯示出一致的改進(jìn)。
總結(jié)
在本文中,我們提出了一種新的基于一致性的半監(jiān)督語義分割方法。在我們的貢獻(xiàn)中,我們引入了一個(gè)新的 MT 模型,它基于多個(gè) teacher 和一個(gè) student 模型,它顯示了對(duì)促進(jìn)一致性學(xué)習(xí)的未標(biāo)記圖像更準(zhǔn)確的預(yù)測(cè),使我們能夠使用比原始 MT 的 MSE 更嚴(yán)格的基于置信度的 CE 來增強(qiáng)一致性學(xué)習(xí)的效率。這種更準(zhǔn)確的預(yù)測(cè)還使我們能夠使用網(wǎng)絡(luò)、特征和輸入圖像擾動(dòng)的具有挑戰(zhàn)性的組合,從而顯示出更好的泛化性。
此外,我們提出了一種新的對(duì)抗性特征擾動(dòng) (T-VAT),進(jìn)一步增強(qiáng)了我們模型的泛化性。
-
模型
+關(guān)注
關(guān)注
1文章
3516瀏覽量
50344 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
9文章
1708瀏覽量
46744 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1223瀏覽量
25407
原文標(biāo)題:基于一致性的半監(jiān)督語義分割方法:刷新多項(xiàng)SOTA,還有更好泛化性
文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
LTE基站一致性測(cè)試的類別
順序一致性和TSO一致性分別是什么?SC和TSO到底哪個(gè)好?
一致性規(guī)劃研究
CMP中Cache一致性協(xié)議的驗(yàn)證
電能質(zhì)量監(jiān)測(cè)數(shù)據(jù)一致性定義及檢測(cè)方法_邱麗羚
EMI一致性測(cè)試調(diào)試方法

加速器一致性接口
Cache一致性協(xié)議優(yōu)化研究

基于業(yè)務(wù)目標(biāo)和業(yè)務(wù)場(chǎng)景的語義一致性驗(yàn)證方法
搞定緩存一致性驗(yàn)證,多核SoC設(shè)計(jì)就成功了一半
如何保證緩存一致性
DDR一致性測(cè)試的操作步驟
深入理解數(shù)據(jù)備份的關(guān)鍵原則:應(yīng)用一致性與崩潰一致性的區(qū)別

評(píng)論