波多野结AV系列一区二区,韩国无遮挡,丰满老熟妇中文字幕

在本工作中，來(lái)自阿德萊德大學(xué)、烏魯姆大學(xué)的研究者針對(duì)當(dāng)前一致性學(xué)習(xí)出現(xiàn)的三個(gè)問(wèn)題做了針對(duì)性的處理，使得經(jīng)典的 te acher-student 架構(gòu) （A.K.A Mean-Teacher）在半監(jiān)督圖像切割任務(wù)上得到了顯著的提升。

該研究已被計(jì)算機(jī)視覺(jué)頂會(huì) CVPR 2022 大會(huì)接收，論文標(biāo)題為《Perturbed and Strict Mean Teachers for Semi-supervised Semantic Segmentation》：

背景

語(yǔ)義分割是一項(xiàng)重要的像素級(jí)別分類任務(wù)。但是由于其非常依賴于數(shù)據(jù)的特性（data hungary），模型的整體性能會(huì)因?yàn)閿?shù)據(jù)集的大小而產(chǎn)生大幅度變化。同時(shí)，相比于圖像級(jí)別的標(biāo)注，針對(duì)圖像切割的像素級(jí)標(biāo)注會(huì)多花費(fèi)十幾倍的時(shí)間。因此，在近些年來(lái)半監(jiān)督圖像切割得到了越來(lái)越多的關(guān)注。

半監(jiān)督分割的任務(wù)依賴于一部分像素級(jí)標(biāo)記圖像和無(wú)標(biāo)簽圖像（通常來(lái)說(shuō)無(wú)標(biāo)簽圖像個(gè)數(shù)大于等于有標(biāo)簽個(gè)數(shù)），其中兩種類型的圖像都遵從相同的數(shù)據(jù)分布。該任務(wù)的挑戰(zhàn)之處在于如何從未標(biāo)記的圖像中提取額外且有用的訓(xùn)練信號(hào)，以使模型的訓(xùn)練能夠加強(qiáng)自身的泛化能力。

在當(dāng)前領(lǐng)域內(nèi)有兩個(gè)比較火熱的研究方向，分別是自監(jiān)督訓(xùn)練（self-training）和一致性學(xué)習(xí) （consistency learning）。我們的項(xiàng)目主要基于后者來(lái)進(jìn)行。

一致性學(xué)習(xí)的介紹

簡(jiǎn)單來(lái)說(shuō)，一致性學(xué)習(xí)（consistency learning）過(guò)程可以分為 3 步來(lái)描述： 1）。用不做數(shù)據(jù)增強(qiáng)的 “簡(jiǎn)單” 圖像來(lái)給像素區(qū)域打上偽標(biāo)簽， 2）。用數(shù)據(jù)增強(qiáng) （或擾動(dòng)）之后的 “復(fù)雜” 圖片進(jìn)行 2 次預(yù)測(cè)，和 3）。用偽標(biāo)簽的結(jié)果來(lái)懲罰增強(qiáng)之后的結(jié)果。

可是，為什么要進(jìn)行這 3 步呢？先用簡(jiǎn)單圖像打標(biāo)簽，復(fù)雜圖像學(xué)習(xí)的意義在哪？

從細(xì)節(jié)來(lái)說(shuō)，如上圖所示，假設(shè)我們有一個(gè)像素的分類問(wèn)題（在此簡(jiǎn)化為 2 分類，左下的三角和右上的圓圈）。我們假設(shè)中間虛線為真實(shí)分布，藍(lán)色曲線為模型的判別邊界。

在這個(gè)例子中，假設(shè)這個(gè)像素的標(biāo)簽是圓圈，并且由 1）。得到的偽標(biāo)簽結(jié)果是正確的（y_tilde=Circ.）。在 2）。中如果像素的增強(qiáng)或擾動(dòng)可以讓預(yù)測(cè)成三角類，那么隨著 3）步驟的懲罰，模型的判別邊界會(huì) （順著紅色箭頭）挪向真實(shí)分布。由此，模型的泛化能力得到加強(qiáng)。

由此得出，在 1）。中使用 “簡(jiǎn)單” 的樣本更容易確保偽標(biāo)簽的正確性，在 2）。時(shí)使用增強(qiáng)后的 “復(fù)雜” 樣本來(lái)確保預(yù)測(cè)掉在邊界的另一端來(lái)增強(qiáng)泛化能力?？墒窃趯?shí)踐中，

1）。沒(méi)有經(jīng)受過(guò)增強(qiáng)的樣本也很可能被判斷錯(cuò) （hard samples），導(dǎo)致模型在學(xué)習(xí)過(guò)程中打的偽標(biāo)簽正確性下降。

2）。隨著訓(xùn)練的進(jìn)行，一般的圖像增強(qiáng)將不能讓模型做出錯(cuò)誤判斷。這時(shí)，一致性學(xué)習(xí)的效率會(huì)大幅度下降。

3）。被廣泛實(shí)用的半監(jiān)督 loss 例如 MSE，在切割任務(wù)里不能給到足夠的力量來(lái)有效的推動(dòng)判別邊界。而 Cross-entropy 很容易讓模型過(guò)擬合錯(cuò)誤標(biāo)簽，造成認(rèn)知偏差（confirmation bias）。

針對(duì)這三個(gè)問(wèn)題，我們提出了：

1）。新的基于一致性的半監(jiān)督語(yǔ)義分割 MT 模型。通過(guò)新引入的 teacher 模型提高未標(biāo)記訓(xùn)練圖像的分割精度。同時(shí)，用置信加權(quán) CE 損失（Conf-CE）代替 MT 的 MSE 損失，從而實(shí)現(xiàn)更強(qiáng)的收斂性和整體上更好的訓(xùn)練準(zhǔn)確性。

2）。一種結(jié)合輸入、特征和網(wǎng)絡(luò)擾動(dòng)結(jié)合的數(shù)據(jù)增強(qiáng)方式，以提高模型的泛化能力。

3）。一種新型的特征擾動(dòng)，稱為 T-VAT。它基于 Teacher 模型的預(yù)測(cè)結(jié)果生成具有挑戰(zhàn)性的對(duì)抗性噪聲進(jìn)一步加強(qiáng)了 student 模型的學(xué)習(xí)效率。

方法介紹

1）。 Dual-Teacher Architecture

我們的方法基于 Mean-Teacher，其中 student 的模型基于反向傳播做正常訓(xùn)練。在每個(gè) iteration 結(jié)束后， student 模型內(nèi)的參數(shù)以 expotional moving average （EMA）的方式轉(zhuǎn)移給 teacher 模型。

在我們的方法中，我們使用了兩個(gè) Teacher 模型。在做偽標(biāo)簽時(shí)，我們用兩個(gè) teacher 預(yù)測(cè)的結(jié)果做一個(gè) ensemble 來(lái)進(jìn)一步增強(qiáng)偽標(biāo)簽的穩(wěn)定性。我們?cè)诿恳粋€(gè) epoch 的訓(xùn)練內(nèi)只更新其中一個(gè) teacher 模型的參數(shù)，來(lái)增加兩個(gè) teacher 之間的 diversity。

由于雙 teacher 模型并沒(méi)有參加到反向傳播的運(yùn)算中，在每個(gè) iteration 內(nèi)他們只會(huì)消耗很小的運(yùn)算成本來(lái)更新參數(shù)。

2）。 Semi-supervised Loss

在訓(xùn)練中， teacher 模型的輸出經(jīng)過(guò) softmax 后的置信度代表著它對(duì)對(duì)應(yīng)偽標(biāo)簽的信心。置信度越高，說(shuō)明這個(gè)偽標(biāo)簽潛在的準(zhǔn)確率可能會(huì)更高。在我們的模型中，我們首先對(duì)同一張圖兩個(gè) teacher 的預(yù)測(cè)取平均值。然后通過(guò)最后的 confidence 作為權(quán)重，對(duì) student 模型的輸出做一個(gè)基于 cross-entropy 懲罰。同時(shí)，我們會(huì)舍棄掉置信度過(guò)低的像素標(biāo)簽，因?yàn)樗麄兪窃胍舻目赡苄詴?huì)更大。

3）。 Teacher-based Virtual Adversarial Training （T-VAT）

Virtual Adversarial Training （VAT）是半監(jiān)督學(xué)習(xí)中常用的添加擾動(dòng)的方式，它以部分反向傳播的方式來(lái)尋找能最大化預(yù)測(cè)和偽標(biāo)簽距離的噪音。

在我們的模型中， dual-teacher 的預(yù)測(cè)比學(xué)生的更加準(zhǔn)確，并且（由于 EMA 的更新方式使其）更加穩(wěn)定。我們使用 teacher 模型替代 student 來(lái)尋找擾動(dòng)性最強(qiáng)的對(duì)抗性噪音，進(jìn)而讓 student 的預(yù)測(cè)出錯(cuò)的可能性加大，最后達(dá)到增強(qiáng)一致性學(xué)習(xí)效率的目的。

4）。訓(xùn)練流程

i）。 supervised part：我們用 strong-augmentation 后的圖片通過(guò) cross-entropy 來(lái)訓(xùn)練 student 模型。

ii）。 unsupervised part：我們首先喂給 dual-teacher 模型們一個(gè) weak-augmentation 的圖片，并且用他們 ensemble 的結(jié)果生成標(biāo)簽。之后我們用 strong-augmentation 后的圖片喂給 student 模型。在通過(guò) encoder 之后，我們用 dual-teachers 來(lái)通過(guò) T-VAT 尋找具有最強(qiáng)擾動(dòng)性的噪音并且注入到（student encoded 之后的）特征圖里，并讓其 decoder 來(lái)做最終預(yù)測(cè)。

iii）。我們通過(guò) dual-teachers 的結(jié)果用 conf-ce 懲罰 student 的預(yù)測(cè)

iv）。基于 student 模型的內(nèi)部參數(shù)，以 EMA 的方式更新一個(gè) teacher 模型。

實(shí)驗(yàn)

1）。 Compare with SOTAs.

Pascal VOC12 Dataset：

訓(xùn)練 log 可視化鏈接： https://wandb.ai/pyedog1976/PS-MT（VOC12）？workspace=user-pyedog1976

該數(shù)據(jù)集包含超過(guò) 13，000 張圖像和 21 個(gè)類別。它提供了 1，464 張高質(zhì)量標(biāo)簽的圖像用于訓(xùn)練，1，449 圖像用于驗(yàn)證，1，456 圖像用于測(cè)試。我們 follow 以往的工作，使了 10582 張低質(zhì)量標(biāo)簽來(lái)做擴(kuò)展學(xué)習(xí)，并且使用了和相同的 label id。

Low-quality Experiments

該實(shí)驗(yàn)從整個(gè)數(shù)據(jù)集中隨機(jī) sample 不同 ratio 的樣本來(lái)當(dāng)作訓(xùn)練集（其中包含高質(zhì)量和低質(zhì)量?jī)煞N標(biāo)簽），旨在測(cè)試模型在有不同數(shù)量的標(biāo)簽時(shí)所展示的泛化能力。

在此實(shí)驗(yàn)中，我們使用了 DeeplabV3 + 當(dāng)作架構(gòu)，并且用 ResNet50 和 ResNet101 得到了所有 ratio 的 SOTA。

High-quality Experiments

該實(shí)驗(yàn)從數(shù)據(jù)集提供的高質(zhì)量標(biāo)簽內(nèi)隨機(jī)挑取不同 ratio 的標(biāo)簽，來(lái)測(cè)試模型在極少標(biāo)簽下的泛化能力。我們的模型在不同的架構(gòu)下（e.g.， Deeplabv3+ and PSPNet）都取得了最好的結(jié)果。

Cityscapes Dataset

訓(xùn)練 log 可視化鏈接： https://wandb.ai/pyedog1976/PS-MT（City）？workspace=user-pyedog1976

Cityscapes 是城市駕駛場(chǎng)景數(shù)據(jù)集，其中包含 2，975 張訓(xùn)練圖像、500 張驗(yàn)證圖像和 1，525 張測(cè)試圖像。數(shù)據(jù)集中的每張圖像的分辨率為 2，048 ×1，024，總共有 19 個(gè)類別。

在 2021 年之前，大多數(shù)方法用 712x712 作為訓(xùn)練的 resolution，并且拿 Cross-entropy 當(dāng)作 supervised 的 loss function。在最近，越來(lái)越多的方式傾向于用大 resolution （800x800）當(dāng)作輸入， OHEM 當(dāng)作 supervised loss function。為了公平的對(duì)比之前的工作，我們分別對(duì)兩種 setting 做了單獨(dú)的訓(xùn)練并且都拿到了 SOTA 的結(jié)果。

2）。 Ablation Learnings.

我們使用 VOC 數(shù)據(jù)集中 1/8 的 ratio 來(lái)進(jìn)行消融實(shí)驗(yàn)。原本的 MT 我們依照之前的工作使用了 MSE 的 loss 方式。可以看到， conf-CE 帶來(lái)了接近 3 個(gè)點(diǎn)的巨大提升。在這之后， T-VAT （teacher-based virtual adversarial training）使 student 模型的一致性學(xué)習(xí)更有效率，它對(duì)兩個(gè)架構(gòu)帶來(lái)了接近 1% 的提升。最后， dual-teacher 的架構(gòu)給兩個(gè) backbone 分別帶來(lái)了 0.83% 和 0.84% 的提升。

同時(shí)我們對(duì)比了多種針對(duì) feature 的擾動(dòng)的方法，依次分別為不使用 perturbation，使用 uniform sample 的噪音，使用原本的 VAT 和我們提出的 T-VAT。T-VAT 依然帶來(lái)了最好的結(jié)果。

3）。 Improvements over Supervised Baseline.

我們的方法相較于相同架構(gòu)但只使用 label part 的數(shù)據(jù)集的結(jié)果有了巨大提升。以 Pascal VOC12 為例，在 1/16 的比率中（即 662 張標(biāo)記圖像），我們的方法分別（在 ResNet50 和 ResNet101 中）超過(guò)了基于全監(jiān)督訓(xùn)練的結(jié)果 6.01% 和 5.97%。在其他 ratio 上，我們的方法也顯示出一致的改進(jìn)。

總結(jié)

在本文中，我們提出了一種新的基于一致性的半監(jiān)督語(yǔ)義分割方法。在我們的貢獻(xiàn)中，我們引入了一個(gè)新的 MT 模型，它基于多個(gè) teacher 和一個(gè) student 模型，它顯示了對(duì)促進(jìn)一致性學(xué)習(xí)的未標(biāo)記圖像更準(zhǔn)確的預(yù)測(cè)，使我們能夠使用比原始 MT 的 MSE 更嚴(yán)格的基于置信度的 CE 來(lái)增強(qiáng)一致性學(xué)習(xí)的效率。這種更準(zhǔn)確的預(yù)測(cè)還使我們能夠使用網(wǎng)絡(luò)、特征和輸入圖像擾動(dòng)的具有挑戰(zhàn)性的組合，從而顯示出更好的泛化性。

此外，我們提出了一種新的對(duì)抗性特征擾動(dòng) （T-VAT），進(jìn)一步增強(qiáng)了我們模型的泛化性。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3644

瀏覽量
51684
計(jì)算機(jī)視覺(jué)

計(jì)算機(jī)視覺(jué)

+關(guān)注

關(guān)注
9

文章
1714

瀏覽量
47443
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1229

瀏覽量
26031

原文標(biāo)題：基于一致性的半監(jiān)督語(yǔ)義分割方法：刷新多項(xiàng)SOTA，還有更好泛化性

文章出處：【微信號(hào)：CVSCHOOL，微信公眾號(hào)：OpenCV學(xué)堂】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

基于一致性的半監(jiān)督語(yǔ)義分割方法

評(píng)論