今天跟大家分享一篇關(guān)于語(yǔ)義分割的論文,剛剛上傳到arXiv的CVPR 2019接收論文《Structured Knowledge Distillation for Semantic Segmentation》,通訊作者單位為微軟亞洲研究院。
作者信息:
作者分別來(lái)自澳大利亞阿德萊德大學(xué)、微軟亞洲研究院、北航、Keep公司、三星中國(guó)研究院,該文為第一作者Yifan Liu在微軟亞洲研究院實(shí)習(xí)期間的工作。
該文研究了在語(yǔ)義分割模型的知識(shí)蒸餾中引入結(jié)構(gòu)化信息的損失函數(shù),在不改變模型計(jì)算量的情況下,使用該方法在Cityscapes數(shù)據(jù)集上mIoU精度取得了最高達(dá)15.17%的提升。
什么是知識(shí)蒸餾?
顧名思義,知識(shí)蒸餾是把知識(shí)濃縮到“小”網(wǎng)絡(luò)模型中。一般情況下,在相同的數(shù)據(jù)上訓(xùn)練,模型參數(shù)量較大、計(jì)算量大的模型往往精度比較高,而用精度高、模型復(fù)雜度高的模型即Teacher網(wǎng)絡(luò)的輸出訓(xùn)練Student網(wǎng)絡(luò),以期達(dá)到使計(jì)算量小參數(shù)少的小網(wǎng)絡(luò)精度提升的方法,就是知識(shí)蒸餾。
知識(shí)蒸餾的好處是顯而易見(jiàn)的,使用知識(shí)蒸餾后的Student網(wǎng)絡(luò)能夠達(dá)到較高的精度,而且更有利于實(shí)際應(yīng)用部署,尤其是在移動(dòng)設(shè)備中。
下面兩幅圖中,作者展示了使用該文提出的結(jié)構(gòu)化知識(shí)蒸餾的語(yǔ)義分割模型在計(jì)算量和參數(shù)量不變的情況下,精度獲得了大幅提升。
算法原理
知識(shí)蒸餾的目標(biāo)是希望對(duì)于Teacher網(wǎng)絡(luò)和Student網(wǎng)絡(luò)給定相同的圖像,輸出結(jié)果盡量一樣。
所以,知識(shí)蒸餾的關(guān)鍵,是如何衡量Teacher網(wǎng)絡(luò)和Student網(wǎng)絡(luò)輸出結(jié)果的一致性,也就是訓(xùn)練過(guò)程中的損失函數(shù)設(shè)計(jì)。
該文中作者將語(yǔ)義分割問(wèn)題看為像素分類問(wèn)題,所以很自然的可以使用衡量分類差異的逐像素(Pixel-wise)的損失函數(shù)Cross entropy loss,這是在最終的輸出結(jié)果Score map中計(jì)算的。
同時(shí)作者引入了圖像的結(jié)構(gòu)化信息損失,如下圖所示。
如何理解圖像的結(jié)構(gòu)化信息?一種很顯然的結(jié)構(gòu)化信息即圖像中局部的一致性。在語(yǔ)義分割中,可以簡(jiǎn)單理解為,預(yù)測(cè)結(jié)果中存在的自相似性,作者衡量這種結(jié)構(gòu)化信息的方式是Teacher預(yù)測(cè)的兩像素結(jié)果和Student網(wǎng)絡(luò)預(yù)測(cè)的兩像素結(jié)果一致。衡量這種損失,作者稱之為Pair-wise loss(也許可以翻譯為“逐成對(duì)像素”損失)。
另一種更高層次的結(jié)構(gòu)化信息是來(lái)自對(duì)圖像整體結(jié)構(gòu)相似性的度量,作者引入了對(duì)抗網(wǎng)絡(luò)的思想,設(shè)計(jì)專門(mén)的網(wǎng)絡(luò)分支分類Teacher網(wǎng)絡(luò)和Student網(wǎng)絡(luò)預(yù)測(cè)的結(jié)果,網(wǎng)絡(luò)收斂的結(jié)果是該網(wǎng)絡(luò)不能再區(qū)分Teacher網(wǎng)絡(luò)和Student網(wǎng)絡(luò)的輸出。作者稱這塊損失函數(shù)為Holistic loss(整體損失)。
仔細(xì)想想,作者設(shè)計(jì)的損失函數(shù)的三部分,逐像素的損失(Pixel-wise loss,PI)、逐像素對(duì)的損失(Pair-wise loss,PA)、整體損失(Holistic loss,HO)都很有道理,是不是?
作者使用ResNet18網(wǎng)絡(luò)模型在Cityscapes數(shù)據(jù)集上研究了作者提出的損失函數(shù)各部分對(duì)結(jié)果的影響。(ImN代表用ImageNet預(yù)訓(xùn)練模型初始化網(wǎng)絡(luò))
結(jié)果如下圖。
可知,作者提出的損失函數(shù)的各個(gè)部分都能使得Student網(wǎng)絡(luò)獲得精度增益,最高達(dá)15.17%!CV君發(fā)現(xiàn)逐像素對(duì)的損失(Pair-wise loss,PA)獲得的增益最大。
實(shí)驗(yàn)結(jié)果
作者使用多個(gè)輕量級(jí)網(wǎng)絡(luò)模型,在三個(gè)主流語(yǔ)義分割數(shù)據(jù)庫(kù)上進(jìn)行了實(shí)驗(yàn)。
下圖為在Cityscapes數(shù)據(jù)集上的結(jié)果,使用該文方法知識(shí)蒸餾后Student網(wǎng)絡(luò)精度獲得了大幅提升!
下圖為一些預(yù)測(cè)結(jié)果示例,視覺(jué)效果上改進(jìn)明顯。
下圖為在CamVid數(shù)據(jù)集上的結(jié)果,同樣改進(jìn)明顯。
CamVid數(shù)據(jù)集上的Student網(wǎng)絡(luò)預(yù)測(cè)示例,視覺(jué)上也好了很多。
下圖為在ADE20K數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,同樣所有網(wǎng)絡(luò)模型的精度都獲得了大幅提升!
目前還未發(fā)現(xiàn)該文作者公布代碼。
-
微軟
+關(guān)注
關(guān)注
4文章
6705瀏覽量
106977 -
函數(shù)
+關(guān)注
關(guān)注
3文章
4400瀏覽量
66385 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1229瀏覽量
25922
原文標(biāo)題:微軟亞研院提出用于語(yǔ)義分割的結(jié)構(gòu)化知識(shí)蒸餾 | CVPR 2019
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
北京迅為itop-3588開(kāi)發(fā)板NPU例程測(cè)試deeplabv3 語(yǔ)義分割

智能體AI面臨非結(jié)構(gòu)化數(shù)據(jù)難題:IBM推出解決方案
從零到一:如何利用非結(jié)構(gòu)化數(shù)據(jù)中臺(tái)快速部署AI解決方案
AI知識(shí)庫(kù)的搭建與應(yīng)用:企業(yè)數(shù)字化轉(zhuǎn)型的關(guān)鍵步驟
VirutualLab Fusion應(yīng)用:結(jié)構(gòu)光照明的顯微鏡系統(tǒng)
研華KB Insight智能知識(shí)管理工具加速工業(yè)智能化
DeepSeek賦能,研華KB Insight引領(lǐng)工業(yè)知識(shí)管理革命
非結(jié)構(gòu)化數(shù)據(jù)中臺(tái):企業(yè)AI應(yīng)用安全落地的核心引擎
ShiMetaOS | 怎樣免費(fèi)調(diào)用人臉識(shí)別模塊以及視頻結(jié)構(gòu)化分析軟件API

基于微軟專利的帶蝴蝶出瞳擴(kuò)展的光波導(dǎo)結(jié)構(gòu)
大連理工提出基于Wasserstein距離(WD)的知識(shí)蒸餾方法
研華科技入選信通院智能體應(yīng)用案例
基于微軟專利的帶蝴蝶出瞳擴(kuò)展的光波導(dǎo)結(jié)構(gòu)
結(jié)構(gòu)化布線在AI數(shù)據(jù)中心的關(guān)鍵作用
語(yǔ)義分割25種損失函數(shù)綜述和展望

評(píng)論