今天跟大家分享一篇關于語義分割的論文,剛剛上傳到arXiv的CVPR 2019接收論文《Structured Knowledge Distillation for Semantic Segmentation》,通訊作者單位為微軟亞洲研究院。
作者信息:
作者分別來自澳大利亞阿德萊德大學、微軟亞洲研究院、北航、Keep公司、三星中國研究院,該文為第一作者Yifan Liu在微軟亞洲研究院實習期間的工作。
該文研究了在語義分割模型的知識蒸餾中引入結構化信息的損失函數(shù),在不改變模型計算量的情況下,使用該方法在Cityscapes數(shù)據(jù)集上mIoU精度取得了最高達15.17%的提升。
什么是知識蒸餾?
顧名思義,知識蒸餾是把知識濃縮到“小”網(wǎng)絡模型中。一般情況下,在相同的數(shù)據(jù)上訓練,模型參數(shù)量較大、計算量大的模型往往精度比較高,而用精度高、模型復雜度高的模型即Teacher網(wǎng)絡的輸出訓練Student網(wǎng)絡,以期達到使計算量小參數(shù)少的小網(wǎng)絡精度提升的方法,就是知識蒸餾。
知識蒸餾的好處是顯而易見的,使用知識蒸餾后的Student網(wǎng)絡能夠達到較高的精度,而且更有利于實際應用部署,尤其是在移動設備中。
下面兩幅圖中,作者展示了使用該文提出的結構化知識蒸餾的語義分割模型在計算量和參數(shù)量不變的情況下,精度獲得了大幅提升。
算法原理
知識蒸餾的目標是希望對于Teacher網(wǎng)絡和Student網(wǎng)絡給定相同的圖像,輸出結果盡量一樣。
所以,知識蒸餾的關鍵,是如何衡量Teacher網(wǎng)絡和Student網(wǎng)絡輸出結果的一致性,也就是訓練過程中的損失函數(shù)設計。
該文中作者將語義分割問題看為像素分類問題,所以很自然的可以使用衡量分類差異的逐像素(Pixel-wise)的損失函數(shù)Cross entropy loss,這是在最終的輸出結果Score map中計算的。
同時作者引入了圖像的結構化信息損失,如下圖所示。
如何理解圖像的結構化信息?一種很顯然的結構化信息即圖像中局部的一致性。在語義分割中,可以簡單理解為,預測結果中存在的自相似性,作者衡量這種結構化信息的方式是Teacher預測的兩像素結果和Student網(wǎng)絡預測的兩像素結果一致。衡量這種損失,作者稱之為Pair-wise loss(也許可以翻譯為“逐成對像素”損失)。
另一種更高層次的結構化信息是來自對圖像整體結構相似性的度量,作者引入了對抗網(wǎng)絡的思想,設計專門的網(wǎng)絡分支分類Teacher網(wǎng)絡和Student網(wǎng)絡預測的結果,網(wǎng)絡收斂的結果是該網(wǎng)絡不能再區(qū)分Teacher網(wǎng)絡和Student網(wǎng)絡的輸出。作者稱這塊損失函數(shù)為Holistic loss(整體損失)。
仔細想想,作者設計的損失函數(shù)的三部分,逐像素的損失(Pixel-wise loss,PI)、逐像素對的損失(Pair-wise loss,PA)、整體損失(Holistic loss,HO)都很有道理,是不是?
作者使用ResNet18網(wǎng)絡模型在Cityscapes數(shù)據(jù)集上研究了作者提出的損失函數(shù)各部分對結果的影響。(ImN代表用ImageNet預訓練模型初始化網(wǎng)絡)
結果如下圖。
可知,作者提出的損失函數(shù)的各個部分都能使得Student網(wǎng)絡獲得精度增益,最高達15.17%!CV君發(fā)現(xiàn)逐像素對的損失(Pair-wise loss,PA)獲得的增益最大。
實驗結果
作者使用多個輕量級網(wǎng)絡模型,在三個主流語義分割數(shù)據(jù)庫上進行了實驗。
下圖為在Cityscapes數(shù)據(jù)集上的結果,使用該文方法知識蒸餾后Student網(wǎng)絡精度獲得了大幅提升!
下圖為一些預測結果示例,視覺效果上改進明顯。
下圖為在CamVid數(shù)據(jù)集上的結果,同樣改進明顯。
CamVid數(shù)據(jù)集上的Student網(wǎng)絡預測示例,視覺上也好了很多。
下圖為在ADE20K數(shù)據(jù)集上的實驗結果,同樣所有網(wǎng)絡模型的精度都獲得了大幅提升!
目前還未發(fā)現(xiàn)該文作者公布代碼。
-
微軟
+關注
關注
4文章
6686瀏覽量
105762 -
函數(shù)
+關注
關注
3文章
4381瀏覽量
64878 -
數(shù)據(jù)集
+關注
關注
4文章
1224瀏覽量
25447
原文標題:微軟亞研院提出用于語義分割的結構化知識蒸餾 | CVPR 2019
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
智能體AI面臨非結構化數(shù)據(jù)難題:IBM推出解決方案
從零到一:如何利用非結構化數(shù)據(jù)中臺快速部署AI解決方案
AI知識庫的搭建與應用:企業(yè)數(shù)字化轉型的關鍵步驟
VirutualLab Fusion應用:結構光照明的顯微鏡系統(tǒng)
研華KB Insight智能知識管理工具加速工業(yè)智能化
DeepSeek賦能,研華KB Insight引領工業(yè)知識管理革命
非結構化數(shù)據(jù)中臺:企業(yè)AI應用安全落地的核心引擎
ShiMetaOS | 怎樣免費調用人臉識別模塊以及視頻結構化分析軟件API

基于微軟專利的帶蝴蝶出瞳擴展的光波導結構
大連理工提出基于Wasserstein距離(WD)的知識蒸餾方法
研華科技入選信通院智能體應用案例
基于微軟專利的帶蝴蝶出瞳擴展的光波導結構
結構化布線在AI數(shù)據(jù)中心的關鍵作用
語義分割25種損失函數(shù)綜述和展望

評論