chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語義分割模型 SegNeXt方法概述

lhl545545 ? 來源:CVer ? 作者:CVer ? 2022-09-27 15:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

語義分割是對圖像中的每個像素進行識別的一種算法,可以對圖像進行像素級別的理解。作為計算機視覺中的基礎(chǔ)任務(wù)之一,其不僅僅在學(xué)術(shù)界廣受關(guān)注,也在無人駕駛、工業(yè)檢測、輔助診斷等領(lǐng)域有著廣泛的應(yīng)用。

近期,計圖團隊與南開大學(xué)程明明教授團隊、非十科技劉政寧博士等合作,提出了一種全新的語義分割模型 SegNeXt,該方法大幅提高了當(dāng)前語義分割方法的性能,并在Pascal VOC 分割排行榜上名列第一。該論文已被 NeurIPS 2022 接收。

Part1

語義分割模型SegNeXt

研究背景 自2015年FCN[2] 被提出以來,語義分割開始逐漸走向深度學(xué)習(xí)算法,其常用架構(gòu)為編碼-解碼器結(jié)構(gòu)(Encoder-Decoder)。在 vision transformer 被提出之前,人們通常采用卷積神經(jīng)網(wǎng)絡(luò)(如 ResNet、VGGNet、GoogleNet 等) 作為其編碼器部分;最近,由于vision transformer 在視覺領(lǐng)域的成功,語義分割編碼器部分開始逐漸被換成基于vision transformer的模型(如 ViT、SegFormer、HRFormer等)。但是,基于 vision transformer編碼器的方法真的比基于卷積神經(jīng)網(wǎng)絡(luò)的方法更好么?為了回答這個問題,Jittor團隊重新思考了語義分割任務(wù)對神經(jīng)網(wǎng)絡(luò)的要求,并針對語義分割的任務(wù)專門設(shè)計了一個基于卷積神經(jīng)網(wǎng)絡(luò)的編碼器MSCAN 和一個語義分割模型 SegNeXt。

cd9d8030-3c22-11ed-9e49-dac502259ad0.png

圖1. SegNeXt 和其他語義分割方法的性能對比,其中紅色為SegNeXt

方法概述

論文首先分析了語義分割任務(wù)本身以及之前的相關(guān)工作,總結(jié)出四點語義分割任務(wù)所需的關(guān)鍵因素。1)強大的骨干網(wǎng)絡(luò)作為編碼器。與之前基于 CNN 的模型相比,基于Transformer 的模型的性能提升主要來自更強大的骨干網(wǎng)絡(luò)。2)多尺度信息交互。與主要識別單個對象的圖像分類任務(wù)不同,語義分割是一項密集的預(yù)測任務(wù),因此需要在單個圖像中處理不同大小的對象,這就使得針對語義分割任務(wù)的網(wǎng)絡(luò)需要多尺度信息的交互。3)注意力機制:注意力可以使得模型關(guān)注到重點的部分,并且可以使得網(wǎng)絡(luò)獲得自適應(yīng)性。4)低計算復(fù)雜度:這對于常常處理高分辨率圖像的語義分割任務(wù)來說至關(guān)重要。

cda70fa6-3c22-11ed-9e49-dac502259ad0.png

表 1 不同方法所具有的的屬性對比

為了滿足上述四點要求,作者設(shè)計了一種簡單的多尺度卷積注意力機制 (MSCA)。如圖 2 所示,MSCA 主要是采用大卷積核分解、多分支并行架構(gòu)以及類似VAN[3]的注意力機制。這使得 MSCA 可以獲得大感受野、多尺度信息以及自適應(yīng)性等有益屬性?;?MSCA,該論文搭建了一種層次化神經(jīng)網(wǎng)絡(luò) MSCAN 作為SegNeXt 的編碼器部分。除此之外,作者采用了 UNet 架構(gòu),并選擇了HamNet[4] 作為 SegNeXt 的解碼器部分。分析和實驗證明,MSCAN和 Ham 優(yōu)勢互補,兩者相互配合,使得 SegNeXt 實現(xiàn)了優(yōu)異的性能。

cdb2dd5e-3c22-11ed-9e49-dac502259ad0.png

圖 2:多尺度卷積注意力(MSCA) 示意圖 實驗結(jié)果 本文在五個常見分割數(shù)據(jù)集上 ADE20K, Cityscapes,COCO-Stuff, Pascal VOC, Pascal Context 和一個遙感分割數(shù)據(jù)集 iSAID做了測評,SegNeXt均超過了之前的方法。限于篇幅,我們僅展示部分結(jié)果。

表2:在 ADE20K、Cityscapes, COCO-Stuff 上的實驗結(jié)果

cdd3f5e8-3c22-11ed-9e49-dac502259ad0.png

表 3 SegNeXt 在遙感數(shù)據(jù)集上的實驗結(jié)果

cde6a774-3c22-11ed-9e49-dac502259ad0.png

Part2 計圖語義分割算法庫JSeg Jittor團隊基于自主深度學(xué)習(xí)框架Jittor[5],并借鑒MMSegmentation語義分割算法庫的特點,開發(fā)了語義分割算法庫JSeg。MMSegmentation是廣泛使用的功能強大的語義分割算法庫,新推出的JSeg可以直接加載MMSegmentation的模型,同時借助Jittor深度學(xué)習(xí)平臺的優(yōu)勢,使其更高效、穩(wěn)定運行,可以實現(xiàn)訓(xùn)練和推理快速的從PyTorch向Jittor遷移。 目前JSeg已經(jīng)支持4個模型、4個數(shù)據(jù)集,其中模型包括在Pascal VOC test dataset斬獲第一的SegNeXt模型,數(shù)據(jù)集包括經(jīng)典的ADE20K Dataset、CityScapes Dataset以及遙感分割中的iSAID Dataset等,后續(xù)JSeg也將支持更多的模型和數(shù)據(jù)集! 性能提升 我們使用SegNeX-Tiny模型,與Pytorch實現(xiàn)的版本在NVIDIA TITAN RTX上進行了對比,可以顯著縮短模型訓(xùn)練所需要的時間。

表1JSeg和mmseg(PyTorch)的訓(xùn)練時間對比

ce026cd4-3c22-11ed-9e49-dac502259ad0.png

易用性提升

由于Jittor動態(tài)編譯的特性及code算子對python內(nèi)聯(lián)C++及CUDA的支持,JSeg在不同環(huán)境下無需對任何算子進行手動編譯,即可輕松運行不同模型,免去了用戶對不同模型分別配置環(huán)境的負擔(dān),同時方便用戶對不同方法進行更公平的比較。此外,JSeg的設(shè)計易于拓展,用戶可以基于JSeg已有的模型和功能方便地開展進一步的研究和開發(fā)。

實踐案例

下面,我們將簡要介紹如何使用JSeg訓(xùn)練一個基礎(chǔ)模型。

首先,下載數(shù)據(jù)集到原始數(shù)據(jù)集目錄。

ce13a83c-3c22-11ed-9e49-dac502259ad0.png

通過tools/convert_datasets下的數(shù)據(jù)處理腳本對原始數(shù)據(jù)進行預(yù)處理,得到處理后的數(shù)據(jù)集。然后即可對模型進行單卡或者多卡訓(xùn)練、評估和測試,同時提供了推理接口,用戶可以使用10行代碼完成一張圖片的語義分割,盡可能地降低了用戶的使用成本。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1202

    瀏覽量

    42840
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3645

    瀏覽量

    51685
  • 計算機視覺
    +關(guān)注

    關(guān)注

    9

    文章

    1714

    瀏覽量

    47443
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5589

    瀏覽量

    123884

原文標(biāo)題:NeurIPS 2022 | 清華&南開提出SegNeXt:重新思考語義分割的卷積注意力設(shè)計

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    聚焦語義分割任務(wù),如何用卷積神經(jīng)網(wǎng)絡(luò)處理語義圖像分割?

    CNN架構(gòu)圖像語義分割 圖像分割是根據(jù)圖像內(nèi)容對指定區(qū)域進行標(biāo)記的計算機視覺任務(wù),簡言之就是「這張圖片里有什么,其在圖片中的位置是什么?」本文聚焦于語義
    發(fā)表于 09-17 15:21 ?781次閱讀

    Facebook AI使用單一神經(jīng)網(wǎng)絡(luò)架構(gòu)來同時完成實例分割語義分割

    這一新架構(gòu)“全景 FPN ”在 Facebook 2017 年發(fā)布的 Mask R-CNN 的基礎(chǔ)上添加了一個用于語義分割的分支。這一新架構(gòu)可以同時對圖像進行實例和語義分割,而且精確度
    的頭像 發(fā)表于 04-22 11:46 ?3407次閱讀
    Facebook AI使用單一神經(jīng)網(wǎng)絡(luò)架構(gòu)來同時完成實例<b class='flag-5'>分割</b>和<b class='flag-5'>語義</b><b class='flag-5'>分割</b>

    DeepLab進行語義分割的研究分析

    DeepLab是谷歌使用tensorflow基于CNN開發(fā)的語義分割模型,至今已更新4個版本。最新版本是DeepLabv3+,在此模型中進一步將深度可分離卷積應(yīng)用到孔空間金字塔池化和解
    發(fā)表于 10-24 08:00 ?11次下載
    DeepLab進行<b class='flag-5'>語義</b><b class='flag-5'>分割</b>的研究分析

    語義分割算法系統(tǒng)介紹

    圖像語義分割是圖像處理和是機器視覺技術(shù)中關(guān)于圖像理解的重要任務(wù)。語義分割即是對圖像中每一個像素點進行分類,確定每個點的類別,從而進行區(qū)域劃分,為了能夠幫助大家更好的了解
    的頭像 發(fā)表于 11-05 10:34 ?7530次閱讀

    語義分割方法發(fā)展過程

    語義分割的最簡單形式是對一個區(qū)域設(shè)定必須滿足的硬編碼規(guī)則或?qū)傩裕M而指定特定類別標(biāo)簽. 編碼規(guī)則可以根據(jù)像素的屬性來構(gòu)建,如灰度級強度(gray level intensity). 基于該技術(shù)的一種
    的頭像 發(fā)表于 12-28 14:28 ?5628次閱讀

    分析總結(jié)基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法

    隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展及其在語義分割領(lǐng)域的廣泛應(yīng)用,語義分割效果得到顯著提升。對基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義
    發(fā)表于 03-19 14:14 ?21次下載
    分析總結(jié)基于深度神經(jīng)網(wǎng)絡(luò)的圖像<b class='flag-5'>語義</b><b class='flag-5'>分割</b><b class='flag-5'>方法</b>

    結(jié)合雙目圖像的深度信息跨層次特征的語義分割模型

    為改善單目圖像語義分割網(wǎng)絡(luò)對圖像深度變化區(qū)域的分割效果,提出一種結(jié)合雙目圖像的深度信息和跨層次特征進行互補應(yīng)用的語義分割
    發(fā)表于 03-19 14:35 ?21次下載
    結(jié)合雙目圖像的深度信息跨層次特征的<b class='flag-5'>語義</b><b class='flag-5'>分割</b><b class='flag-5'>模型</b>

    基于深度學(xué)習(xí)的三維點云語義分割研究分析

    近年來,深度傳感器和三維激光掃描儀的普及推動了三維點云處理方法的快速發(fā)展。點云語義分割作為理解三維場景的關(guān)鍵步驟,受到了研究者的廣泛關(guān)注。隨著深度學(xué)習(xí)的迅速發(fā)展并廣泛應(yīng)用到三維語義
    發(fā)表于 04-01 14:48 ?16次下載
    基于深度學(xué)習(xí)的三維點云<b class='flag-5'>語義</b><b class='flag-5'>分割</b>研究分析

    基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法

    對應(yīng)用于圖像語義分割的幾種深度神經(jīng)網(wǎng)絡(luò)模型進行簡單介紹,接著詳細闡述了現(xiàn)有主流的基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義分割
    發(fā)表于 04-02 13:59 ?11次下載
    基于深度神經(jīng)網(wǎng)絡(luò)的圖像<b class='flag-5'>語義</b><b class='flag-5'>分割</b><b class='flag-5'>方法</b>

    基于SEGNET模型的圖像語義分割方法

    使用原始 SEGNET模型對圖像進行語義分割時,未對圖像中相鄰像素點間的關(guān)系進行考慮,導(dǎo)致同一目標(biāo)中像素點類別預(yù)測結(jié)果不一致。通過在 SEGNET結(jié)構(gòu)中加入一條自上而下的通道,使得 SEGNET包含
    發(fā)表于 05-27 14:54 ?15次下載

    圖像語義分割的概念與原理以及常用的方法

    從最簡單的像素級別“閾值法”(Thresholding methods)、基于像素聚類的分割方法(Clustering-based segmentation methods)到“圖劃分”的分割
    的頭像 發(fā)表于 04-20 10:01 ?6680次閱讀

    CVPR 2023 | 華科&amp;MSRA新作:基于CLIP的輕量級開放詞匯語義分割架構(gòu)

    Adapter Network (SAN)的新框架,用于基于預(yù)訓(xùn)練的視覺語言模型進行開放式語義分割。該方法語義
    的頭像 發(fā)表于 07-10 10:05 ?2241次閱讀
    CVPR 2023 | 華科&amp;MSRA新作:基于CLIP的輕量級開放詞匯<b class='flag-5'>語義</b><b class='flag-5'>分割</b>架構(gòu)

    深度學(xué)習(xí)圖像語義分割指標(biāo)介紹

    深度學(xué)習(xí)在圖像語義分割上已經(jīng)取得了重大進展與明顯的效果,產(chǎn)生了很多專注于圖像語義分割模型與基準(zhǔn)數(shù)據(jù)集,這些基準(zhǔn)數(shù)據(jù)集提供了一套統(tǒng)一的批判
    發(fā)表于 10-09 15:26 ?798次閱讀
    深度學(xué)習(xí)圖像<b class='flag-5'>語義</b><b class='flag-5'>分割</b>指標(biāo)介紹

    圖像分割語義分割中的CNN模型綜述

    圖像分割語義分割是計算機視覺領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個具有特定語義含義的區(qū)域或?qū)ο蟆>矸e神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的一種核心模型
    的頭像 發(fā)表于 07-09 11:51 ?2659次閱讀

    圖像語義分割的實用性是什么

    圖像語義分割是一種重要的計算機視覺任務(wù),它旨在將圖像中的每個像素分配到相應(yīng)的語義類別中。這項技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用,如自動駕駛、醫(yī)學(xué)圖像分析、機器人導(dǎo)航等。 一、圖像語義
    的頭像 發(fā)表于 07-17 09:56 ?1229次閱讀