chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語(yǔ)義分割算法系統(tǒng)介紹

新機(jī)器視覺(jué) ? 來(lái)源:新機(jī)器視覺(jué) ? 作者:Xavier CHEN ? 2020-11-05 10:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

圖像語(yǔ)義分割是圖像處理和是機(jī)器視覺(jué)技術(shù)中關(guān)于圖像理解的重要任務(wù)。語(yǔ)義分割即是對(duì)圖像中每一個(gè)像素點(diǎn)進(jìn)行分類,確定每個(gè)點(diǎn)的類別,從而進(jìn)行區(qū)域劃分,為了能夠幫助大家更好的了解語(yǔ)義分割領(lǐng)域,我們精選知乎文章。作者Xavier CHEN針對(duì)語(yǔ)義分割進(jìn)行系統(tǒng)的介紹,從原理解析到算法發(fā)展總結(jié),文章思路清晰,總結(jié)全面,推薦大家閱讀。

本文作者為Xavier CHEN,畢業(yè)于浙江大學(xué),在知乎持續(xù)分享前沿文章。

01

前言

之前做了一個(gè)語(yǔ)義分割的綜述報(bào)告,現(xiàn)在把報(bào)告總結(jié)成文章。這篇文章將分為三個(gè)部分:


1.語(yǔ)義分割基本介紹:明確語(yǔ)義分割解決的是什么問(wèn)題。


2.從FCN到Deeplab v3+:解讀語(yǔ)義分割模型的發(fā)展,常用方法與技巧


3.代碼實(shí)戰(zhàn)中需要注意的問(wèn)題。

02

語(yǔ)義分割基本介紹

2.1 概念

語(yǔ)義分割(semantic segmentation) : 就是按照“語(yǔ)義”給圖像上目標(biāo)類別中的每一點(diǎn)打一個(gè)標(biāo)簽,使得不同種類的東西在圖像上被區(qū)分開(kāi)來(lái)。可以理解成像素級(jí)別的分類任務(wù)。

輸入:(H*W*3)就是正常的圖片

輸出:( H*W*class )可以看為圖片上每個(gè)點(diǎn)的one-hot表示,每一個(gè)channel對(duì)應(yīng)一個(gè)class,對(duì)每一個(gè)pixel位置,都有class數(shù)目 個(gè)channel,每個(gè)channel的值對(duì)應(yīng)那個(gè)像素屬于該class的預(yù)測(cè)概率。

figure1

2.2評(píng)價(jià)準(zhǔn)則

1.像素精度(pixel accuracy ):每一類像素正確分類的個(gè)數(shù)/ 每一類像素的實(shí)際個(gè)數(shù)。

2.均像素精度(mean pixel accuracy ):每一類像素的精度的平均值。

3.平均交并比(Mean Intersection over Union):求出每一類的IOU取平均值。IOU指的是兩塊區(qū)域相交的部分/兩個(gè)部分的并集,如figure2中 綠色部分/總面積。

4.權(quán)頻交并比(Frequency Weight Intersection over Union):每一類出現(xiàn)的頻率作為權(quán)重

figure2

03

從FCN 到Deeplab V3+

語(yǔ)義分割的原理和常用技巧

3.1 FCN

FCN是語(yǔ)義分割的開(kāi)山之作,主要特色有兩點(diǎn):

1.全連接層換成卷積層

2.不同尺度的信息融合FCN-8S,16s,32s

看詳細(xì)講解 推薦:

https://zhuanlan.zhihu.com/p/30195134

3.1.1 全連接層換成卷積層

figure3

以Alexnet的拓?fù)浣Y(jié)構(gòu)為例

原本的結(jié)構(gòu):224大小的圖片經(jīng)過(guò)一系列卷積,得到大小為1/32 = 7的feature map,經(jīng)過(guò)三層全連接層,得到基于FC的分布式表示。

我們把三層全連接層全都換成卷積層,卷積核的大小和個(gè)數(shù)如下圖中間行所示,我們?nèi)サ袅巳B接層,但是得到了另外一種基于不同channel的分布式表示:Heatmap

舉一個(gè)例子,我們有一個(gè)大小為384的圖片,經(jīng)過(guò)替換了FC的Alexnet,得到的是6*6*1000的Heatmap,相當(dāng)于原來(lái)的Alexnet 以stride = 32在輸入圖片上滑動(dòng),經(jīng)過(guò)上采樣之后,就可以得到粗略的分割結(jié)果。

figure4

3.1.2 不同尺度的信息融合

就像剛剛舉的Alexnet的例子,對(duì)于任何的分類神經(jīng)網(wǎng)絡(luò)我們都可以用卷積層替換FC層,只是換了一種信息的分布式表示。如果我們直接把Heatmap上采樣,就得到FCN-32s。如下圖

figure5

但是我們知道,隨著一次次的池化,雖然感受野不斷增大,語(yǔ)義信息不斷增強(qiáng)。但是池化造成了像素位置信息的丟失:直觀舉例,1/32大小的Heatmap上采樣到原圖之后,在Heatmap上如果偏移一個(gè)像素,在原圖就偏移32個(gè)像素,這是不能容忍的。

見(jiàn)figure6,前面的層雖然語(yǔ)義信息較少,但是位置信息較多,作者就把1/8 1/16 1/32的三個(gè)層的輸出融合起來(lái)了。先把1/32的輸出上采樣到1/16,和Pool4的輸出做elementwose addition , 結(jié)果再上采樣到1/8,和Pool3的輸出各個(gè)元素相加。得到1/8的結(jié)果,上采樣8倍,求Loss。

figure6

3.2 U-net

figure7

U-net用于解決小樣本的簡(jiǎn)單問(wèn)題分割,比如醫(yī)療影片的分割。它遵循的基本原理與FCN一樣:

1.Encoder-Decoder結(jié)構(gòu):前半部分為多層卷積池化,不斷擴(kuò)大感受野,用于提取特征。后半部分上采樣回復(fù)圖片尺寸。

2.更豐富的信息融合:如灰色剪頭,更多的前后層之間的信息融合。這里是把前面層的輸出和后面層concat(串聯(lián))到一起,區(qū)別于FCN的逐元素加和。不同F(xiàn)eature map串聯(lián)到一起后,后面接卷積層,可以讓卷積核在channel上自己做出選擇。注意的是,在串聯(lián)之前,需要把前層的feature map crop到和后層一樣的大小。

3.3 SegNet

figure 8

在結(jié)構(gòu)上看,SegNet和U-net其實(shí)大同小異,都是編碼-解碼結(jié)果。區(qū)別在意,SegNet沒(méi)有直接融合不同尺度的層的信息,為了解決為止信息丟失的問(wèn)題,SegNet使用了帶有坐標(biāo)(index)的池化。如下圖所示,在Max pooling時(shí),選擇最大像素的同時(shí),記錄下該像素在Feature map的位置(左圖)。在反池化的時(shí)候,根據(jù)記錄的坐標(biāo),把最大值復(fù)原到原來(lái)對(duì)應(yīng)的位置,其他的位置補(bǔ)零(右圖)。后面的卷積可以把0的元素給填上。這樣一來(lái),就解決了由于多次池化造成的位置信息的丟失。

figure 9

3.4 Deeplab V1

figure10

這篇論文不同于之前的思路,他的特色有兩點(diǎn):

1.由于Pooling-Upsample會(huì)丟失位置信息而且多層上下采樣開(kāi)銷較大,把控制感受野大小的方法化成:帶孔卷積(Atrous conv)

2.加入CRF(條件隨機(jī)場(chǎng)),利用像素之間的關(guān)連信息:相鄰的像素,或者顏色相近的像素有更大的可能屬于同一個(gè)class。

3.4.1 Atrous Conv

如右下圖片所示,一個(gè)擴(kuò)張率為2的帶孔卷積接在一個(gè)擴(kuò)張率為1的正常卷積后面,可以達(dá)到大小為7的感受野,但是輸出的大小并沒(méi)有減小,參數(shù)量也沒(méi)有增大。

figure 11

3.4.2 條件隨機(jī)場(chǎng)CRF

figure 12

3.5 PSPnet

figure13

原理都大同小異,前面的不同level的信息融合都是融合淺層和后層的Feature Map,因?yàn)楹髮拥母惺芤按?,語(yǔ)義特征強(qiáng),淺層的感受野小,局部特征明顯且位置信息豐富。

PSPnet則使用了空間金字塔池化,得到一組感受野大小不同的feature map,將這些感受野不同的map concat到一起,完成多層次的語(yǔ)義特征融合。

3.6 Deeplab V2

figure 14

Deeplab v2在v1的基礎(chǔ)上做出了改進(jìn),引入了ASPP(Atrous Spatial Pyramid Pooling)的結(jié)構(gòu),如上圖所示。我們注意到,Deeplab v1使用帶孔卷積擴(kuò)大感受野之后,沒(méi)有融合不同層之間的信息。

ASPP層就是為了融合不同級(jí)別的語(yǔ)義信息:選擇不同擴(kuò)張率的帶孔卷積去處理Feature Map,由于感受野不同,得到的信息的Level也就不同,ASPP層把這些不同層級(jí)的feature map concat到一起,進(jìn)行信息融合。

3.7 Deeplab v3

Deeplab v3在原有基礎(chǔ)上的改動(dòng)是:

1.改進(jìn)了ASPP模塊

2.引入Resnet Block

3.丟棄CRF

figure15

新的ASPP模塊:

1.加入了Batch Norm

2.加入特征的全局平均池化(在擴(kuò)張率很大的情況下,有效權(quán)重會(huì)變?。H鐖D14中的(b)Image Pooling就是全局平均池化,它的加入是對(duì)全局特征的強(qiáng)調(diào)、加強(qiáng)。

在舊的ASPP模塊中:我們以為在擴(kuò)張率足夠大的時(shí)候,感受野足夠大,所以獲得的特征傾向于全局特征。但實(shí)際上,擴(kuò)張率過(guò)大的情況下,Atrous conv出現(xiàn)了“權(quán)值退化”的問(wèn)題,感受野過(guò)大,都已近擴(kuò)展到了圖像外面,大多數(shù)的權(quán)重都和圖像外圍的zero padding進(jìn)行了點(diǎn)乘,這樣并沒(méi)有獲取圖像中的信息。有效的權(quán)值個(gè)數(shù)很少,往往就是1。于是我們加了全局平均池化,強(qiáng)行利用全局信息。

3.8 Deeplab v3+

figure16

可以看成是把Deeplab v3作為編碼器(上半部分)。后面再進(jìn)行解碼,并且在解碼的過(guò)程中在此運(yùn)用了不同層級(jí)特征的融合。

此外,在encoder部分加入了Xception的結(jié)構(gòu)減少了參數(shù)量,提高運(yùn)行速遞。關(guān)于Xception如何減少參數(shù)量,提高速度。建議閱讀論文 : Mobilenet

https://arxiv.org/pdf/1704.04861.pdf

3.9 套路總結(jié)

看完這么多論文,會(huì)發(fā)現(xiàn)他們的方法都差不多,總結(jié)為一下幾點(diǎn)。在自己設(shè)計(jì)語(yǔ)義分割模型的時(shí)候,遵循一下規(guī)則,都是可以漲點(diǎn)的。但是要結(jié)合自己的項(xiàng)目要求,選擇合適的方法。

1.全卷積網(wǎng)絡(luò),滑窗的形式

2.感受野的控制:Pooling+Upsample => Atrous convolution

3.不同Level的特征融合:統(tǒng)一尺寸之后Add / Concat+Conv, SPP, ASPP…

4.考慮相鄰像素之間的關(guān)系:CRF

5.在條件允許的情況下,圖像越大越好。

6.分割某一個(gè)特定的類別,可以考慮使用先驗(yàn)知識(shí)+ 對(duì)結(jié)果進(jìn)行圖像形態(tài)學(xué)處理

7.此外還有一些其他的研究思路:實(shí)時(shí)語(yǔ)義分割,視頻語(yǔ)義分割

責(zé)任編輯:xj

原文標(biāo)題:一文速覽!語(yǔ)義分割算法盤點(diǎn)

文章出處:【微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4759

    瀏覽量

    97115
  • FC
    FC
    +關(guān)注

    關(guān)注

    1

    文章

    84

    瀏覽量

    42679
  • 卷積
    +關(guān)注

    關(guān)注

    0

    文章

    95

    瀏覽量

    18922

原文標(biāo)題:一文速覽!語(yǔ)義分割算法盤點(diǎn)

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    AES加解密算法邏輯實(shí)現(xiàn)及其在蜂鳥(niǎo)E203SoC上的應(yīng)用介紹

    這次分享我們會(huì)簡(jiǎn)要介紹AES加解密算法的邏輯實(shí)現(xiàn),以及如何將AES算法做成硬件協(xié)處理器集成在蜂鳥(niǎo)E203 SoC上。 AES算法介紹 AE
    發(fā)表于 10-29 07:29

    基于E203 RISC-V的音頻信號(hào)處理系統(tǒng) -ANC算法簡(jiǎn)介

    ANC算法介紹 主動(dòng)降噪系統(tǒng)在移動(dòng)終端中應(yīng)用最廣,例如摩托的麗音、三星Diamond Voice、蘋(píng)果的Micphone Array等。最早提出使用聲波干涉原理進(jìn)行噪聲消除概念的是Rayleigh
    發(fā)表于 10-28 07:50

    國(guó)密系列算法簡(jiǎn)介及SM4算法原理介紹

    保證,而國(guó)產(chǎn)密碼算法實(shí)現(xiàn)了密碼算法的自主可控,對(duì)于保障我國(guó)的國(guó)家安全具有重要意義。目前,我國(guó)大力推廣國(guó)密算法的應(yīng)用,并涌現(xiàn)出一系列國(guó)家商用密碼應(yīng)用的優(yōu)秀案例。 本文將對(duì)SM4算法的原理
    發(fā)表于 10-24 08:25

    微店關(guān)鍵詞搜索接口核心突破:動(dòng)態(tài)權(quán)重算法語(yǔ)義引擎的實(shí)戰(zhàn)落地

    本文詳解微店搜索接口從基礎(chǔ)匹配到智能推薦的技術(shù)進(jìn)階路徑,涵蓋動(dòng)態(tài)權(quán)重、語(yǔ)義理解與行為閉環(huán)三大創(chuàng)新,助力商家提升搜索轉(zhuǎn)化率、商品曝光與用戶留存,實(shí)現(xiàn)技術(shù)驅(qū)動(dòng)的業(yè)績(jī)?cè)鲩L(zhǎng)。
    的頭像 發(fā)表于 10-15 14:38 ?220次閱讀

    手機(jī)板 layout 走線跨分割問(wèn)題

    初學(xué)習(xí)layout時(shí),都在說(shuō)信號(hào)線不可跨分割,但是在工作中為了成本不能跨分割似乎也非絕對(duì)。 在后續(xù)工作中,跨分割的基礎(chǔ)都是相鄰層有一面完整的GND參考,跨分割發(fā)生在相鄰的另外一層。 但
    發(fā)表于 09-16 14:56

    基于黃金分割搜索法的IPMSM最大轉(zhuǎn)矩電流比控制

    初始值,進(jìn)而從該值開(kāi)始通過(guò)黃金分割法搜索最優(yōu)電流矢量角,從而實(shí)現(xiàn)IPMSM 的最大轉(zhuǎn)矩電流比最優(yōu)控制。仿真結(jié)果表明:該控制算法與傳統(tǒng)進(jìn)退搜索法相比,具有更快搜索速度,對(duì)電動(dòng)機(jī)參數(shù)和工作狀態(tài)變化具有較強(qiáng)的魯
    發(fā)表于 07-29 16:11

    北京迅為itop-3588開(kāi)發(fā)板NPU例程測(cè)試deeplabv3 語(yǔ)義分割

    北京迅為itop-3588開(kāi)發(fā)板NPU例程測(cè)試deeplabv3 語(yǔ)義分割
    的頭像 發(fā)表于 07-22 15:51 ?808次閱讀
    北京迅為itop-3588開(kāi)發(fā)板NPU例程測(cè)試deeplabv3 <b class='flag-5'>語(yǔ)義</b><b class='flag-5'>分割</b>

    【正點(diǎn)原子STM32MP257開(kāi)發(fā)板試用】基于 DeepLab 模型的圖像分割

    【正點(diǎn)原子STM32MP257開(kāi)發(fā)板試用】圖像分割 本文介紹了正點(diǎn)原子 STM32MP257 開(kāi)發(fā)板基于 DeepLab 模型實(shí)現(xiàn)圖像分割的項(xiàng)目設(shè)計(jì)。 DeepLab 模型 DeepLab-v3
    發(fā)表于 06-21 21:11

    自動(dòng)兵力生成算法系統(tǒng)有哪些

    行業(yè)芯事行業(yè)資訊
    北京華盛恒輝科技
    發(fā)布于 :2025年06月11日 11:16:12

    【「# ROS 2智能機(jī)器人開(kāi)發(fā)實(shí)踐」閱讀體驗(yàn)】視覺(jué)實(shí)現(xiàn)的基礎(chǔ)算法的應(yīng)用

    相機(jī)標(biāo)定是視覺(jué)系統(tǒng)的基石,直接影響后續(xù)圖像處理的精度。書(shū)中詳細(xì)介紹了單目和雙目相機(jī)的標(biāo)定流程,包括標(biāo)定板的使用、參數(shù)優(yōu)化以及標(biāo)定文件的應(yīng)用。 實(shí)際應(yīng)用中,標(biāo)定誤差可能導(dǎo)致機(jī)器人定位偏差,因此標(biāo)定過(guò)程
    發(fā)表于 05-03 19:41

    破解透明物體抓取難題,地瓜機(jī)器人 CASIA 推出幾何和語(yǔ)義融合的單目抓取方案|ICRA 2025

    近日,全球機(jī)器人領(lǐng)域頂會(huì)ICRA 2025(IEEE機(jī)器人與自動(dòng)化國(guó)際會(huì)議)公布論文錄用結(jié)果,地瓜機(jī)器人主導(dǎo)研發(fā)的DOSOD開(kāi)放詞匯目標(biāo)檢測(cè)算法與MODEST單目透明物體抓取算法成功入選。前者通過(guò)
    的頭像 發(fā)表于 03-05 19:30 ?1235次閱讀
    破解透明物體抓取難題,地瓜機(jī)器人 CASIA 推出幾何和<b class='flag-5'>語(yǔ)義</b>融合的單目抓取方案|ICRA 2025

    FPGA上的圖像處理算法集成與優(yōu)化

    本文詳細(xì)介紹了多種圖像處理技術(shù),包括RG/GB單通道提取、亮度和對(duì)比度調(diào)整、圖像反轉(zhuǎn)、均值濾波、高斯濾波、圖像銳化、中值濾波、閾值分割、邊緣檢測(cè)(Sobel算子)、圖像膨脹與腐蝕、開(kāi)運(yùn)算與閉運(yùn)算
    的頭像 發(fā)表于 02-14 13:46 ?1135次閱讀
    FPGA上的圖像處理<b class='flag-5'>算法</b>集成與優(yōu)化

    SparseViT:以非語(yǔ)義為中心、參數(shù)高效的稀疏化視覺(jué)Transformer

    (IML)都遵循“語(yǔ)義分割主干網(wǎng)絡(luò)”與“精心制作的手工制作非語(yǔ)義特征提取”相結(jié)合的設(shè)計(jì),這種方法嚴(yán)重限制了模型在未知場(chǎng)景的偽影提取能力。 論文標(biāo)題: Can We Get Rid
    的頭像 發(fā)表于 01-15 09:30 ?794次閱讀
    SparseViT:以非<b class='flag-5'>語(yǔ)義</b>為中心、參數(shù)高效的稀疏化視覺(jué)Transformer

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人的基礎(chǔ)模塊

    目前高速發(fā)展的大模型能給具身智能帶來(lái)一些突破性的進(jìn)展。 對(duì)于感知系統(tǒng),要做的主要任務(wù)是物體檢測(cè),語(yǔ)義分割,立體視覺(jué),鳥(niǎo)瞰視角感知。 有很多算法都可以實(shí)現(xiàn)物體檢測(cè),比如文章提到的HOG
    發(fā)表于 01-04 19:22

    利用VLM和MLLMs實(shí)現(xiàn)SLAM語(yǔ)義增強(qiáng)

    語(yǔ)義同步定位與建圖(SLAM)系統(tǒng)在對(duì)鄰近的語(yǔ)義相似物體進(jìn)行建圖時(shí)面臨困境,特別是在復(fù)雜的室內(nèi)環(huán)境中。本文提出了一種面向?qū)ο骃LAM的語(yǔ)義增強(qiáng)(SEO-SLAM)的新型SLAM
    的頭像 發(fā)表于 12-05 10:00 ?2153次閱讀
    利用VLM和MLLMs實(shí)現(xiàn)SLAM<b class='flag-5'>語(yǔ)義</b>增強(qiáng)