chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

SiamRPN:High Performance Visual Tracking with Siamese Region Proposal Network 孿生網(wǎng)絡

jf_96884364 ? 來源:代碼的路 ? 作者: 代碼的路 ? 2023-01-11 17:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

原文鏈接

論文地址:http://openaccess.thecvf.com/content_cvpr_2018/papers/Li_High_Performance_Visual_CVPR_2018_paper.pdf

摘要

大多數(shù)性能優(yōu)越的視覺目標跟蹤器很難有實時速度。在這篇文章中,我們提出了孿生候選區(qū)域生成網(wǎng)絡(Siamese region proposal network),簡稱Siamese-RPN,它能夠利用大尺度的圖像對離線端到端訓練。具體來講,這個結(jié)構(gòu)包含用于特征提取的 孿生子網(wǎng)絡 (Siamese subnetwork)和 候選區(qū)域生成網(wǎng)絡 (region proposal subnetwork),其中候選區(qū)域生成網(wǎng)絡包含分類回歸兩條支路。在跟蹤階段,我們提出的方法被構(gòu)造成為單樣本檢測任務(one-shot detection task)。

我們預先計算孿生子網(wǎng)絡中的模板支路,也就是第一幀,并且將它構(gòu)造成一個檢測支路中區(qū)域提取網(wǎng)絡里面的一個卷積層,用于在線跟蹤。得益于這些改良,傳統(tǒng)的多尺度測試和在線微調(diào)可以被舍棄,這樣做也大大提高了速度。Siamese-RPN跑出了160FPS的速度,并且在VOT2015,VOT2016和VOT2017上取得了領先的成績。

1.引言

與適當設計的最先進的基于相關濾波器的方法相比,基于離線訓練的基于深度學習的跟蹤器可以獲得較好的結(jié)果。關鍵是候選的孿生候選區(qū)域生成網(wǎng)絡(Siamese-RPN)。它由模板分支檢測分支組成,它們以端到端的方式對大規(guī)模圖像對進行離線訓練。受到最先進的候選區(qū)域提取方法RPN 的啟發(fā),我們對相關feature map進行提議提取。與標準RPN不同,我們使用兩個分支的相關特征映射進行提議提取。在跟蹤任務中,我們沒有預定義的類別,因此我們需要模板分支將目標的外觀信息編碼到RPN要素圖中以區(qū)分前景和背景。

在跟蹤階段,作者將此任務視為單目標檢測任務(one-shot detection),什么意思呢,就是把第一幀的bb視為檢測的樣例,在其余幀里面檢測與它相似的目標。

綜上所述,作者的貢獻有以下三點:

1.提出了Siamese region proposal network,能夠利用ILSVRC和YouTube-BB大量的數(shù)據(jù)進行離線端到端訓練。

2.在跟蹤階段將跟蹤任務構(gòu)造出局部單目標檢測任務。

3.在VOT2015, VOT2016和VOT2017上取得了領先的性能,并且速度能都達到160fps。

2.相關工作

2.1 RPN

RPN即Region Proposal Network,是用RON來選擇感興趣區(qū)域的,即proposal extraction。例如,如果一個區(qū)域的p>0.5,則認為這個區(qū)域中可能是80個類別中的某一類,具體是哪一類現(xiàn)在還不清楚。到此為止,網(wǎng)絡只需要把這些可能含有物體的區(qū)域選取出來就可以了,這些被選取出來的區(qū)域又叫做ROI(Region of Interests),即感興趣的區(qū)域。當然RPN同時也會在feature map上框定這些ROI感興趣區(qū)域的大致位置,即輸出Bounding Box。

RPN詳細介紹:https://mp.weixin.qq.com/s/VXgbJPVoZKjcaZjuNwgh-A

2.2 One-shot learning

最常見的例子就是人臉檢測,只知道一張圖片上的信息,用這些信息來匹配出要檢測的圖片,這就是單樣本檢測,也可以稱之為一次學習。

3 Siamese-RPN framework

3.1 SiamFC

SiamFC詳細介紹:https://mp.weixin.qq.com/s/kS9osb2JBXbgb_WGU_3mcQ

所謂的Siamese(孿生)網(wǎng)絡,是指網(wǎng)絡的主體結(jié)構(gòu)分上下兩支,這兩支像雙胞胎一樣,共享卷積層的權值。上面一支(z)稱為模板分支(template),用來提取模板幀的特征。φ表示一種特征提取方法,文中提取的是深度特征,經(jīng)過全卷積網(wǎng)絡后得到一個6×6×128的feature map φ(z)。下面一支(x)稱為檢測分支(search),是根據(jù)上一幀的結(jié)果在當前幀上crop出的search region。同樣提取了深度特征之后得到一個22×22×128的feature map φ(x)。模版支的feature map在當前幀的檢測區(qū)域的feature map上做匹配操作,可以看成是φ(z)在φ(x)上滑動搜索,最后得到一個響應圖,圖上響應最大的點就是對應這一幀目標的位置。

Siamese網(wǎng)絡的優(yōu)點在于,把tracking任務做成了一個檢測/匹配任務,整個tracking過程不需要更新網(wǎng)絡,這使得算法的速度可以很快(FPS:80+)。此外,續(xù)作CFNet將特征提取和特征判別這兩個任務做成了一個端到端的任務,第一次將深度網(wǎng)絡和相關濾波結(jié)合在一起學習。

Siamese也有明顯的缺陷:

1.模板支只在第一幀進行,這使得模版特征對目標的變化不是很適應,當目標發(fā)生較大變化時,來自第一幀的特征可能不足以表征目標的特征。至于為什么只在第一幀提取模版特征,我認為可能因為:

(1)第一幀的特征最可靠也最魯棒,在tracking過程中無法確定哪一幀的結(jié)果可靠的情況下,只用第一幀特征足以得到不錯的精度。

(2)只在第一幀提取模板特征的算法更精簡,速度更快。

2.Siamese的方法只能得到目標的中心位置,但是得不到目標的尺寸,所以只能采取簡單的多尺度加回歸,這即增加了計算量,同時也不夠精確。

網(wǎng)絡訓練原理

如圖所示,上一幀的目標模板與下一幀的搜索區(qū)域可以構(gòu)成很多對的模板-候選對(exemplar-candidate pair), 但是根據(jù)判別式跟蹤原理,僅僅下一幀的目標與上一幀的目標區(qū)域(即 exemplar of T frame-exemplar of T+1 frame)屬于模型的正樣本,其余大量的exemplar-candidate pair都是負樣本。這樣就完成了網(wǎng)絡結(jié)構(gòu)的端到端的訓練。

3.2 Siamese-RPN

左邊是孿生網(wǎng)絡結(jié)構(gòu),上下支路的網(wǎng)絡結(jié)構(gòu)和參數(shù)完全相同,上面是輸入第一幀的bounding box,靠此信息檢測候選區(qū)域中的目標,即模板幀。下面是待檢測幀,顯然,待檢測幀的搜索區(qū)域比模板幀的區(qū)域大。中間是RPN結(jié)構(gòu),又分為兩部分,上部分是分類支路,模板幀和檢測幀的經(jīng)過孿生網(wǎng)絡后的特征再經(jīng)過一個卷積層,模板幀特征經(jīng)過卷積層后變?yōu)?k×256通道,k是anchor數(shù)量,因為分為兩類,所以是2k。下面是邊界框回歸支路,因為有四個量[x, y, w, h],所以是4k右邊是輸出。

3.3 孿生特征提取子網(wǎng)絡

預訓練的AlexNet,剔除了conv2 conv4兩層 。φ(z)是模板幀輸出,φ(x)是檢測幀輸出

3.4 候選區(qū)域提取子網(wǎng)絡

分類支路和回歸支路分別對模板幀和檢測幀的特征進行卷積運算:

A^{cls}{w×h×2k}=[\\psi(x)]{cls}×[\\psi(z)]{cls}\\
A^{reg}
{w×h×4k}=[\\psi(x)]{reg}×[\\psi(z)]{reg}

**A^{cls}{w×h×2k}**包含2k個通道向量,中的每個點表示正負激勵,通過交叉熵損失分類;**A^{reg}{w×h×4k}**包含4k個通道向量,每個點表示anchor和gt之間的dx,dy,dw,dh,通過smooth L1 損失得到:

\\delta[0]=\\frac{T_x-A_x}{A_w},
\\delta[1]=\\frac{T_y-A_y}{A_h}\\
\\delta[2]=ln\\frac{T_w}{A_w},
\\delta[3]=ln\\frac{T_h}{A_h}

Ax, Ay, Aw, Ah是anchor boxes中心點坐標和長寬; Tx, Ty, Tw, Th是gt boxes,為什么要這樣呢,因為不同圖片之間的尺寸存在差異,要對它們做正規(guī)化。

smoothL1損失:

smooth_{L1}(x,\\sigma)=\\begin{cases} 0.5\\sigma^2x^2, & \\text |x|<\\frac{1}{{\\sigma^2}} \\ |x|-\\frac{1}{{2\\sigma^2}}, & \\text |x|≥\\frac{1}{{\\sigma^2}} \\end{cases}

3.5 訓練階段:端到端訓練孿生RPN

因為跟蹤中連續(xù)兩幀的變化并不是很大,所以anchor只采用一種尺度,5種不同的長寬比(與RPN中的3×3個anchor不同)。當IoU大于0.6時是前景,小于0.3時是背景。

4. Tracking as one-shot detection

平均損失函數(shù)L:

\\min_{W'} \\frac{1}{n} \\sum_{i=1}^n L(\\psi(x_i;w(z_i,W')),l_i)

如上所述,讓z表示模板patch,x表示檢測patch,函數(shù)φ表示Siamese特征提取子網(wǎng),函數(shù)ζ表示區(qū)域建議子網(wǎng),則一次性檢測任務可以表示為:

\\min_{W} \\frac{1}{n} \\sum_{i=1}^n L(\\zeta(\\psi(x_i;W);\\psi(z_i;W)),l_i)

如圖,紫色的部分像原始的Siamese網(wǎng)絡,經(jīng)過同一個CNN之后得到了兩個feature map,藍色的部分是RPN。模板幀在RPN中經(jīng)過卷積層,** \\phi (x){reg}** 和 ** \\phi (x){cls}** 當作檢測所用的核。

簡單的說,就是預訓練模版分支,利用第一幀的目標特征輸出一系列weights,而這些weights,包含了目標的信息,作為檢測分支RPN網(wǎng)絡的參數(shù)去detect目標。這樣做的好處是:

(1)模板支能學到一個encode了目標的特征,用這個特征去尋找目標,這會比直接用第一幀的feature map去做匹配更魯棒。

(2)相比原始的Siamese網(wǎng)絡,RPN網(wǎng)絡可以直接回歸出目標的坐標和尺寸,既精確,又不需要像multi-scale一樣浪費時間。

經(jīng)過網(wǎng)絡后,我們將分類和回歸特征映射表示為點集:

A^{cls}{w×h×2k}={(x_i^{cls},y_j^{cls},c_l^{cls})}\\
A^{reg}
{w×h×4k}={(x_i^{reg},y_i^{reg},dx_p^{reg},dy_p^{reg},dw_p^{reg},dh_p^{reg})}\\
i∈[0,w),j∈[0,h),l∈[0,2k),p∈[0,k)

由于分類特征圖上的奇數(shù)通道代表正激活,我們收集所有**A^{cls}_{w×h×2k}**中的前K個點,其中l(wèi)是奇數(shù),并表示點集為:

CLS^*={(x_i^{cls},y_j^{cls},c_l^{cls})_{i∈I,j∈J,l∈L}}

其中I,J,L是一些索引集。

變量i和j分別編碼相應錨點的位置,l編碼相應錨點的比率,因此我們可以導出相應的錨點集合為:

ANC^*={(x_i^{an},y_j^{an},w_l^{an},h_l^{an})_{i∈I,j∈J,l∈L}}

此外,我們發(fā)現(xiàn)**A^{cls}_{w×h×2k}**上ANC*的激活得到相應的細化坐標為:

FEG^*={(x_i^{reg},y_j^{reg},dx_l^{reg},dy_l^{reg},dw_l^{reg},dh_l^{reg})_{i∈I,j∈J,l∈L}}

因為是分類,**A^{cls}_{w×h×2k}**選前k個點,分兩步選擇:

第一步,舍棄掉距離中心太遠的bb,只在一個比原始特征圖小的固定正方形范圍里選擇,如下圖:

中心距離為7,仔細看圖可以看出,每個網(wǎng)格都有k個矩形。

第二步,用余弦窗(抑制距離過大的)和尺度變化懲罰(抑制尺度大變化)來對proposal進行排序,選最好的。具體公式可看論文。

用這些點對應的anchor box結(jié)合回歸結(jié)果得出bounding box:

x_i^{pro}=x_i^{an}+dx_l^{reg}*w_l^{an}

y_j^{pro}=y_j^{an}+dy_l^{reg}*h_l^{an}\\

w_l^{pro}=w_l^{an}*e^{dw_l}\\

h_l^{pro}=h_l^{an}*e^{dh_l}

an就是anchor的框,pro是最終得出的回歸后的邊界框 至此,proposals set就選好了。

然后再通過非極大抑制(NMS),顧名思義,就是將不是極大的框都去除掉,由于anchor一般是有重疊的overlap,因此,相同object的proposals也存在重疊。為了解決重疊proposal問題,采用NMS算法處理:兩個proposal間IoU大于預設閾值,則丟棄score較低的proposal。

IoU閾值的預設需要謹慎處理,如果IoU值太小,可能丟失objects的一些 proposals;如果IoU值過大,可能會導致objects出現(xiàn)很多proposals。IoU典型值為0.6。

5.實施細節(jié)

我們使用從ImageNet [28]預訓練的改進的AlexNet,前三個卷積層的參數(shù)固定,只調(diào)整Siamese-RPN中的最后兩個卷積層。這些參數(shù)是通過使用SGD優(yōu)化等式5中的損耗函數(shù)而獲得的。共執(zhí)行了50個epoch,log space的學習率從10-2降低到10-6。我們從VID和Youtube-BB中提取圖像對,通過選擇間隔小于100的幀并執(zhí)行進一步的裁剪程序。如果目標邊界框的大小表示為(w,h),我們以大小A×A為中心裁剪模板補丁,其定義如下:

(w+p)×(h+p)=A^2

其中p =(w + h)/2

之后將其調(diào)整為127×127。以相同的方式在當前幀上裁剪檢測補丁,其大小是模板補丁的兩倍,然后調(diào)整為255×255。

在推理階段,由于我們將在線跟蹤制定為一次性檢測任務,因此沒有在線適應。我們的實驗是在帶有Intel i7,12G RAM,NVidia GTX 1060的PC上使用PyTorch實現(xiàn)的。

學習更多編程知識,請關注我的公眾號:

[代碼的路]

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    HIP5061 HIGH EFFICIENCY, HIGH PERFORMANCE,HIGH POWER CONVERTER

    efficiency, high performance andhigh power converters continues to expand. Demand forsmaller, lighter
    發(fā)表于 05-12 11:13

    high performance stereo routin

    high performance stereo routing switcher
    發(fā)表于 04-18 20:37 ?48次下載
    <b class='flag-5'>high</b> <b class='flag-5'>performance</b> stereo routin

    Designing a High Performance S

    Designing a High Performance SDRAM Controller Using ispMACH Devices Synchronous DRAMs have become
    發(fā)表于 05-14 11:03 ?28次下載

    Designing a High Performance S

    Designing a High Performance SDRAM Controller Using ispMACH Devices Synchronous DRAMs have become
    發(fā)表于 06-14 08:55 ?24次下載

    High-performance RF design for

    High-performance RF design for PXI:PXI presents a significant opportunity for RF instrumentation.
    發(fā)表于 07-23 22:50 ?11次下載

    GC5325 Envelope Tracking

    Solutiondevice operating in conjunction with a Nujira High Accuracy Tracking (HAT) Voltage Modulator in anEnvelope Tr
    發(fā)表于 07-08 17:40 ?13次下載

    Use high-performance simultane

    This application note will help the designer of high-performance multichannel data acquisition
    發(fā)表于 07-04 12:15 ?8053次閱讀
    Use <b class='flag-5'>high-performance</b> simultane

    文本匹配任務中常用的孿生網(wǎng)絡

    Siamese”中的“Siam”是古時泰國的稱呼,中文譯作暹羅,所以“Siamese”就是指“暹羅”人或“泰國”人?!?b class='flag-5'>Siamese”在英語中同時表示“孿生”,這又是為什么呢?
    的頭像 發(fā)表于 03-05 15:47 ?4045次閱讀
    文本匹配任務中常用的<b class='flag-5'>孿生</b><b class='flag-5'>網(wǎng)絡</b>

    基于信息熵的級聯(lián)Siamese網(wǎng)絡目標跟蹤方法

    目標跟蹤是計算機視覺領域的一個重要研究方向,針對目前算法對于目標外觀變化的魯棒性較差等問題,提出了一種基于信息熵的級聯(lián) Siamese網(wǎng)絡目標跟蹤方法。首先利用孿生神經(jīng)網(wǎng)絡
    發(fā)表于 05-07 14:11 ?1次下載

    RPN:Region Proposal Networks (區(qū)域候選網(wǎng)絡)

    圖片在輸入網(wǎng)絡后,依次經(jīng)過一系列卷積+ReLU得到的51×39×256維feature map,準備后續(xù)用來選取proposal
    的頭像 發(fā)表于 01-11 16:55 ?1883次閱讀
    RPN:<b class='flag-5'>Region</b> <b class='flag-5'>Proposal</b> Networks (區(qū)域候選<b class='flag-5'>網(wǎng)絡</b>)

    SiamFC:用于目標跟蹤的全卷積孿生網(wǎng)絡 fully-convolutional siamese networks for object tracking

    原文鏈接 SiamFC網(wǎng)絡 圖中z代表的是模板圖像,算法中使用的是第一幀的ground truth;x代表的是search region,代表在后面的待跟蹤幀中的候選框搜索區(qū)域;?代表的是一種特征
    的頭像 發(fā)表于 01-11 17:35 ?2100次閱讀
    SiamFC:用于目標跟蹤的全卷積<b class='flag-5'>孿生</b><b class='flag-5'>網(wǎng)絡</b> fully-convolutional <b class='flag-5'>siamese</b> networks for object <b class='flag-5'>tracking</b>

    SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks 深層網(wǎng)絡連體視覺跟蹤的演變

    /SiamRPN_plus_plus_PyTorch 摘要 基于孿生網(wǎng)絡的跟蹤器將跟蹤表述為目標模板和搜索區(qū)域之間的卷積特征互相關。然而孿生網(wǎng)絡
    的頭像 發(fā)表于 01-11 17:52 ?1642次閱讀
    <b class='flag-5'>SiamRPN</b>++: Evolution of <b class='flag-5'>Siamese</b> <b class='flag-5'>Visual</b> <b class='flag-5'>Tracking</b> with Very Deep Networks  深層<b class='flag-5'>網(wǎng)絡</b>連體視覺跟蹤的演變

    SA-Siam:用于實時目標跟蹤的孿生網(wǎng)絡A Twofold Siamese Network for Real-Time Object Tracking

    /He_A_Twofold_Siamese_CVPR_2018_paper.pdf 摘要 1.本文核心一:將圖像分類任務中的 語義特征 (Semantic features) 與相似度匹配任務中的 外觀特征(Appearance features)互補結(jié)合,非常適合
    的頭像 發(fā)表于 01-11 17:54 ?1570次閱讀
    SA-Siam:用于實時目標跟蹤的<b class='flag-5'>孿生</b><b class='flag-5'>網(wǎng)絡</b>A Twofold <b class='flag-5'>Siamese</b> <b class='flag-5'>Network</b> for Real-Time Object <b class='flag-5'>Tracking</b>

    DW-Siam:Deeper and Wider Siamese Networks for Real-Time Visual Tracking 更寬更深的孿生網(wǎng)絡

    原文鏈接 論文地址:https://arxiv.org/pdf/1901.01660.pdf 摘要 目前在孿生網(wǎng)絡追蹤器中使用的主干網(wǎng)絡相對較淺,例AlexNet。本文研究如何利用更深和更廣的卷積
    的頭像 發(fā)表于 01-12 09:24 ?1312次閱讀
    DW-Siam:Deeper and Wider <b class='flag-5'>Siamese</b> Networks for Real-Time <b class='flag-5'>Visual</b> <b class='flag-5'>Tracking</b> 更寬更深的<b class='flag-5'>孿生</b><b class='flag-5'>網(wǎng)絡</b>

    GA-RPN:Region Proposal by Guided Anchoring 引導錨點的建議區(qū)域網(wǎng)絡

    Detection Toolbox and Benchmark 1.RPN RPN即Region Proposal Network,是用RON來選擇感興趣區(qū)域的,即proposal
    的頭像 發(fā)表于 01-12 09:32 ?1154次閱讀
    GA-RPN:<b class='flag-5'>Region</b> <b class='flag-5'>Proposal</b> by Guided Anchoring 引導錨點的建議區(qū)域<b class='flag-5'>網(wǎng)絡</b>