Daimler公司研發(fā)組2017年寫的一篇綜述,主要總結(jié)當(dāng)時深度學(xué)習(xí)如何在多目標(biāo)跟蹤應(yīng)用的工作。
一個多目標(biāo)跟蹤系統(tǒng)的框架大同小異,如圖所示,數(shù)據(jù)相關(guān)(data association),狀態(tài)預(yù)測(state prediction),狀態(tài)更新(state update)和跟蹤管理(track management)幾個部分。

下圖是通用的多目標(biāo)跟蹤系統(tǒng)框架。

而應(yīng)用深度學(xué)習(xí)在目標(biāo)跟蹤中的方法可總結(jié)為四種途徑(如上圖):
1)?特征學(xué)習(xí)(表觀模型部分).?如經(jīng)典的CNN 2)?數(shù)據(jù)相關(guān)部分.?比如Siamese 網(wǎng)絡(luò)加 Hungarian算法/LSTM 3)?端到端學(xué)習(xí)法(比較具有挑戰(zhàn)性).?如RNN/LSTM 4)?狀態(tài)預(yù)測(運動/軌跡).?如Behavior-CNN,Social-LSTM,Occupancy Grid Map等等 ?
下面對每個途徑介紹一兩個例子。
feature learning

L. Wang, W. Ouyang, X. Wang, and H. Lu, “Visual Tracking with Fully Convolutional Networks,” in ICCV, 2015?

2. Data Association

L. Leal-Taixe, C. Canton-Ferrer, and K. Schindler, “Learning by Tracking: Siamese CNN for Robust target association,” in CVPRW, 2016?

3. Prediction

A. Alahi, K. Goel, V. Ramanathan, A. Robicquet, L. Fei-Fei, and S. Savarese, “Social LSTM: Human Trajectory Prediction in Crowded Spaces,” in CVPR, 2016

S. Yi, H. Li, and X. Wang, “Pedestrian Behavior Understanding and Prediction with Deep Neural Networks” in ECCV, 2016

S. Hoermann, M. Bach, and K. Dietmayer, “Dynamic Occupancy Grid Prediction for Urban Autonomous Driving: A Deep Learning Approach with Fully Automatic Labeling?” in IV, 2017?

4. E2E

I. Posner and P. Ondruska, “Deep Tracking: Seeing Beyond Seeing Using Recurrent Neural Networks” in AAAI, 2016

A. Milan, S. H. Rezatofighi, A. Dick, K. Schindler, and I. Reid, “Online Multi-target Tracking using Recurrent Neural Networks” in AAAI, 2017

“ DEEP LEARNING IN VIDEO MULTI-OBJECT TRACKING: A SURVEY “,7,2019
這是最近的一篇MOT綜述文章。重點是介紹2D單目攝像頭數(shù)據(jù)方法。
MOT算法采用的標(biāo)準(zhǔn)方法是通過檢測進行跟蹤:通常從視頻幀中提取出一組檢測結(jié)果(即,標(biāo)識圖像中目標(biāo)的邊框),并用于引導(dǎo)跟蹤過程,即將相同ID分配給包含相同目標(biāo)的邊界框。因此,許多MOT算法任務(wù)實際是分配問題。
現(xiàn)代的檢測框架如SSD、YOLO和RCNN系列,確保了良好的檢測質(zhì)量,大多數(shù)MOT方法(除了某些例外)一直致力于改善關(guān)聯(lián)性。實際上,許多MOT數(shù)據(jù)集提供了一組標(biāo)準(zhǔn)的檢測方法,算法可以使用這些檢測方法,以便專門比較在關(guān)聯(lián)算法質(zhì)量上的性能,因為檢測器的性能會嚴(yán)重影響跟蹤結(jié)果。如圖是MOT算法的展示。

MOT算法也可以分為批處理和在線方法。在嘗試確定特定幀的目標(biāo)個體時,允許批處理跟蹤算法使用將來的信息(即來自將來的幀)。它們經(jīng)常利用全局信息提高跟蹤質(zhì)量。相反,在線跟蹤算法只能使用當(dāng)前和過去的信息來預(yù)測當(dāng)前幀。某些情況下是必需的,例如自動駕駛和機器人導(dǎo)航。與批處理方法相比,在線方法往往表現(xiàn)較差,因為它們無法使用將來的信息來修復(fù)過去的錯誤。重要的是,雖然要求實時算法以在線方式運行,但并非每種在線方法都必須實時運行;實際上,除了極少數(shù)例外,很多時候在線算法仍然太慢而無法在實時環(huán)境中使用,特別是深度學(xué)習(xí)算法通常會占用大量計算資源。
盡管方法種類繁多,大多數(shù)MOT算法共享以下部分或全部的步驟(如圖所示):
檢測階段:目標(biāo)檢測算法使用邊框分析每個輸入幀,識別屬于某種類別的目標(biāo),在MOT稱為“檢測”;
特征提取/運動預(yù)測階段:一種或多種特征提取算法分析檢測和/或軌跡,提取外觀、運動和/或交互特征??蛇x項是,運動預(yù)測器預(yù)測每個跟蹤目標(biāo)的下一個位置;
近似(Affinity )階段:特征和運動預(yù)測用于計算成對的檢測和/或小軌跡(tracklet)之間相似度/距離的得分;
關(guān)聯(lián)(Association)階段:通過相同ID分配給標(biāo)識相同目標(biāo)的檢測階段,相似度/距離度量將屬于同一目標(biāo)的檢測和小軌跡關(guān)聯(lián)起來。

"Deep Visual Tracking: review and experimental comparison", 2018
國內(nèi)一篇基于單攝像頭的單目標(biāo)跟蹤的綜述。
根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)特征和網(wǎng)絡(luò)訓(xùn)練將現(xiàn)有的基于深度學(xué)習(xí)的跟蹤器分為三類:
(1)卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型可以顯著提高跟蹤性能。 (2)卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型用于將被跟蹤目標(biāo)與其周圍背景區(qū)分開來的跟蹤器可以獲得更準(zhǔn)確的結(jié)果,而CNN模型的模板匹配通常會更快。 (3)有較深特征的跟蹤器的性能要比有低級手工特征的跟蹤器好得多。 (4)來自不同卷積層的深層特征有不同的性質(zhì),它們的有效組合通常會導(dǎo)致跟蹤器更健壯。 (5)使用端到端網(wǎng)絡(luò)的深度視覺跟蹤器通常比僅使用特征提取網(wǎng)絡(luò)的跟蹤器性能更好。 (6)視覺跟蹤最合適的網(wǎng)絡(luò)訓(xùn)練方法是對每個帶有視頻信息的網(wǎng)絡(luò)進行訓(xùn)練,并通過后續(xù)觀測量對其進行在線微調(diào)。
“Deep learning for multiple object tracking: a survey“,8,2019
這也是國內(nèi)最近的一篇MOT綜述文章。?
文章將基于DL的MOT方法大致分為三類:
使用深層網(wǎng)絡(luò)特征的多目標(biāo)跟蹤增強,其中語義特征是相關(guān)任務(wù)設(shè)計的深層神經(jīng)網(wǎng)絡(luò)所提取,替換先前跟蹤框架中的常規(guī)手工特征。在大多數(shù)情況下,從深度網(wǎng)絡(luò)提取的這些功能可以有效地提高跟蹤性能。
具有深度網(wǎng)絡(luò)嵌入的多目標(biāo)跟蹤,其中跟蹤框架的核心部分是使用深度神經(jīng)網(wǎng)絡(luò)設(shè)計的。例如,深度網(wǎng)絡(luò)的輸出被設(shè)計為對不同軌跡檢測的多分類得分,而二值深度分類器檢測是否屬于同一目標(biāo)。
通過端到端深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)進行多目標(biāo)跟蹤,其中直接設(shè)計深度網(wǎng)絡(luò)以獲得跟蹤結(jié)果。通常僅通過一個網(wǎng)絡(luò)很難獲得多目標(biāo)跟蹤結(jié)果,因為MOT跟蹤存在一些相互交織的子模塊。一些工作試圖通過一些假設(shè)(例如馬爾可夫性,固定分布等)來實現(xiàn)此目標(biāo)。
如圖是基于深度學(xué)習(xí)的MOT方法圖:

下表是所列MOT方法的細節(jié)對比。

Wojke, N., Bewley, A., Paulus, D.: ‘Simple online and realtime tracking with a deep association metric’. Proc. Int. Conf. on Image Processing, Beijing, China, 2017
下圖是深度SORT(Simple Online and Realtime Tracking)算法的示意圖:從wide residual network (WRN) 中提取用于分類的深層特征用于增強檢測和軌道之間的匹配(WRN的WRB – 殘差塊)。

Chu, Q., Ouyang, W., Li, H., et al.: ‘Online multi-object tracking using CNN- based single object tracker with spatial-temporal attention mechanism’.?Proc. IEEE Int. Conf. Computer Vision, Venice, Italy, 2017 ?
如圖是STAM(spatial-temporal attention mechanism)-MOT的框架:(a)構(gòu)造深度CNN學(xué)習(xí)空間注意力和特定目標(biāo)的分類器,(b)使用基于采樣的搜索方法來找到最佳候選者。

Milan, A., Rezatofighi, S.H., Dick, A.R., et al.: ‘Online multi-target tracking using recurrent neural networks’. Proc. AAAI, San Francisco, CA, USA, 2017
如圖是RNN(recurrent neural networks)-LSTM跟蹤框架:構(gòu)建一個基于RNN的網(wǎng)絡(luò)學(xué)習(xí)預(yù)測、更新狀態(tài)和終止概率?;贚STM的網(wǎng)絡(luò)用于在檢測和目標(biāo)之間找到最佳關(guān)聯(lián)。

總之,綜述中作者基于現(xiàn)有方法分析了深度特征遷移、神經(jīng)網(wǎng)絡(luò)嵌入和端到端網(wǎng)絡(luò)訓(xùn)練的機制。其次,討論深度網(wǎng)絡(luò)在跟蹤框架中的作用,以及訓(xùn)練這些網(wǎng)絡(luò)的問題。再者,根據(jù)常見的數(shù)據(jù)集和評估重新對這些多目標(biāo)跟蹤方法進行比較,并強調(diào)了各自方法的優(yōu)點和局限性。一方面,遠沒有足夠的標(biāo)記數(shù)據(jù)集來訓(xùn)練滿意的模型在任何條件下進行跟蹤。生成網(wǎng)絡(luò)有可能為深度學(xué)習(xí)模型的泛化鋪平道路。另一方面,為了應(yīng)對復(fù)雜環(huán)境(例如移動平臺)下跟蹤結(jié)果下降的事實,需要集成網(wǎng)絡(luò)模型學(xué)習(xí)這些動態(tài)場景的特征。另外,為了進一步適應(yīng)變化條件,學(xué)習(xí)跟蹤目標(biāo)高階或在線遷移的特征。
編輯:黃飛
電子發(fā)燒友App




















評論