chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

TLDR: 視頻分割一直是重標(biāo)注的一個(gè)task,這篇CVPR 2023文章研究了完全不需要標(biāo)注的視頻物體分割。

CVer ? 來(lái)源:CVer ? 2023-07-12 14:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

TLDR: 視頻分割一直是重標(biāo)注的一個(gè)task,這篇CVPR 2023文章研究了完全不需要標(biāo)注的視頻物體分割。僅使用ResNet,RCF模型在DAVIS16/STv2/FBMS59上提升了7/9/5%。文章里還提出了不需要標(biāo)注的調(diào)參方法。代碼已公開(kāi)可用。

5a5d439a-2073-11ee-962d-dac502259ad0.png

Paper title: Bootstrapping Objectness from Videos by Relaxed Common Fate and Visual Grouping

arXiv: https://arxiv.org/abs/2304.08025

作者機(jī)構(gòu):UC Berkeley, MSRA, UMich

Project page: https://rcf-video.github.io/

Code and models: https://github.com/TonyLianLong/RCF-UnsupVideoSeg

視頻物體分割真的可以不需要人類(lèi)監(jiān)督嗎?

視頻分割一直是重標(biāo)注的一個(gè)task,可是要標(biāo)出每一幀上的物體是非常耗時(shí)費(fèi)力的。然而人類(lèi)可以輕松地分割移動(dòng)的物體,而不需要知道它們是什么類(lèi)別。為什么呢?

Gestalt定律嘗試解釋人類(lèi)是怎么分割一個(gè)場(chǎng)景的,其中有一條定律叫做Common Fate,即移動(dòng)速度相同的物體屬于同一類(lèi)別。比如一個(gè)箱子從左邊被拖到右邊,箱子上的點(diǎn)是均勻運(yùn)動(dòng)的,人就會(huì)把這個(gè)部分給分割出來(lái)理解。然而人并不需要理解這是個(gè)箱子來(lái)做這個(gè)事情,而且就算是嬰兒之前沒(méi)有見(jiàn)過(guò)箱子也能知道這是一個(gè)物體。

5aca276c-2073-11ee-962d-dac502259ad0.png

運(yùn)用Common Fate來(lái)分割視頻

這個(gè)定律啟發(fā)了基于運(yùn)動(dòng)的無(wú)監(jiān)督分割。然而,Common Fate并不是物體性質(zhì)的可靠指標(biāo):關(guān)節(jié)可動(dòng) (articulated) /可變形物體 (deformable objects) 的一些part可能不以相同速度移動(dòng),而物體的陰影/反射 (shadows/reflections) 始終隨物體移動(dòng),但并非其組成部分。

舉個(gè)例子,下面這個(gè)人的腿和身子的運(yùn)動(dòng)是不同的(Optical Flow可視化出來(lái)顏色不同)。這很常見(jiàn),畢竟人有關(guān)節(jié)嘛 (articulated),要是這個(gè)處理不了的話(huà),很多視頻都不能分割了。然而很多baseline是處理不了這點(diǎn)的(例如AMD+和OCLR),他們把人分割成了幾個(gè)部分。

5b2027ac-2073-11ee-962d-dac502259ad0.png

還有就是影子和反射,比如上面這只天鵝,它的倒影跟它的運(yùn)動(dòng)是一致的(Optical Flow可視化顏色一樣),所以之前的方法認(rèn)為天鵝跟倒影是一個(gè)物體。很多視頻里是有這類(lèi)現(xiàn)象的(畢竟大太陽(yáng)下物體都有個(gè)影子嘛),如果這個(gè)處理不了的話(huà),很多視頻也不能分割了。

那怎么解決?放松。Relax.

長(zhǎng)話(huà)短說(shuō),那我們的方法是怎么解決這個(gè)問(wèn)題的呢?無(wú)監(jiān)督學(xué)習(xí)的一個(gè)特性是利用神經(jīng)網(wǎng)絡(luò)自己內(nèi)部的泛化和擬合能力進(jìn)行學(xué)習(xí)。既然Common Fate有自己的問(wèn)題,那么我們沒(méi)有必要強(qiáng)制神經(jīng)網(wǎng)絡(luò)去擬合Common Fate。于是我們提出了Relaxed Common Fate,通過(guò)一個(gè)比較弱的學(xué)習(xí)方式讓神經(jīng)網(wǎng)絡(luò)真正學(xué)到物體的特性而不是noise。

具體來(lái)說(shuō),我們的方法認(rèn)為物體運(yùn)動(dòng)由兩部分組成:物體總體的piecewise-constant motion (也就是Common Fate)和物體內(nèi)部的segment motion。比如你看下圖這個(gè)舞者,他全身的運(yùn)動(dòng)就可以被理解成piecewise-constant motion來(lái)建模,手部腿部這些運(yùn)動(dòng)就可以作為residual motion進(jìn)行擬合,最后合并成一個(gè)完整的flow,跟RAFT生成的flow進(jìn)行比較來(lái)算loss。我們用的RAFT是用合成數(shù)據(jù)(FlyingChairs和FlyingThings)進(jìn)行訓(xùn)練的,不需要人工標(biāo)注。

5b4f6800-2073-11ee-962d-dac502259ad0.png

Relaxed Common Fate

首先我們使用一個(gè)backbone來(lái)進(jìn)行特征提取,然后通過(guò)一個(gè)簡(jiǎn)單的full-convolutional network獲得Predicted Masks $hat{M}$(下圖里的下半部分),和一般的分割框架是一樣的,也可以切換成別的框架。

那我們?cè)趺磧?yōu)化這些Masks呢?我們先提取、合并兩幀的特征,放入一個(gè)residual flow prediction head來(lái)獲得Residual Flow $hat{R}$ (下圖里的上半部分)。

然后我們對(duì)RAFT獲得的Flow用Predicted Masks $hat{M}$進(jìn)行Guided Pooling,獲得一個(gè)piecewise-constant flow,再加上預(yù)測(cè)的residual flow,就是我們的flow prediction了。最后把flow prediction和RAFT獲得的Flow的差算一個(gè)L1 norm Loss進(jìn)行優(yōu)化,以此來(lái)學(xué)習(xí)segmentation。

在測(cè)試的時(shí)候,只有Predicted Masks $hat{M}$ 是有用的,其他部分是不用的。

5b95f8f6-2073-11ee-962d-dac502259ad0.png

這里的Residual Flow會(huì)盡量初始化得小一些,來(lái)鼓勵(lì)先學(xué)piecewise-constant的部分(有點(diǎn)類(lèi)似ControlNet),再慢慢學(xué)習(xí)residual部分。

引入Appearance信息來(lái)幫助無(wú)監(jiān)督視頻分割

光是Relaxed Common Fate就能在DAVIS上相對(duì)baseline提5%了,但這還不夠。前面說(shuō)Relaxed Common Fate的只用了motion而沒(méi)有使用appearance信息。

讓我們?cè)俅位氐缴厦孢@個(gè)例子。這個(gè)舞者的手和身子是一個(gè)顏色,然而AMD+直接把舞者的手忽略了。下面這只天鵝和倒影明明在appearance上差別這么大,卻在motion上沒(méi)什么差別。如果整合appearance和motion,是不是能提升分割質(zhì)量呢?

5bb4182c-2073-11ee-962d-dac502259ad0.png

因此我們引入了Appearance 來(lái)進(jìn)行進(jìn)一步的監(jiān)督。在學(xué)習(xí)完motion信息之后,我們直接把取得的Mask進(jìn)行兩步優(yōu)化:一個(gè)是low-level的CRF refinement,強(qiáng)調(diào)顏色等細(xì)節(jié)一致的地方應(yīng)該屬于同一個(gè)mask(或背景),一個(gè)是semantic constraint,強(qiáng)調(diào)Unsupervised Feature一直的地方應(yīng)該屬于同一個(gè)mask。

把優(yōu)化完的mask再和原mask進(jìn)行比較,計(jì)算L2 Loss,再更新神經(jīng)網(wǎng)絡(luò)。這樣訓(xùn)練的模型的無(wú)監(jiān)督分割能力可以進(jìn)一步提升。具體細(xì)節(jié)歡迎閱讀原文。

5bf4316e-2073-11ee-962d-dac502259ad0.png

無(wú)監(jiān)督調(diào)參

很多無(wú)監(jiān)督方法都需要使用有標(biāo)注的數(shù)據(jù)集來(lái)調(diào)參,而我們的方法提出可以利用前面說(shuō)的motion和appearance的一致性來(lái)進(jìn)行調(diào)參。簡(jiǎn)單地說(shuō),motion學(xué)習(xí)出的mask在appearance上不一致代表這個(gè)參數(shù)可能不是最優(yōu)的。具體方法是在Unsupervised Feature上計(jì)算Normalized Cuts (但是不用算出最優(yōu)值),Normalized Cuts越小越代表分割效果好。原文里面對(duì)此有詳細(xì)描述。

方法效果

無(wú)論是否有Post-processing,我們的方法在三個(gè)視頻分割數(shù)據(jù)集上都有很大提升,在STv2上更是提升了12%。

5c19869e-2073-11ee-962d-dac502259ad0.png

Ablation可以看出Residual pathway (Relaxed Common Fate)的貢獻(xiàn)是最大的,其他部分總計(jì)貢獻(xiàn)了11.9%的增長(zhǎng)。

5c2ed2ba-2073-11ee-962d-dac502259ad0.png

Visualizations

5c55c0dc-2073-11ee-962d-dac502259ad0.png

5db3ac5a-2073-11ee-962d-dac502259ad0.png

總結(jié)

這篇CVPR 2023文章研究了完全不需要標(biāo)注的視頻物體分割。通過(guò)Relaxed Common Fate來(lái)利用motion信息,再通過(guò)改進(jìn)和利用appearance信息來(lái)進(jìn)一步優(yōu)化,RCF模型在DAVIS16/STv2/FBMS59上提升了7/9/5%。文章里還提出了不需要標(biāo)注的調(diào)參方法。代碼和模型已公開(kāi)可用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:TLDR: 視頻分割一直是重標(biāo)注的一個(gè)task,這篇CVPR 2023文章研究了完全不需要標(biāo)注的視頻物體分割。

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    手機(jī)板 layout 走線(xiàn)跨分割問(wèn)題

    初學(xué)習(xí)layout時(shí),都在說(shuō)信號(hào)線(xiàn)不可跨分割,但是在工作中為了成本不能跨分割似乎也非絕對(duì)。 在后續(xù)工作中,跨分割的基礎(chǔ)都是相鄰層有面完整的GND參考,跨
    發(fā)表于 09-16 14:56

    淺析多模態(tài)標(biāo)注對(duì)大模型應(yīng)用落地的重要性與標(biāo)注實(shí)例

    ”的關(guān)鍵工序——多模態(tài)標(biāo)注重要性日益凸顯。 、什么是多模態(tài)標(biāo)注? 多模態(tài)標(biāo)注是指對(duì)文本、圖像、語(yǔ)音、視頻、點(diǎn)云等異構(gòu)數(shù)據(jù)進(jìn)行跨模態(tài)語(yǔ)義關(guān)聯(lián)
    的頭像 發(fā)表于 09-05 13:49 ?357次閱讀

    請(qǐng)問(wèn)AICube所需的目標(biāo)檢測(cè)數(shù)據(jù)集標(biāo)注可以使用什么工具?

    請(qǐng)問(wèn)AICube所需的目標(biāo)檢測(cè)數(shù)據(jù)集標(biāo)注可以使用什么工具? 我使用labelimg進(jìn)行標(biāo)注,標(biāo)注后的數(shù)據(jù)集改好文件名后導(dǎo)入不進(jìn)去。一直卡在數(shù)據(jù)解析界面。 下圖所示,數(shù)據(jù)集文件夾目錄,以
    發(fā)表于 08-11 08:07

    自動(dòng)駕駛數(shù)據(jù)標(biāo)注主要是標(biāo)注什么?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在自動(dòng)駕駛系統(tǒng)的研發(fā)過(guò)程中,數(shù)據(jù)標(biāo)注是實(shí)現(xiàn)高性能感知模型的基礎(chǔ)環(huán)節(jié),其核心目標(biāo)是將車(chē)輛從環(huán)境中采集到的原始感知數(shù)據(jù)(主要包括圖像、點(diǎn)云、視頻序列等)轉(zhuǎn)化為具有語(yǔ)義信息
    的頭像 發(fā)表于 07-30 11:54 ?648次閱讀
    自動(dòng)駕駛數(shù)據(jù)<b class='flag-5'>標(biāo)注</b>主要是<b class='flag-5'>標(biāo)注</b>什么?

    什么是自動(dòng)駕駛數(shù)據(jù)標(biāo)注?如何好做數(shù)據(jù)標(biāo)注?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在自動(dòng)駕駛系統(tǒng)的開(kāi)發(fā)過(guò)程中,數(shù)據(jù)標(biāo)注項(xiàng)至關(guān)重要的工作。它不僅決定模型訓(xùn)練的質(zhì)量,也直接影響了車(chē)輛感知、決策與控制的性能表現(xiàn)。隨著傳感器種類(lèi)和數(shù)據(jù)量的劇增,有效
    的頭像 發(fā)表于 07-09 09:19 ?736次閱讀
    什么是自動(dòng)駕駛數(shù)據(jù)<b class='flag-5'>標(biāo)注</b>?如何好做數(shù)據(jù)<b class='flag-5'>標(biāo)注</b>?

    AI時(shí)代 圖像標(biāo)注不要沒(méi)苦硬吃

    視頻就多達(dá)兩三百?gòu)埉?huà)面需要標(biāo)注,如果視頻時(shí)長(zhǎng)或者視頻的幀速率增加,需要
    的頭像 發(fā)表于 05-20 17:54 ?345次閱讀
    AI時(shí)代   圖像<b class='flag-5'>標(biāo)注</b>不要沒(méi)苦硬吃

    cypress3014視頻格式改變的話(huà),GPIF狀態(tài)機(jī)需不需要重新配置?

    你好,請(qǐng)問(wèn)視頻格式改變的話(huà),GPIF狀態(tài)機(jī)需不需要重新配置
    發(fā)表于 05-14 07:28

    東軟集團(tuán)入選國(guó)家數(shù)據(jù)局?jǐn)?shù)據(jù)標(biāo)注優(yōu)秀案例

    近日,東軟飛標(biāo)醫(yī)學(xué)影像標(biāo)注平臺(tái)在國(guó)家數(shù)據(jù)局發(fā)布數(shù)據(jù)標(biāo)注優(yōu)秀案例集名單中排名第(案例名稱(chēng)“多模態(tài)醫(yī)學(xué)影像智能數(shù)據(jù)標(biāo)注平臺(tái)”)。評(píng)選專(zhuān)家認(rèn)為東軟案例取得了顯著成效,
    的頭像 發(fā)表于 05-09 14:37 ?871次閱讀

    自動(dòng)化標(biāo)注技術(shù)推動(dòng)AI數(shù)據(jù)訓(xùn)練革新

    標(biāo)貝自動(dòng)化數(shù)據(jù)標(biāo)注平臺(tái)在全棧數(shù)據(jù)標(biāo)注場(chǎng)景式中搭載大模型預(yù)標(biāo)注和自動(dòng)化標(biāo)注能力,并應(yīng)用于3D點(diǎn)云、2D圖像、音頻、文本等數(shù)據(jù)場(chǎng)景的大規(guī)模、復(fù)
    的頭像 發(fā)表于 03-14 16:46 ?965次閱讀

    ADS1274的DRDY一直是高電平,為什么?

    引腳還是一直是高電平。通過(guò)DIN和sclk輸入數(shù)據(jù)時(shí),DRDY輸出高電平脈沖。DOUT有數(shù)據(jù)。ADS1274壞了嗎?
    發(fā)表于 02-06 07:07

    AI自動(dòng)圖像標(biāo)注工具SpeedDP將是數(shù)據(jù)標(biāo)注行業(yè)發(fā)展的重要引擎

    AI大浪潮下,許多企業(yè)都在不斷借助AI來(lái)提升自己的行業(yè)競(jìng)爭(zhēng)力,數(shù)據(jù)標(biāo)注企業(yè)也不例外,傳統(tǒng)人工標(biāo)注效率不足的弊端困擾多年,如今新的“引擎”就在眼前,他們當(dāng)然不會(huì)放過(guò)這個(gè)機(jī)會(huì)。針對(duì)這樣的需求,慧視光電
    的頭像 發(fā)表于 01-02 17:53 ?1030次閱讀
    AI自動(dòng)圖像<b class='flag-5'>標(biāo)注</b>工具SpeedDP將是數(shù)據(jù)<b class='flag-5'>標(biāo)注</b>行業(yè)發(fā)展的重要引擎

    ads1220 DRDY信號(hào)一直是高,怎么解決?

    你好,我根據(jù)ti官方的ads1220的例程,改的程序,發(fā)送的spi信號(hào)都是對(duì)的,接受信號(hào),通過(guò)示波器觀察波形,是條直線(xiàn),都是高電平,而且DRDY信號(hào)一直是高,請(qǐng)問(wèn)我改如何分析。謝謝
    發(fā)表于 12-25 07:45

    標(biāo)貝數(shù)據(jù)標(biāo)注在智能駕駛訓(xùn)練中的落地案例

    標(biāo)貝科技深耕AI數(shù)據(jù)服務(wù)多年,在無(wú)人駕駛、自動(dòng)駕駛等智能駕駛領(lǐng)域擁有豐富的合作案例。多次采用點(diǎn)云標(biāo)注以及3D&2D融合等標(biāo)注方式為智能駕駛領(lǐng)域客戶(hù)提供環(huán)境感知、決策策劃、車(chē)道線(xiàn)標(biāo)注、障礙物監(jiān)測(cè)、道路標(biāo)志牌
    的頭像 發(fā)表于 12-24 15:17 ?2652次閱讀
    標(biāo)貝數(shù)據(jù)<b class='flag-5'>標(biāo)注</b>在智能駕駛訓(xùn)練中的落地案例

    ADS1672轉(zhuǎn)換輸出,DRDY管腳一直是高電平,為什么?

    ADS1672轉(zhuǎn)換輸出有點(diǎn)問(wèn)題DRDY管腳一直是高電平 沒(méi)有變低 一直是高電平 這是ADS1672的原理圖 使用的SPI接口sclk 和drdy_n pwdn,start管腳上電就置高
    發(fā)表于 12-24 06:39

    想找個(gè)AGC的芯片,不需要軟件控制的 ,完全硬件AGC,求推薦

    想找個(gè)AGC的芯片完全硬件AGC不需要軟件控制的價(jià)格20元以下
    發(fā)表于 10-28 06:21