chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

半監(jiān)督學(xué)習(xí),無(wú)監(jiān)督學(xué)習(xí),遷移學(xué)習(xí),表征學(xué)習(xí)以及小樣本學(xué)習(xí)

LiveVideoStack ? 來(lái)源:LiveVideoStack ? 作者:LiveVideoStack ? 2021-01-18 17:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2020年歐洲計(jì)算機(jī)視覺(jué)會(huì)議(ECCV)于8月23日至28日在網(wǎng)上舉行,由1360篇論文組成,包括104場(chǎng)orals,160場(chǎng)spotlights以及1096篇posters,共進(jìn)行有45場(chǎng)workshops和16場(chǎng)tutorials。與近年來(lái)的ML和CV會(huì)議一樣,有時(shí)大量的論文可能不勝枚舉。

半監(jiān)督學(xué)習(xí),無(wú)監(jiān)督學(xué)習(xí),遷移學(xué)習(xí),表征學(xué)習(xí)以及小樣本學(xué)習(xí)

Big Transfer (BiT): General Visual Representation Learning (paper)

(https://arxiv.org/abs/1912.11370) 在本文中,作者重新審視了遷移學(xué)習(xí)的簡(jiǎn)單范式:首先在一個(gè)大規(guī)模標(biāo)記數(shù)據(jù)集(例如JFT-300M和ImageNet-21k數(shù)據(jù)集)上進(jìn)行預(yù)訓(xùn)練,然后對(duì)目標(biāo)任務(wù)上的每個(gè)訓(xùn)練權(quán)重進(jìn)行精調(diào)任務(wù),減少目標(biāo)任務(wù)所需的數(shù)據(jù)量和優(yōu)化時(shí)間。作者們擬議的遷移學(xué)習(xí)框架是BiT(大轉(zhuǎn)移),由許多組件組成,包含了大量構(gòu)建有效模型的必需組件,使其能夠借助于大規(guī)模數(shù)據(jù)集學(xué)習(xí)到通用的、可遷移的特征表達(dá)。 在(上游)預(yù)訓(xùn)練方面,BiT包括以下內(nèi)容:

對(duì)于非常大的數(shù)據(jù)集,由于Batch Normalization(BN)在測(cè)試結(jié)果期間使用訓(xùn)練數(shù)據(jù)中的統(tǒng)計(jì)信息會(huì)導(dǎo)致訓(xùn)練/測(cè)試差異,在這種情況下,訓(xùn)練損失可以正確優(yōu)化和回傳,但是驗(yàn)證損失非常不穩(wěn)定。除了BN對(duì)批次大小的敏感性外。為了解決這個(gè)問(wèn)題,BiT既使用了Group Norm,又使用了Weight Norm,而不是Batch Norm。

諸如ResNet 50之類的小型模型無(wú)法從大規(guī)模數(shù)據(jù)集中受益,因此模型的大小也需要相應(yīng)地?cái)U(kuò)大規(guī)模,和數(shù)據(jù)集匹配。

對(duì)于(下游)目標(biāo)任務(wù),BiT建議以下內(nèi)容:

使用標(biāo)準(zhǔn)SGD優(yōu)化器,無(wú)需層凍結(jié),dropout,L2正規(guī)化或任何適應(yīng)梯度。別忘了把最后的預(yù)測(cè)層的權(quán)重初始化為0。

不用將所有輸入縮放為固定大小,例如224。在訓(xùn)練過(guò)程中,輸入圖像會(huì)隨機(jī)調(diào)整大小并裁剪為具有隨機(jī)選擇大小的正方形,并隨機(jī)水平翻轉(zhuǎn)。在測(cè)試階段,圖像會(huì)被縮放為固定大小,

盡管對(duì)于數(shù)據(jù)量充足的大規(guī)模數(shù)據(jù)集預(yù)訓(xùn)練來(lái)說(shuō),mixup 并沒(méi)有多大用處,但BiT發(fā)現(xiàn)misup正則化對(duì)于用于下游任務(wù)的中型數(shù)據(jù)集訓(xùn)練非常有用。

Learning Visual Representations with Caption Annotations

(https://arxiv.org/abs/2008.01392) 在大規(guī)模標(biāo)注的數(shù)據(jù)集上訓(xùn)練深度模型不僅可以使手頭的任務(wù)表現(xiàn)良好,還可以使模型學(xué)習(xí)對(duì)于下游任務(wù)的有用特征形式。但是,我們是否可以在不使用如此昂貴且細(xì)粒度的標(biāo)注數(shù)據(jù)的情況下獲得類似的特征表達(dá)能力呢?本文研究了使用噪聲標(biāo)注(在這種情況下為圖像標(biāo)題)的弱監(jiān)督預(yù)訓(xùn)練。

8e32ff08-5766-11eb-8b86-12bb97331649.png

目標(biāo)是用有限對(duì)圖像與說(shuō)明文字來(lái)學(xué)習(xí)視覺(jué)表達(dá),那么,如何制定訓(xùn)練目標(biāo)以推動(dòng)圖像及其標(biāo)題之間的有效交互?基于BER模型隨機(jī)掩蓋15% 的輸入字符,讓模型根據(jù) transformer 模型的編碼器輸出重建整個(gè)句子,該方法也隨機(jī)對(duì)圖像的文字說(shuō)明進(jìn)行掩碼操作。論文提出了圖像條件化的掩蔽語(yǔ)言建模(ICMLM),其中利用圖像信息來(lái)重構(gòu)其相應(yīng)說(shuō)明文字的掩碼的字符。為了解決這個(gè)問(wèn)題,作者提出了兩種多模架構(gòu):(1)ICMLM tfm,使用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)對(duì)原始圖像進(jìn)行編碼得到圖像特征,接著,經(jīng)過(guò)BERT處理的被掩碼的圖像說(shuō)明、原始圖像說(shuō)明以及圖像特征被級(jí)聯(lián)起來(lái)并通過(guò)一個(gè) transformer 編碼器,最終輸出一個(gè)多模嵌入特征用于預(yù)估被掩碼的字符。(2)首先生成ICMLM att + fc,說(shuō)明和圖像之間的相似度,接著經(jīng)過(guò)一個(gè)成對(duì)注意力模塊來(lái)整合圖像與文字說(shuō)明之間的信息。得到的特征會(huì)經(jīng)過(guò)池化后再過(guò)一個(gè)全連接層來(lái)預(yù)測(cè)被掩碼的字符。

Memory-augmented Dense Predictive Coding for Video Representation Learning

(https://arxiv.org/abs/2008.01065) 近期在自監(jiān)督圖像表征學(xué)習(xí)領(lǐng)域的進(jìn)步在下游任務(wù)中展現(xiàn)出了令人印象深刻的效果。盡管視頻的多模表征學(xué)習(xí)多有發(fā)展,然而不使用其他任何類似于文本與語(yǔ)音的模態(tài)信息,但使用視頻流進(jìn)行自監(jiān)督學(xué)習(xí)還未有所發(fā)展。即使視頻的時(shí)域信息為自監(jiān)督地訓(xùn)練一個(gè)根據(jù)過(guò)去幀預(yù)測(cè)未來(lái)幀的模型提供了充足的監(jiān)督信號(hào)。由于確切的未來(lái)并不存在,并且在給定的時(shí)間步長(zhǎng)內(nèi),對(duì)于未來(lái)狀態(tài)有許多可能和合理的假設(shè)(例如,當(dāng)動(dòng)作是“打高爾夫球”時(shí),那么下一幀可能是手或者高爾夫俱樂(lè)部)。

8e594726-5766-11eb-8b86-12bb97331649.png

本文將對(duì)比學(xué)習(xí)與存儲(chǔ)模塊結(jié)合使用,以解決未來(lái)幀的預(yù)測(cè)問(wèn)題。為了減少不確定性,該模型會(huì)在特征級(jí)別上預(yù)測(cè)未來(lái),并使用對(duì)比損失進(jìn)行訓(xùn)練以避免過(guò)度約束。為了處理多種假設(shè),一個(gè)存儲(chǔ)模塊用于同時(shí)推斷多個(gè)未來(lái)狀態(tài)。給定一組連續(xù)幀,2d-3d CNN編碼器(即ff)產(chǎn)生上下文特征,而GRU(即g)整合所有過(guò)去的信息,然后將其用于從共享存儲(chǔ)模塊中選擇插槽。然后,將預(yù)測(cè)的未來(lái)狀態(tài)作為所選存儲(chǔ)插槽的凸組合生成。然后,使用對(duì)比損失將預(yù)測(cè)的未來(lái)狀態(tài)與未來(lái)狀態(tài)的真實(shí)特征向量進(jìn)行比較。對(duì)于下游任務(wù),將g產(chǎn)生的特征匯總起來(lái),然后提供給分類器處理。

SCAN: Learning to Classify Images without Labels

(https://arxiv.org/abs/2005.12320) 要將未標(biāo)記的輸入圖像分組為語(yǔ)義上有意義的聚類,我們需要僅使用視覺(jué)相似性來(lái)找到解決方案。先前的工作之一是(1)使用自我監(jiān)督的方法學(xué)習(xí)豐富的特征,然后對(duì)特征應(yīng)用k均值以找到聚類,但這很容易導(dǎo)致性能退化。(2)端到端群集方法,這些方法可以利用CNN的功能進(jìn)行深度聚類,也可以基于互信息最大化。但是,生成的聚類結(jié)果在很大程度上取決于初始化,并且很可能會(huì)陷入低級(jí)特征主導(dǎo)中。

8e9a9280-5766-11eb-8b86-12bb97331649.png

為了解決先前工作中發(fā)現(xiàn)的問(wèn)題,本文提出了采用兩步過(guò)程的SCAN(采用最鄰方法的語(yǔ)義聚類)。第一步,通過(guò)前置任務(wù)學(xué)習(xí)特征表示,然后生成將語(yǔ)義上有意義的最近鄰用作先驗(yàn),以訓(xùn)練模型將每個(gè)圖像及其對(duì)應(yīng)的鄰居分為一類。模型通過(guò)損失函數(shù)來(lái)優(yōu)化,該函數(shù)會(huì)在 softmax 之后最大化輸出向量的點(diǎn)積,從而迫使網(wǎng)絡(luò)產(chǎn)生一致且有判別度的(one-hot 向量)預(yù)測(cè)。

GATCluster: Self-Supervised Gaussian-Attention Network for Image Clustering

(https://arxiv.org/abs/2002.11863)

聚類包括根據(jù)樣本相似性將數(shù)據(jù)分為多個(gè)聚類。傳統(tǒng)的方法是使用手工特征和特定于領(lǐng)域的距離函數(shù)來(lái)衡量相似度,但是這種手工制作的特征在表達(dá)能力上非常有限。隨后的工作將深度表示和聚類算法結(jié)合起來(lái),但是當(dāng)輸入數(shù)據(jù)很復(fù)雜時(shí),深度聚類的性能還是會(huì)受到影響。有效的聚類在特征層面必須同時(shí)包含高層判別性特征并獲取對(duì)象語(yǔ)義信息。在聚類步驟上,必須避免使用將樣本分配到單個(gè)或少數(shù)幾個(gè)集群的算法,并且聚類需要高效地應(yīng)用于大尺寸圖像。 本文提出了GATCluster,它直接輸出語(yǔ)義聚類標(biāo)簽而無(wú)需進(jìn)一步的后處理,其中學(xué)習(xí)到的特征是一個(gè) one-hot 編碼向量,以避免弱解。GATCluster在平移不變性、可分離性最大化、熵分析和注意力映射約束下,通過(guò)四個(gè)自學(xué)習(xí)任務(wù)以無(wú)監(jiān)督的方式進(jìn)行了訓(xùn)練。

Associative Alignment for Few-shot Image Classification

(https://arxiv.org/abs/1912.05094) 小樣本圖像分類的目標(biāo)是在訓(xùn)練樣本很少的情況下,生成一個(gè)能夠?qū)W習(xí)識(shí)別新的圖像類的模型?,F(xiàn)在流行的方法之一是元學(xué)習(xí),它從大量包含基類的標(biāo)記數(shù)據(jù)中提取公共知識(shí),并用于訓(xùn)練模型。然后訓(xùn)練該模型以僅用幾個(gè)樣本就可以對(duì)來(lái)自新穎概念的圖像進(jìn)行分類。元目標(biāo)是找到一組良好的初始權(quán)重集合,這些初始權(quán)重在接受新概念訓(xùn)練時(shí)會(huì)迅速收斂。有趣的是,最近的研究表明,不使用元學(xué)習(xí)的標(biāo)準(zhǔn)轉(zhuǎn)移學(xué)習(xí),其中特征提取器首先在基類上進(jìn)行了預(yù)訓(xùn)練,然后根據(jù)新的幾個(gè)類別上在預(yù)訓(xùn)練的提取器之上對(duì)分類器進(jìn)行了微調(diào)。,其性能和更復(fù)雜的元學(xué)習(xí)策略不相上下。但是為了避免過(guò)擬合,特征提取器對(duì)部分層的權(quán)重凍結(jié)會(huì)阻礙性能。

8ee2881a-5766-11eb-8b86-12bb97331649.png

本文提出了一種兩步法來(lái)解決這個(gè)問(wèn)題。首先,特征提取器用于為新樣本生成特征。然后,使用嵌入空間中的相似性度量將每個(gè)樣本的特征映射到基類之一。第二步包括關(guān)聯(lián)對(duì)齊,其中對(duì)特征提取器進(jìn)行微調(diào),以便將新圖像的嵌入向量更靠近其相應(yīng)基礎(chǔ)圖像的嵌入。這可以通過(guò)以下方法完成:在每個(gè)基類的中心與新類比之間的距離減小的質(zhì)心對(duì)齊方式,也可以使用對(duì)抗性對(duì)齊,其中鑒別器迫使特征提取器在嵌入空間中對(duì)齊基礎(chǔ)圖像和新樣本。

三維計(jì)算機(jī)視覺(jué)以及機(jī)器人學(xué)

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

(https://arxiv.org/abs/2003.08934) 從2D圖像合成3D視圖是一個(gè)具有挑戰(zhàn)性的問(wèn)題,尤其是在稀疏地采樣了輸入2D圖像的情況下。改目標(biāo)的任務(wù)是是訓(xùn)練一個(gè)模型,該模型拍攝3D場(chǎng)景的2D圖像集合(具有可選的相機(jī)姿勢(shì)及其內(nèi)參),然后,使用訓(xùn)練后的模型,我們可以渲染3D場(chǎng)景中未找到的新2D視圖。種成功的方法是基于體素的表示法,該表示方法使用離散的網(wǎng)格表示3D場(chǎng)景。使用3D CNN可以預(yù)測(cè)3D體素中對(duì)應(yīng)的RGB-alpha網(wǎng)格值。是,由于這種基于體素的方法復(fù)雜度與空間分辨率成三次比,難以優(yōu)化并且無(wú)法平滑地對(duì)場(chǎng)景表面進(jìn)行參數(shù)化,因此它們的存儲(chǔ)效率不高。計(jì)算機(jī)視覺(jué)社區(qū)的最新趨勢(shì)是使用全連接的神經(jīng)網(wǎng)絡(luò)將給定的3D場(chǎng)景表示為連續(xù)函數(shù)。因此,神經(jīng)網(wǎng)絡(luò)本身就是3D場(chǎng)景的壓縮表示,使用2D圖像集進(jìn)行訓(xùn)練,然后用于渲染新的視圖。但是,現(xiàn)有方法仍無(wú)法匹配現(xiàn)有基于voxed的方法。

8f0d778c-5766-11eb-8b86-12bb97331649.png

NeRF(神經(jīng)輻射場(chǎng))使用9個(gè)層和256個(gè)通道的全連接網(wǎng)絡(luò)將場(chǎng)景表示為連續(xù)5D函數(shù),其輸入是單個(gè)連續(xù)5D函數(shù),即3D空間位置(xx,yy,zz)和視角方向(θθ,??),其輸出為RGB顏色和不透明度(輸出密度)。為了合成給定的視圖,渲染過(guò)程包括沿?cái)z像機(jī)光心所在的直線查詢5D坐標(biāo),并使用經(jīng)典的體素渲染技術(shù)將輸出的顏色和密度投影到圖像中。由于體素渲染是可以區(qū)分的,因此優(yōu)化表示所需的唯一輸入就是具有已知攝影機(jī)姿勢(shì)參數(shù)的一組圖像。這樣,NeRF能夠有效地優(yōu)化神經(jīng)輻射場(chǎng),以渲染具有復(fù)雜幾何形狀和外觀的場(chǎng)景的逼真視圖,并且在渲染的圖像和真實(shí)圖像之間具有簡(jiǎn)單的重建損失,并證明其結(jié)果優(yōu)于先前的神經(jīng)渲染和視圖工作合成研究。

Towards Streaming Perception

(https://arxiv.org/abs/2005.10420) 諸如自動(dòng)駕駛汽車之類的實(shí)際應(yīng)用需要類似于人類的快速反應(yīng)時(shí)間,通常為200毫秒。在這種情況下,需要使用低延遲算法來(lái)確保安全運(yùn)行。但是,即使經(jīng)常研究計(jì)算機(jī)視覺(jué)算法的延遲,也僅主要在離線環(huán)境中進(jìn)行了研究。在線視覺(jué)感知會(huì)帶來(lái)完全不同的延遲需求。因?yàn)榈搅怂惴ㄍ瓿商幚硖囟▓D像幀的時(shí)間(例如200毫秒后),周圍的世界就發(fā)生了變化,如下圖所示。這迫使感知最終預(yù)測(cè)了未來(lái),這是人類視覺(jué)的基本屬性(例如,當(dāng)棒球運(yùn)動(dòng)員擊中快球時(shí),這是必需的)。

8f71467c-5766-11eb-8b86-12bb97331649.png

為了開發(fā)更好的基準(zhǔn)以反映現(xiàn)實(shí)情況,并使現(xiàn)有方法的比較更加容易。本文介紹了流感知的目標(biāo),即實(shí)時(shí)在線感知,并提出了一種新的元基準(zhǔn),該基準(zhǔn)將系統(tǒng)地將任何圖像理解任務(wù)系統(tǒng)地轉(zhuǎn)換為流圖像理解任務(wù)。該基準(zhǔn)基于基于以下 的幾點(diǎn)提出了:流感知需要在任何時(shí)刻都了解世界的狀態(tài)。因此,當(dāng)新幀到達(dá)時(shí),流算法必須報(bào)告世界的狀態(tài),即使它們尚未處理前一幀,也迫使它們考慮在進(jìn)行計(jì)算時(shí)應(yīng)忽略的流數(shù)據(jù)量。具體來(lái)說(shuō),當(dāng)比較模型的輸出和真實(shí)標(biāo)簽時(shí),對(duì)齊是使用時(shí)間而不是輸入索引來(lái)完成的,因此在處理相應(yīng)的輸入之前,模型需要對(duì)時(shí)間步t給出正確的預(yù)測(cè),即驗(yàn)證模型需要Δt來(lái)處理輸入并處理,它只能使用t-Δt之前的數(shù)據(jù)來(lái)預(yù)測(cè)在時(shí)間t對(duì)應(yīng)于輸入的輸出。

Teaching Cameras to Feel: Estimating Tactile Physical Properties of Surfaces From Images

(https://arxiv.org/abs/2004.14487) 人類能夠在小時(shí)候就開始形成一種心理模型,該模型以對(duì)物體的感知和對(duì)應(yīng)的觸覺(jué)來(lái)映射,這是基于與不同物品互動(dòng)時(shí)的先前經(jīng)驗(yàn)。當(dāng)與新對(duì)象進(jìn)行交互時(shí),尤其是當(dāng)簡(jiǎn)單的對(duì)象類別無(wú)法提供足夠的信息以準(zhǔn)確估計(jì)觸覺(jué)物理特性時(shí),讓具有這種心理模型的自主智能體成為非常有價(jià)值的工具。

90571a26-5766-11eb-8b86-12bb97331649.png

為了更直接地模擬這種心理模型,本文提出直接估計(jì)物理特性,從而允許直接利用對(duì)象的屬性。首先,作者提出了包含400多個(gè)表面圖像序列和觸覺(jué)特性測(cè)量值的數(shù)據(jù)集。因?yàn)楫?dāng)估計(jì)表面特性時(shí),人們經(jīng)常不自覺(jué)地移動(dòng)他們的頭部,獲取表面的多個(gè)視圖,所以所捕獲的圖像序列包括每個(gè)材料表面的多個(gè)視角。然后,他們提出了一種跨模式框架,用于學(xué)習(xí)視覺(jué)提示到觸覺(jué)特性的復(fù)雜映射。該模型的訓(xùn)練目標(biāo)是在給定視覺(jué)信息的情況下生成精確的觸覺(jué)特性估計(jì)。視覺(jué)和觸覺(jué)信息都通過(guò)單獨(dú)的編碼器網(wǎng)絡(luò)嵌入到共享的潛在空間中。然后,生成器函數(shù)根據(jù)嵌入的視覺(jué)矢量估算觸覺(jué)屬性值。鑒別器網(wǎng)絡(luò)學(xué)習(xí)預(yù)測(cè)觸覺(jué)-視覺(jué)對(duì)是真實(shí)的還是合成的例子。在推斷期間,如果輸入圖像,則使用編碼器-生成器對(duì)來(lái)推斷觸覺(jué)屬性。

909e49a0-5766-11eb-8b86-12bb97331649.png

Convolutional Occupancy Networks

(https://arxiv.org/abs/2003.04618) 三維重建是計(jì)算機(jī)視覺(jué)中的一個(gè)重要問(wèn)題,有著廣泛的應(yīng)用。對(duì)于三維幾何圖形的理想表示,我們需要能夠達(dá)到以下幾點(diǎn):a)編碼復(fù)雜的幾何圖形和任意拓?fù)浣Y(jié)構(gòu),b)縮放到大型場(chǎng)景,c)封裝局部和全局信息,以及d)在內(nèi)存和計(jì)算方面易于處理。然而,現(xiàn)有的三維重建表示方法并不能滿足所有這些要求。雖然最近的隱式神經(jīng)表示在三維重建中表現(xiàn)出了令人印象深刻的性能,但是由于使用了一種簡(jiǎn)單的全連接的網(wǎng)絡(luò)結(jié)構(gòu),這種結(jié)構(gòu)不允許在觀測(cè)值中集成局部信息,也不允許包含諸如平移等變的歸納偏差,因此它們有著一些局限性。

90c73e82-5766-11eb-8b86-12bb97331649.png

Convolutional Occupancy Networks卷積占用網(wǎng)絡(luò)使用卷積編碼器和隱式占用解碼器結(jié)合來(lái)歸納偏差,并實(shí)現(xiàn)三維空間的結(jié)構(gòu)化推理。從而得到單個(gè)對(duì)象進(jìn)行隱式三維重建,具有擴(kuò)展到大型室內(nèi)場(chǎng)景的能力,并能很好地從合成數(shù)據(jù)推廣到真實(shí)數(shù)據(jù)。

圖像和視頻合成

Transforming and Projecting Images into Class-conditional Generative Networks

(https://arxiv.org/abs/2005.01703) GaNs能夠從不同的類別中生成不同的圖像。例如,BigGaN,一個(gè)類體哦阿健生成對(duì)抗網(wǎng)絡(luò)GaN,給定一個(gè)噪聲向量z和一個(gè)類嵌入向量c,該模型能夠生成對(duì)應(yīng)類的新的圖像。然后,就可以通過(guò)編輯噪聲向量的隱變量和類別嵌入向量來(lái)操縱圖像。但反過(guò)來(lái)可能嗎?例如,給定一幅輸入圖像,我們能找到與該圖像最匹配的潛變量z和嵌入類向量c嗎?這個(gè)問(wèn)題仍然具有挑戰(zhàn)性,因?yàn)樵S多輸入圖像不能由GaN生成。另外,由于目標(biāo)函數(shù)具有多個(gè)局部極小值,搜索算法容易陷入此類局部極小值區(qū)域。

910eaf24-5766-11eb-8b86-12bb97331649.png

為了解決這些問(wèn)題,本文提出了兩種新的思路:估計(jì)輸入圖像的尺度變換,以及使用非局部搜索算法來(lái)尋找更好的解。如上所示,給定輸入圖像,pix2potent首先找到最佳仿射變換,使得變換后的輸入可能由GaN生成,然后使用所提出的basicma優(yōu)化方法將圖像投影到隱空間中。然后對(duì)獲得的隱變量進(jìn)行編輯,將其投影回圖像空間,獲得編輯后的圖像,然后可以使用初始仿射變換的逆運(yùn)算對(duì)其進(jìn)行變換并得到圖像。

Contrastive Learning for Unpaired Image-to-Image Translation

(https://arxiv.org/abs/2007.15651)

給定兩組不同屬性和模式的圖像對(duì)訓(xùn)練集,例如馬和斑馬的圖像組合,非配對(duì)圖像到圖像的轉(zhuǎn)換的目的是學(xué)習(xí)兩種模圖像式之間的變化函數(shù),例如將馬轉(zhuǎn)換為斑馬,反之亦然,同時(shí)保留諸如姿勢(shì)或大小等敏感信息,而不必確保兩種模式之間的一對(duì)一匹配集。現(xiàn)有的方法,如CycleGaN迫使模型能夠?qū)⑥D(zhuǎn)換后的圖像變換回原始圖像。但是這樣的方法假設(shè)一個(gè)雙射變換,這通有太多限制,因?yàn)橐粋€(gè)給定的變換后的圖像可能有許多似是而非的源圖像。一個(gè)理想的損失應(yīng)該是在不同的樣式下仍然保持不變的,不同的風(fēng)格,但區(qū)分敏感信息。

9146e934-5766-11eb-8b86-12bb97331649.png

Contrastive Unpaired Translation(CUT)旨在學(xué)習(xí)這樣一個(gè)嵌入空間。除了標(biāo)準(zhǔn)的GAN損失外,生成器被訓(xùn)練生成夠真實(shí)的翻譯圖像,而鑒別器試圖區(qū)分轉(zhuǎn)換圖像和真實(shí)圖像。還要增加一個(gè)額外的損失,用來(lái)迫使網(wǎng)絡(luò)對(duì)輸入圖像與轉(zhuǎn)換圖像的對(duì)應(yīng)圖像塊生成相似的嵌入向量。該損失在優(yōu)化時(shí)采用對(duì)比損失,即拉近兩個(gè)對(duì)應(yīng)圖像塊的嵌入向量的距離,同時(shí)拉遠(yuǎn)給定圖像塊和隨機(jī)抽樣圖像塊嵌入之間的距離(只使用同一輸入圖像的內(nèi)部區(qū)塊,其他圖像的區(qū)塊會(huì)降低性能)。


Rewriting a Deep Generative Model

(https://arxiv.org/abs/2007.15646) GAN 能夠?qū)?shù)據(jù)分布中豐富的語(yǔ)義和物理規(guī)則進(jìn)行建模,但是到目前為止,這些規(guī)則是如何在網(wǎng)絡(luò)中編碼的,或者一個(gè)規(guī)則是如何被改變的我們還不是十分清楚。本文介紹了一種新的問(wèn)題:操作由深度生成網(wǎng)絡(luò)模型編碼的特定規(guī)則。因此,給定一個(gè)生成模型,目標(biāo)是調(diào)整其權(quán)重,使新的和修改后的模型遵循新的規(guī)則,并生成遵循新規(guī)則集的圖像,如下所示。

91b133ac-5766-11eb-8b86-12bb97331649.png

通過(guò)將網(wǎng)絡(luò)的每一層視為一個(gè)關(guān)聯(lián)存儲(chǔ)器,將潛在生成規(guī)則儲(chǔ)存為隱藏特征上的一組鍵值關(guān)系??梢酝ㄟ^(guò)定義約束優(yōu)化來(lái)編輯和修改模型,約束優(yōu)化在關(guān)聯(lián)性儲(chǔ)存器中添加或編輯一個(gè)特定規(guī)則,同時(shí)盡可能保留模型中現(xiàn)有的語(yǔ)義關(guān)系。論文直接通過(guò)度量和操縱模型的內(nèi)部結(jié)構(gòu)來(lái)實(shí)現(xiàn)這一點(diǎn),而不需要任何新的訓(xùn)練數(shù)據(jù)。

Learning Stereo from Single Images

(https://arxiv.org/abs/2008.01484) 給定一對(duì)對(duì)應(yīng)的圖像,視差匹配的目標(biāo)是估計(jì)從第一視圖到第二視圖的每個(gè)像素的對(duì)應(yīng)位置之間的每像素水平位移(即視差),反之亦然。雖然全監(jiān)督的方法可以給出很好的結(jié)果,但一對(duì)視察圖像之間精確的真實(shí)視差往往很難獲得。一種可能的替代方法是對(duì)合成數(shù)據(jù)進(jìn)行訓(xùn)練,然后對(duì)有限數(shù)量的實(shí)際標(biāo)記數(shù)據(jù)進(jìn)行微調(diào)。但是,如果沒(méi)有一個(gè)帶有足夠標(biāo)簽的微調(diào)步驟,這樣的模型就不能很好地生成真實(shí)的圖像。

91e2e46a-5766-11eb-8b86-12bb97331649.png

該文提出了一種新的、全自動(dòng)的視差估計(jì)訓(xùn)練流程,通過(guò)使用圖像深度估計(jì)網(wǎng)絡(luò),該方法可以由已知深度信息的非結(jié)構(gòu)化單幅圖像生成視差估計(jì)訓(xùn)練數(shù)據(jù),這樣就無(wú)需人工合成數(shù)據(jù)或真實(shí)視差圖像對(duì)即可進(jìn)行訓(xùn)練。。首先,通過(guò)使用深度視差的前向形變操作將給定的左輸入圖像轉(zhuǎn)換為合成的右圖像。然后,利用視差圖像對(duì),以有監(jiān)督的方式對(duì)視差估計(jì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到一個(gè)泛化的模型。

What makes fake images detectable? Understanding properties that generalize

(https://arxiv.org/abs/2008.10588) 雖然GaN生成圖像的質(zhì)量已經(jīng)達(dá)到了令人印象深刻的水平,但是經(jīng)過(guò)訓(xùn)練的深度網(wǎng)絡(luò)仍然可以檢測(cè)到生成圖像中的細(xì)微偽影,并且這種訓(xùn)練的網(wǎng)絡(luò)還可以在不同數(shù)據(jù)集和不同方法上訓(xùn)練的多個(gè)模型中發(fā)現(xiàn)相同的偽影。本文旨在可視化和理解哪些工件在模型之間是共享的,并且容易在不同的場(chǎng)景中檢測(cè)和轉(zhuǎn)移。

921c9d90-5766-11eb-8b86-12bb97331649.png

由于全局面部結(jié)構(gòu)在不同的生成器和數(shù)據(jù)集之間可能有所不同,因此生成的圖像的局部面片更加確定,并且可能產(chǎn)生冗余的偽影。為此,本文采用了一種基于區(qū)塊的全卷積分類器來(lái)關(guān)注局部區(qū)塊而不是全局結(jié)構(gòu)。然后可以使用路徑級(jí)分類器來(lái)可視化和分類在各種測(cè)試數(shù)據(jù)集中最能指示真實(shí)或虛假圖像的區(qū)塊。另外,可以對(duì)生成的圖像進(jìn)行操作以夸大假圖像的特征屬性。

視覺(jué)和語(yǔ)言

Connecting Vision and Language with Localized Narratives

(https://arxiv.org/abs/1912.03098) 連接視覺(jué)和語(yǔ)言的一種流行方式是圖像標(biāo)題,其中每個(gè)圖像都與人類編寫的文本標(biāo)題配對(duì),但這種鏈接僅在完整的圖像尺度范圍內(nèi),其中的文本描述了整個(gè)圖像。為了改進(jìn)這種若的關(guān)聯(lián),有人嘗試著將圖片標(biāo)題的特定部分和圖像中的目標(biāo)框聯(lián)系起來(lái)。但是,這種關(guān)聯(lián)仍然非常稀疏,大多數(shù)對(duì)象和單詞都沒(méi)有對(duì)應(yīng)的目標(biāo)框,且注釋過(guò)程可能會(huì)非常昂貴。

9245c242-5766-11eb-8b86-12bb97331649.png

本文提出了一種新的有效的多模態(tài)圖像標(biāo)注形式,稱之為定位敘事。定位敘述是通過(guò)要求注釋者用他們的聲音描述一個(gè)圖像,同時(shí)將鼠標(biāo)懸停在他們描述的區(qū)域上而生成的。例如,如上圖所示,注釋者一邊說(shuō)“woman”,一邊用鼠標(biāo)指示她的空間范圍,從而為這個(gè)名詞提供了視覺(jué)基礎(chǔ)。后來(lái),他們把鼠標(biāo)從女人身上移到氣球上,跟著氣球的繩子,說(shuō)“holding”。這為這種關(guān)系提供了直接的視覺(jué)基礎(chǔ)。它們還描述了“晴朗的藍(lán)天”和“淺藍(lán)色牛仔褲”等屬性。由于語(yǔ)音與鼠標(biāo)指針同步,因此可以確定描述中每個(gè)單詞的圖像位置。這以鼠標(biāo)軌跡段的形式為每個(gè)單詞提供了密集視覺(jué)基礎(chǔ)。這一豐富的注釋方法具有多種形式(圖像、文本、語(yǔ)音和位置),可用于文本到圖像生成、視覺(jué)問(wèn)答和語(yǔ)音驅(qū)動(dòng)的環(huán)境導(dǎo)航等不同的任務(wù)?;蛘?,為了更精細(xì)地控制任務(wù),可以在圖像的特定部分設(shè)置條件化字幕,視力不理想的人可以通過(guò)將手指懸停在圖像上來(lái)獲得特定部分的描述。

UNITER: UNiversal Image-TExt Representation Learning

(https://arxiv.org/abs/1909.11740) 大多數(shù)視覺(jué)與語(yǔ)言任務(wù)(V&L)如視覺(jué)問(wèn)答(VQA)依賴于多模態(tài)聯(lián)合嵌入來(lái)彌補(bǔ)圖像和文本中視覺(jué)和文本線索之間的語(yǔ)義鴻溝。但是這種表示通常是為特定的任務(wù)定制的,并且需要特定的體系結(jié)構(gòu)。為了學(xué)習(xí)可用于所有V&L下游任務(wù)的通用聯(lián)合嵌入。本文介紹了一種大規(guī)模聯(lián)合多模態(tài)嵌入預(yù)訓(xùn)練模型 UNITER ,如下圖所示。在transformer模型的基礎(chǔ)上,對(duì)UNITER進(jìn)行了4個(gè)任務(wù)的預(yù)訓(xùn)練:基于圖像的蒙版語(yǔ)言建模(MLM),利用圖像和文本特征恢復(fù)隨機(jī)蒙版單詞。以文本為條件的蒙版區(qū)域建模(MRM),即重構(gòu)給定圖像的某些區(qū)域;圖像文本匹配(ITM),即預(yù)測(cè)圖像和文本實(shí)例是否配對(duì);以及單詞區(qū)域?qū)R(WRA),即學(xué)習(xí)最佳變換找到單詞和圖像之間的最佳對(duì)齊。為了在下游任務(wù)中使用UNITER,首先將其重新表示為分類問(wèn)題,然后使用交叉熵?fù)p失對(duì)添加在[CLS]特征上的分類器進(jìn)行訓(xùn)練。

928aef2a-5766-11eb-8b86-12bb97331649.png

Learning to Learn Words from Visual Scenes

(https://arxiv.org/abs/1911.11237) 視覺(jué)和語(yǔ)言任務(wù)的標(biāo)準(zhǔn)方法是學(xué)習(xí)一個(gè)共同的嵌入空間,但是這種方法效率很低,通常需要數(shù)百萬(wàn)個(gè)例子來(lái)學(xué)習(xí),對(duì)語(yǔ)言的自然構(gòu)成結(jié)構(gòu)的泛化很差,而且所學(xué)嵌入在推理時(shí)無(wú)法適應(yīng)新詞。因此,本文提出讓網(wǎng)絡(luò)嘗試學(xué)習(xí)單詞嵌入的過(guò)程,而不是學(xué)習(xí)單詞嵌入。

92de1bbe-5766-11eb-8b86-12bb97331649.png

該模型基于transformer模型,在每次迭代中,該模型接收一個(gè)圖像語(yǔ)言對(duì),然后元學(xué)習(xí)一個(gè)策略從該集中獲取詞表示。這就使得我們能夠在推理時(shí)獲得新單詞的表示,并且能夠更魯棒地推廣到新的描述任務(wù)中。具體來(lái)說(shuō),每一個(gè)任務(wù)都是一個(gè)語(yǔ)言習(xí)得任務(wù)或一個(gè)小插曲,由訓(xùn)練樣本和測(cè)試樣本組成,測(cè)試樣本對(duì)從訓(xùn)練樣本中獲得的語(yǔ)言進(jìn)行評(píng)價(jià)。例如,在上圖中,模型需要從訓(xùn)練樣本中獲取單詞“chair”,這是它以前從未見過(guò)的單詞。元訓(xùn)練是在向前傳遞中完成的,并使得模型需要指向訓(xùn)練示例中正確的單詞“chair”,并使用匹配損失來(lái)訓(xùn)練整個(gè)模型。經(jīng)過(guò)多種事件和任務(wù)的訓(xùn)練,該模型能夠很快適應(yīng)推理過(guò)程中的新任務(wù)。 結(jié)語(yǔ) 讓人感到遺憾的是,論文的數(shù)量使得總結(jié)任務(wù)變得困難和耗時(shí)。所以對(duì)于其余的論文,我將簡(jiǎn)單地列出一些我遇到的論文的標(biāo)題,如果讀者對(duì)這些主題感興趣的話也方便自行查找研究(參考原文)。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:ECCV 2020 亮點(diǎn)摘要(下)

文章出處:【微信號(hào):livevideostack,微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    算法工程師需要具備哪些技能?

    :自動(dòng)化任務(wù)(如數(shù)據(jù)預(yù)處理、模型訓(xùn)練調(diào)度)。Git版本控制:團(tuán)隊(duì)協(xié)作開發(fā)(如分支管理、代碼合并)。 機(jī)器學(xué)習(xí)監(jiān)督學(xué)習(xí):線性回歸、邏輯回歸、決策樹、SVM等。無(wú)監(jiān)督學(xué)習(xí):聚類(K-Mea
    發(fā)表于 02-27 10:53

    強(qiáng)化學(xué)習(xí)會(huì)讓自動(dòng)駕駛模型學(xué)習(xí)更快嗎?

    是一種讓機(jī)器通過(guò)“試錯(cuò)”學(xué)會(huì)決策的辦法。與監(jiān)督學(xué)習(xí)不同,監(jiān)督學(xué)習(xí)是有人提供示范答案,讓模型去模仿;而強(qiáng)化學(xué)習(xí)不會(huì)把每一步的“正確答案”都告訴你,而是把環(huán)境、動(dòng)作和結(jié)果連起來(lái),讓機(jī)器自己探索哪個(gè)行為長(zhǎng)期看起來(lái)更有利
    的頭像 發(fā)表于 01-31 09:34 ?664次閱讀
    強(qiáng)化<b class='flag-5'>學(xué)習(xí)</b>會(huì)讓自動(dòng)駕駛模型<b class='flag-5'>學(xué)習(xí)</b>更快嗎?

    自動(dòng)駕駛中常提的模仿學(xué)習(xí)是什么?

    當(dāng)談及自動(dòng)駕駛模型學(xué)習(xí)時(shí),經(jīng)常會(huì)提到模仿學(xué)習(xí)的概念。所謂模仿學(xué)習(xí),就是模型先看別人怎么做,然后學(xué)著去做。自動(dòng)駕駛中的模仿學(xué)習(xí),就是把人類司機(jī)在各種路況下的行為做成范例,記錄下看到了什么
    的頭像 發(fā)表于 01-16 16:41 ?2004次閱讀

    機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個(gè)常見錯(cuò)誤與局限性

    無(wú)論你是剛?cè)腴T還是已經(jīng)從事人工智能模型相關(guān)工作一段時(shí)間,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中都存在一些我們需要時(shí)刻關(guān)注并銘記的常見錯(cuò)誤。如果對(duì)這些錯(cuò)誤置之不理,日后可能會(huì)引發(fā)諸多麻煩!只要我們密切關(guān)注數(shù)據(jù)、模型架構(gòu)
    的頭像 發(fā)表于 01-07 15:37 ?213次閱讀
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>中需避免的 7 個(gè)常見錯(cuò)誤與局限性

    【團(tuán)購(gòu)】獨(dú)家全套珍藏!龍哥LabVIEW視覺(jué)深度學(xué)習(xí)實(shí)戰(zhàn)課(11大系列課程,共5000+分鐘)

    趨勢(shì): 無(wú)監(jiān)督學(xué)習(xí)普及 當(dāng)前工業(yè)場(chǎng)景中80%的缺陷檢測(cè)項(xiàng)目面臨\"OK樣本充足而NG樣本稀缺\"的困境,傳統(tǒng)監(jiān)督學(xué)習(xí)方案難以落地。課程第11
    發(fā)表于 12-04 09:28

    【團(tuán)購(gòu)】獨(dú)家全套珍藏!龍哥LabVIEW視覺(jué)深度學(xué)習(xí)實(shí)戰(zhàn)課程(11大系列課程,共5000+分鐘)

    趨勢(shì): 無(wú)監(jiān)督學(xué)習(xí)普及 當(dāng)前工業(yè)場(chǎng)景中80%的缺陷檢測(cè)項(xiàng)目面臨\"OK樣本充足而NG樣本稀缺\"的困境,傳統(tǒng)監(jiān)督學(xué)習(xí)方案難以落地。課程第11
    發(fā)表于 12-03 13:50

    自動(dòng)駕駛中常提的“強(qiáng)化學(xué)習(xí)”是個(gè)啥?

    下,就是一個(gè)智能體在環(huán)境里行動(dòng),它能觀察到環(huán)境的一些信息,并做出一個(gè)動(dòng)作,然后環(huán)境會(huì)給出一個(gè)反饋(獎(jiǎng)勵(lì)或懲罰),智能體的目標(biāo)是把長(zhǎng)期得到的獎(jiǎng)勵(lì)累積到最大。和監(jiān)督學(xué)習(xí)不同,強(qiáng)化學(xué)習(xí)沒(méi)有一一對(duì)應(yīng)的“正確答案”給它看,而是靠與環(huán)境交互、自我探索來(lái)發(fā)現(xiàn)
    的頭像 發(fā)表于 10-23 09:00 ?705次閱讀
    自動(dòng)駕駛中常提的“強(qiáng)化<b class='flag-5'>學(xué)習(xí)</b>”是個(gè)啥?

    科普|通信射頻接頭學(xué)習(xí)

    科普|通信射頻接頭學(xué)習(xí)
    的頭像 發(fā)表于 08-19 17:09 ?941次閱讀
    科普|通信射頻接頭<b class='flag-5'>學(xué)習(xí)</b>

    PID控制算法學(xué)習(xí)筆記資料

    用于新手學(xué)習(xí)PID控制算法。
    發(fā)表于 08-12 16:22 ?7次下載

    機(jī)器學(xué)習(xí)異常檢測(cè)實(shí)戰(zhàn):用Isolation Forest快速構(gòu)建無(wú)標(biāo)簽異常檢測(cè)系統(tǒng)

    本文轉(zhuǎn)自:DeepHubIMBA無(wú)監(jiān)督異常檢測(cè)作為機(jī)器學(xué)習(xí)領(lǐng)域的重要分支,專門用于在缺乏標(biāo)記數(shù)據(jù)的環(huán)境中識(shí)別異常事件。本文深入探討異常檢測(cè)技術(shù)的理論基礎(chǔ)與實(shí)踐應(yīng)用,通過(guò)IsolationForest
    的頭像 發(fā)表于 06-24 11:40 ?1443次閱讀
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>異常檢測(cè)實(shí)戰(zhàn):用Isolation Forest快速構(gòu)建<b class='flag-5'>無(wú)</b>標(biāo)簽異常檢測(cè)系統(tǒng)

    開源電機(jī)驅(qū)動(dòng),免費(fèi)直播學(xué)習(xí)!

    開源電機(jī)驅(qū)動(dòng),免費(fèi)直播學(xué)習(xí)!
    的頭像 發(fā)表于 06-13 10:07 ?1763次閱讀
    開源電機(jī)驅(qū)動(dòng),免費(fèi)直播<b class='flag-5'>學(xué)習(xí)</b>!

    DeepSeeK學(xué)習(xí)資料

    104頁(yè)DeepSeeK學(xué)習(xí)資料(清華)
    發(fā)表于 06-08 09:57 ?2次下載

    電子硬件工程師如何從零開始學(xué)習(xí)?(文末免費(fèi)分享從零開始學(xué)習(xí)資料)

    經(jīng)常有用戶咨詢,如何學(xué)習(xí)和提升電子硬件能力,有沒(méi)有適合小白學(xué)習(xí)的資料等等;電子硬件工程師是一個(gè)結(jié)合理論、實(shí)踐和創(chuàng)新能力的職業(yè),需要掌握電路設(shè)計(jì)、元器件選型、PCB設(shè)計(jì)、嵌入式系統(tǒng)、測(cè)試調(diào)試等多方面
    的頭像 發(fā)表于 06-04 07:36 ?2255次閱讀
    電子硬件工程師如何從零開始<b class='flag-5'>學(xué)習(xí)</b>?(文末免費(fèi)分享從零開始<b class='flag-5'>學(xué)習(xí)</b>資料)

    使用MATLAB進(jìn)行無(wú)監(jiān)督學(xué)習(xí)

    無(wú)監(jiān)督學(xué)習(xí)是一種根據(jù)未標(biāo)注數(shù)據(jù)進(jìn)行推斷的機(jī)器學(xué)習(xí)方法。無(wú)監(jiān)督學(xué)習(xí)旨在識(shí)別數(shù)據(jù)中隱藏的模式和關(guān)系,無(wú)需任何
    的頭像 發(fā)表于 05-16 14:48 ?1466次閱讀
    使用MATLAB進(jìn)行<b class='flag-5'>無(wú)</b><b class='flag-5'>監(jiān)督學(xué)習(xí)</b>

    嵌入式AI技術(shù)之深度學(xué)習(xí):數(shù)據(jù)樣本預(yù)處理過(guò)程中使用合適的特征變換對(duì)深度學(xué)習(xí)的意義

    ? 作者:蘇勇Andrew 使用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)機(jī)器學(xué)習(xí),網(wǎng)絡(luò)的每個(gè)層都將對(duì)輸入的數(shù)據(jù)做一次抽象,多層神經(jīng)網(wǎng)絡(luò)構(gòu)成深度學(xué)習(xí)的框架,可以深度理解數(shù)據(jù)中所要表示的規(guī)律。從原理上看,使用深度學(xué)習(xí)幾乎可以描述
    的頭像 發(fā)表于 04-02 18:21 ?1530次閱讀