chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

半監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí),遷移學(xué)習(xí),表征學(xué)習(xí)以及小樣本學(xué)習(xí)

LiveVideoStack ? 來源:LiveVideoStack ? 作者:LiveVideoStack ? 2021-01-18 17:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2020年歐洲計算機(jī)視覺會議(ECCV)于8月23日至28日在網(wǎng)上舉行,由1360篇論文組成,包括104場orals,160場spotlights以及1096篇posters,共進(jìn)行有45場workshops和16場tutorials。與近年來的ML和CV會議一樣,有時大量的論文可能不勝枚舉。

半監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí),遷移學(xué)習(xí),表征學(xué)習(xí)以及小樣本學(xué)習(xí)

Big Transfer (BiT): General Visual Representation Learning (paper)

(https://arxiv.org/abs/1912.11370) 在本文中,作者重新審視了遷移學(xué)習(xí)的簡單范式:首先在一個大規(guī)模標(biāo)記數(shù)據(jù)集(例如JFT-300M和ImageNet-21k數(shù)據(jù)集)上進(jìn)行預(yù)訓(xùn)練,然后對目標(biāo)任務(wù)上的每個訓(xùn)練權(quán)重進(jìn)行精調(diào)任務(wù),減少目標(biāo)任務(wù)所需的數(shù)據(jù)量和優(yōu)化時間。作者們擬議的遷移學(xué)習(xí)框架是BiT(大轉(zhuǎn)移),由許多組件組成,包含了大量構(gòu)建有效模型的必需組件,使其能夠借助于大規(guī)模數(shù)據(jù)集學(xué)習(xí)到通用的、可遷移的特征表達(dá)。 在(上游)預(yù)訓(xùn)練方面,BiT包括以下內(nèi)容:

對于非常大的數(shù)據(jù)集,由于Batch Normalization(BN)在測試結(jié)果期間使用訓(xùn)練數(shù)據(jù)中的統(tǒng)計信息會導(dǎo)致訓(xùn)練/測試差異,在這種情況下,訓(xùn)練損失可以正確優(yōu)化和回傳,但是驗(yàn)證損失非常不穩(wěn)定。除了BN對批次大小的敏感性外。為了解決這個問題,BiT既使用了Group Norm,又使用了Weight Norm,而不是Batch Norm。

諸如ResNet 50之類的小型模型無法從大規(guī)模數(shù)據(jù)集中受益,因此模型的大小也需要相應(yīng)地擴(kuò)大規(guī)模,和數(shù)據(jù)集匹配。

對于(下游)目標(biāo)任務(wù),BiT建議以下內(nèi)容:

使用標(biāo)準(zhǔn)SGD優(yōu)化器,無需層凍結(jié),dropout,L2正規(guī)化或任何適應(yīng)梯度。別忘了把最后的預(yù)測層的權(quán)重初始化為0。

不用將所有輸入縮放為固定大小,例如224。在訓(xùn)練過程中,輸入圖像會隨機(jī)調(diào)整大小并裁剪為具有隨機(jī)選擇大小的正方形,并隨機(jī)水平翻轉(zhuǎn)。在測試階段,圖像會被縮放為固定大小,

盡管對于數(shù)據(jù)量充足的大規(guī)模數(shù)據(jù)集預(yù)訓(xùn)練來說,mixup 并沒有多大用處,但BiT發(fā)現(xiàn)misup正則化對于用于下游任務(wù)的中型數(shù)據(jù)集訓(xùn)練非常有用。

Learning Visual Representations with Caption Annotations

(https://arxiv.org/abs/2008.01392) 在大規(guī)模標(biāo)注的數(shù)據(jù)集上訓(xùn)練深度模型不僅可以使手頭的任務(wù)表現(xiàn)良好,還可以使模型學(xué)習(xí)對于下游任務(wù)的有用特征形式。但是,我們是否可以在不使用如此昂貴且細(xì)粒度的標(biāo)注數(shù)據(jù)的情況下獲得類似的特征表達(dá)能力呢?本文研究了使用噪聲標(biāo)注(在這種情況下為圖像標(biāo)題)的弱監(jiān)督預(yù)訓(xùn)練。

8e32ff08-5766-11eb-8b86-12bb97331649.png

目標(biāo)是用有限對圖像與說明文字來學(xué)習(xí)視覺表達(dá),那么,如何制定訓(xùn)練目標(biāo)以推動圖像及其標(biāo)題之間的有效交互?基于BER模型隨機(jī)掩蓋15% 的輸入字符,讓模型根據(jù) transformer 模型的編碼器輸出重建整個句子,該方法也隨機(jī)對圖像的文字說明進(jìn)行掩碼操作。論文提出了圖像條件化的掩蔽語言建模(ICMLM),其中利用圖像信息來重構(gòu)其相應(yīng)說明文字的掩碼的字符。為了解決這個問題,作者提出了兩種多模架構(gòu):(1)ICMLM tfm,使用一個卷積神經(jīng)網(wǎng)絡(luò)對原始圖像進(jìn)行編碼得到圖像特征,接著,經(jīng)過BERT處理的被掩碼的圖像說明、原始圖像說明以及圖像特征被級聯(lián)起來并通過一個 transformer 編碼器,最終輸出一個多模嵌入特征用于預(yù)估被掩碼的字符。(2)首先生成ICMLM att + fc,說明和圖像之間的相似度,接著經(jīng)過一個成對注意力模塊來整合圖像與文字說明之間的信息。得到的特征會經(jīng)過池化后再過一個全連接層來預(yù)測被掩碼的字符。

Memory-augmented Dense Predictive Coding for Video Representation Learning

(https://arxiv.org/abs/2008.01065) 近期在自監(jiān)督圖像表征學(xué)習(xí)領(lǐng)域的進(jìn)步在下游任務(wù)中展現(xiàn)出了令人印象深刻的效果。盡管視頻的多模表征學(xué)習(xí)多有發(fā)展,然而不使用其他任何類似于文本與語音的模態(tài)信息,但使用視頻流進(jìn)行自監(jiān)督學(xué)習(xí)還未有所發(fā)展。即使視頻的時域信息為自監(jiān)督地訓(xùn)練一個根據(jù)過去幀預(yù)測未來幀的模型提供了充足的監(jiān)督信號。由于確切的未來并不存在,并且在給定的時間步長內(nèi),對于未來狀態(tài)有許多可能和合理的假設(shè)(例如,當(dāng)動作是“打高爾夫球”時,那么下一幀可能是手或者高爾夫俱樂部)。

8e594726-5766-11eb-8b86-12bb97331649.png

本文將對比學(xué)習(xí)與存儲模塊結(jié)合使用,以解決未來幀的預(yù)測問題。為了減少不確定性,該模型會在特征級別上預(yù)測未來,并使用對比損失進(jìn)行訓(xùn)練以避免過度約束。為了處理多種假設(shè),一個存儲模塊用于同時推斷多個未來狀態(tài)。給定一組連續(xù)幀,2d-3d CNN編碼器(即ff)產(chǎn)生上下文特征,而GRU(即g)整合所有過去的信息,然后將其用于從共享存儲模塊中選擇插槽。然后,將預(yù)測的未來狀態(tài)作為所選存儲插槽的凸組合生成。然后,使用對比損失將預(yù)測的未來狀態(tài)與未來狀態(tài)的真實(shí)特征向量進(jìn)行比較。對于下游任務(wù),將g產(chǎn)生的特征匯總起來,然后提供給分類器處理。

SCAN: Learning to Classify Images without Labels

(https://arxiv.org/abs/2005.12320) 要將未標(biāo)記的輸入圖像分組為語義上有意義的聚類,我們需要僅使用視覺相似性來找到解決方案。先前的工作之一是(1)使用自我監(jiān)督的方法學(xué)習(xí)豐富的特征,然后對特征應(yīng)用k均值以找到聚類,但這很容易導(dǎo)致性能退化。(2)端到端群集方法,這些方法可以利用CNN的功能進(jìn)行深度聚類,也可以基于互信息最大化。但是,生成的聚類結(jié)果在很大程度上取決于初始化,并且很可能會陷入低級特征主導(dǎo)中。

8e9a9280-5766-11eb-8b86-12bb97331649.png

為了解決先前工作中發(fā)現(xiàn)的問題,本文提出了采用兩步過程的SCAN(采用最鄰方法的語義聚類)。第一步,通過前置任務(wù)學(xué)習(xí)特征表示,然后生成將語義上有意義的最近鄰用作先驗(yàn),以訓(xùn)練模型將每個圖像及其對應(yīng)的鄰居分為一類。模型通過損失函數(shù)來優(yōu)化,該函數(shù)會在 softmax 之后最大化輸出向量的點(diǎn)積,從而迫使網(wǎng)絡(luò)產(chǎn)生一致且有判別度的(one-hot 向量)預(yù)測。

GATCluster: Self-Supervised Gaussian-Attention Network for Image Clustering

(https://arxiv.org/abs/2002.11863)

聚類包括根據(jù)樣本相似性將數(shù)據(jù)分為多個聚類。傳統(tǒng)的方法是使用手工特征和特定于領(lǐng)域的距離函數(shù)來衡量相似度,但是這種手工制作的特征在表達(dá)能力上非常有限。隨后的工作將深度表示和聚類算法結(jié)合起來,但是當(dāng)輸入數(shù)據(jù)很復(fù)雜時,深度聚類的性能還是會受到影響。有效的聚類在特征層面必須同時包含高層判別性特征并獲取對象語義信息。在聚類步驟上,必須避免使用將樣本分配到單個或少數(shù)幾個集群的算法,并且聚類需要高效地應(yīng)用于大尺寸圖像。 本文提出了GATCluster,它直接輸出語義聚類標(biāo)簽而無需進(jìn)一步的后處理,其中學(xué)習(xí)到的特征是一個 one-hot 編碼向量,以避免弱解。GATCluster在平移不變性、可分離性最大化、熵分析和注意力映射約束下,通過四個自學(xué)習(xí)任務(wù)以無監(jiān)督的方式進(jìn)行了訓(xùn)練。

Associative Alignment for Few-shot Image Classification

(https://arxiv.org/abs/1912.05094) 小樣本圖像分類的目標(biāo)是在訓(xùn)練樣本很少的情況下,生成一個能夠?qū)W習(xí)識別新的圖像類的模型?,F(xiàn)在流行的方法之一是元學(xué)習(xí),它從大量包含基類的標(biāo)記數(shù)據(jù)中提取公共知識,并用于訓(xùn)練模型。然后訓(xùn)練該模型以僅用幾個樣本就可以對來自新穎概念的圖像進(jìn)行分類。元目標(biāo)是找到一組良好的初始權(quán)重集合,這些初始權(quán)重在接受新概念訓(xùn)練時會迅速收斂。有趣的是,最近的研究表明,不使用元學(xué)習(xí)的標(biāo)準(zhǔn)轉(zhuǎn)移學(xué)習(xí),其中特征提取器首先在基類上進(jìn)行了預(yù)訓(xùn)練,然后根據(jù)新的幾個類別上在預(yù)訓(xùn)練的提取器之上對分類器進(jìn)行了微調(diào)。,其性能和更復(fù)雜的元學(xué)習(xí)策略不相上下。但是為了避免過擬合,特征提取器對部分層的權(quán)重凍結(jié)會阻礙性能。

8ee2881a-5766-11eb-8b86-12bb97331649.png

本文提出了一種兩步法來解決這個問題。首先,特征提取器用于為新樣本生成特征。然后,使用嵌入空間中的相似性度量將每個樣本的特征映射到基類之一。第二步包括關(guān)聯(lián)對齊,其中對特征提取器進(jìn)行微調(diào),以便將新圖像的嵌入向量更靠近其相應(yīng)基礎(chǔ)圖像的嵌入。這可以通過以下方法完成:在每個基類的中心與新類比之間的距離減小的質(zhì)心對齊方式,也可以使用對抗性對齊,其中鑒別器迫使特征提取器在嵌入空間中對齊基礎(chǔ)圖像和新樣本。

三維計算機(jī)視覺以及機(jī)器人學(xué)

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

(https://arxiv.org/abs/2003.08934) 從2D圖像合成3D視圖是一個具有挑戰(zhàn)性的問題,尤其是在稀疏地采樣了輸入2D圖像的情況下。改目標(biāo)的任務(wù)是是訓(xùn)練一個模型,該模型拍攝3D場景的2D圖像集合(具有可選的相機(jī)姿勢及其內(nèi)參),然后,使用訓(xùn)練后的模型,我們可以渲染3D場景中未找到的新2D視圖。種成功的方法是基于體素的表示法,該表示方法使用離散的網(wǎng)格表示3D場景。使用3D CNN可以預(yù)測3D體素中對應(yīng)的RGB-alpha網(wǎng)格值。是,由于這種基于體素的方法復(fù)雜度與空間分辨率成三次比,難以優(yōu)化并且無法平滑地對場景表面進(jìn)行參數(shù)化,因此它們的存儲效率不高。計算機(jī)視覺社區(qū)的最新趨勢是使用全連接的神經(jīng)網(wǎng)絡(luò)將給定的3D場景表示為連續(xù)函數(shù)。因此,神經(jīng)網(wǎng)絡(luò)本身就是3D場景的壓縮表示,使用2D圖像集進(jìn)行訓(xùn)練,然后用于渲染新的視圖。但是,現(xiàn)有方法仍無法匹配現(xiàn)有基于voxed的方法。

8f0d778c-5766-11eb-8b86-12bb97331649.png

NeRF(神經(jīng)輻射場)使用9個層和256個通道的全連接網(wǎng)絡(luò)將場景表示為連續(xù)5D函數(shù),其輸入是單個連續(xù)5D函數(shù),即3D空間位置(xx,yy,zz)和視角方向(θθ,??),其輸出為RGB顏色和不透明度(輸出密度)。為了合成給定的視圖,渲染過程包括沿攝像機(jī)光心所在的直線查詢5D坐標(biāo),并使用經(jīng)典的體素渲染技術(shù)將輸出的顏色和密度投影到圖像中。由于體素渲染是可以區(qū)分的,因此優(yōu)化表示所需的唯一輸入就是具有已知攝影機(jī)姿勢參數(shù)的一組圖像。這樣,NeRF能夠有效地優(yōu)化神經(jīng)輻射場,以渲染具有復(fù)雜幾何形狀和外觀的場景的逼真視圖,并且在渲染的圖像和真實(shí)圖像之間具有簡單的重建損失,并證明其結(jié)果優(yōu)于先前的神經(jīng)渲染和視圖工作合成研究。

Towards Streaming Perception

(https://arxiv.org/abs/2005.10420) 諸如自動駕駛汽車之類的實(shí)際應(yīng)用需要類似于人類的快速反應(yīng)時間,通常為200毫秒。在這種情況下,需要使用低延遲算法來確保安全運(yùn)行。但是,即使經(jīng)常研究計算機(jī)視覺算法的延遲,也僅主要在離線環(huán)境中進(jìn)行了研究。在線視覺感知會帶來完全不同的延遲需求。因?yàn)榈搅怂惴ㄍ瓿商幚硖囟▓D像幀的時間(例如200毫秒后),周圍的世界就發(fā)生了變化,如下圖所示。這迫使感知最終預(yù)測了未來,這是人類視覺的基本屬性(例如,當(dāng)棒球運(yùn)動員擊中快球時,這是必需的)。

8f71467c-5766-11eb-8b86-12bb97331649.png

為了開發(fā)更好的基準(zhǔn)以反映現(xiàn)實(shí)情況,并使現(xiàn)有方法的比較更加容易。本文介紹了流感知的目標(biāo),即實(shí)時在線感知,并提出了一種新的元基準(zhǔn),該基準(zhǔn)將系統(tǒng)地將任何圖像理解任務(wù)系統(tǒng)地轉(zhuǎn)換為流圖像理解任務(wù)。該基準(zhǔn)基于基于以下 的幾點(diǎn)提出了:流感知需要在任何時刻都了解世界的狀態(tài)。因此,當(dāng)新幀到達(dá)時,流算法必須報告世界的狀態(tài),即使它們尚未處理前一幀,也迫使它們考慮在進(jìn)行計算時應(yīng)忽略的流數(shù)據(jù)量。具體來說,當(dāng)比較模型的輸出和真實(shí)標(biāo)簽時,對齊是使用時間而不是輸入索引來完成的,因此在處理相應(yīng)的輸入之前,模型需要對時間步t給出正確的預(yù)測,即驗(yàn)證模型需要Δt來處理輸入并處理,它只能使用t-Δt之前的數(shù)據(jù)來預(yù)測在時間t對應(yīng)于輸入的輸出。

Teaching Cameras to Feel: Estimating Tactile Physical Properties of Surfaces From Images

(https://arxiv.org/abs/2004.14487) 人類能夠在小時候就開始形成一種心理模型,該模型以對物體的感知和對應(yīng)的觸覺來映射,這是基于與不同物品互動時的先前經(jīng)驗(yàn)。當(dāng)與新對象進(jìn)行交互時,尤其是當(dāng)簡單的對象類別無法提供足夠的信息以準(zhǔn)確估計觸覺物理特性時,讓具有這種心理模型的自主智能體成為非常有價值的工具。

90571a26-5766-11eb-8b86-12bb97331649.png

為了更直接地模擬這種心理模型,本文提出直接估計物理特性,從而允許直接利用對象的屬性。首先,作者提出了包含400多個表面圖像序列和觸覺特性測量值的數(shù)據(jù)集。因?yàn)楫?dāng)估計表面特性時,人們經(jīng)常不自覺地移動他們的頭部,獲取表面的多個視圖,所以所捕獲的圖像序列包括每個材料表面的多個視角。然后,他們提出了一種跨模式框架,用于學(xué)習(xí)視覺提示到觸覺特性的復(fù)雜映射。該模型的訓(xùn)練目標(biāo)是在給定視覺信息的情況下生成精確的觸覺特性估計。視覺和觸覺信息都通過單獨(dú)的編碼器網(wǎng)絡(luò)嵌入到共享的潛在空間中。然后,生成器函數(shù)根據(jù)嵌入的視覺矢量估算觸覺屬性值。鑒別器網(wǎng)絡(luò)學(xué)習(xí)預(yù)測觸覺-視覺對是真實(shí)的還是合成的例子。在推斷期間,如果輸入圖像,則使用編碼器-生成器對來推斷觸覺屬性。

909e49a0-5766-11eb-8b86-12bb97331649.png

Convolutional Occupancy Networks

(https://arxiv.org/abs/2003.04618) 三維重建是計算機(jī)視覺中的一個重要問題,有著廣泛的應(yīng)用。對于三維幾何圖形的理想表示,我們需要能夠達(dá)到以下幾點(diǎn):a)編碼復(fù)雜的幾何圖形和任意拓?fù)浣Y(jié)構(gòu),b)縮放到大型場景,c)封裝局部和全局信息,以及d)在內(nèi)存和計算方面易于處理。然而,現(xiàn)有的三維重建表示方法并不能滿足所有這些要求。雖然最近的隱式神經(jīng)表示在三維重建中表現(xiàn)出了令人印象深刻的性能,但是由于使用了一種簡單的全連接的網(wǎng)絡(luò)結(jié)構(gòu),這種結(jié)構(gòu)不允許在觀測值中集成局部信息,也不允許包含諸如平移等變的歸納偏差,因此它們有著一些局限性。

90c73e82-5766-11eb-8b86-12bb97331649.png

Convolutional Occupancy Networks卷積占用網(wǎng)絡(luò)使用卷積編碼器和隱式占用解碼器結(jié)合來歸納偏差,并實(shí)現(xiàn)三維空間的結(jié)構(gòu)化推理。從而得到單個對象進(jìn)行隱式三維重建,具有擴(kuò)展到大型室內(nèi)場景的能力,并能很好地從合成數(shù)據(jù)推廣到真實(shí)數(shù)據(jù)。

圖像和視頻合成

Transforming and Projecting Images into Class-conditional Generative Networks

(https://arxiv.org/abs/2005.01703) GaNs能夠從不同的類別中生成不同的圖像。例如,BigGaN,一個類體哦阿健生成對抗網(wǎng)絡(luò)GaN,給定一個噪聲向量z和一個類嵌入向量c,該模型能夠生成對應(yīng)類的新的圖像。然后,就可以通過編輯噪聲向量的隱變量和類別嵌入向量來操縱圖像。但反過來可能嗎?例如,給定一幅輸入圖像,我們能找到與該圖像最匹配的潛變量z和嵌入類向量c嗎?這個問題仍然具有挑戰(zhàn)性,因?yàn)樵S多輸入圖像不能由GaN生成。另外,由于目標(biāo)函數(shù)具有多個局部極小值,搜索算法容易陷入此類局部極小值區(qū)域。

910eaf24-5766-11eb-8b86-12bb97331649.png

為了解決這些問題,本文提出了兩種新的思路:估計輸入圖像的尺度變換,以及使用非局部搜索算法來尋找更好的解。如上所示,給定輸入圖像,pix2potent首先找到最佳仿射變換,使得變換后的輸入可能由GaN生成,然后使用所提出的basicma優(yōu)化方法將圖像投影到隱空間中。然后對獲得的隱變量進(jìn)行編輯,將其投影回圖像空間,獲得編輯后的圖像,然后可以使用初始仿射變換的逆運(yùn)算對其進(jìn)行變換并得到圖像。

Contrastive Learning for Unpaired Image-to-Image Translation

(https://arxiv.org/abs/2007.15651)

給定兩組不同屬性和模式的圖像對訓(xùn)練集,例如馬和斑馬的圖像組合,非配對圖像到圖像的轉(zhuǎn)換的目的是學(xué)習(xí)兩種模圖像式之間的變化函數(shù),例如將馬轉(zhuǎn)換為斑馬,反之亦然,同時保留諸如姿勢或大小等敏感信息,而不必確保兩種模式之間的一對一匹配集?,F(xiàn)有的方法,如CycleGaN迫使模型能夠?qū)⑥D(zhuǎn)換后的圖像變換回原始圖像。但是這樣的方法假設(shè)一個雙射變換,這通有太多限制,因?yàn)橐粋€給定的變換后的圖像可能有許多似是而非的源圖像。一個理想的損失應(yīng)該是在不同的樣式下仍然保持不變的,不同的風(fēng)格,但區(qū)分敏感信息。

9146e934-5766-11eb-8b86-12bb97331649.png

Contrastive Unpaired Translation(CUT)旨在學(xué)習(xí)這樣一個嵌入空間。除了標(biāo)準(zhǔn)的GAN損失外,生成器被訓(xùn)練生成夠真實(shí)的翻譯圖像,而鑒別器試圖區(qū)分轉(zhuǎn)換圖像和真實(shí)圖像。還要增加一個額外的損失,用來迫使網(wǎng)絡(luò)對輸入圖像與轉(zhuǎn)換圖像的對應(yīng)圖像塊生成相似的嵌入向量。該損失在優(yōu)化時采用對比損失,即拉近兩個對應(yīng)圖像塊的嵌入向量的距離,同時拉遠(yuǎn)給定圖像塊和隨機(jī)抽樣圖像塊嵌入之間的距離(只使用同一輸入圖像的內(nèi)部區(qū)塊,其他圖像的區(qū)塊會降低性能)。


Rewriting a Deep Generative Model

(https://arxiv.org/abs/2007.15646) GAN 能夠?qū)?shù)據(jù)分布中豐富的語義和物理規(guī)則進(jìn)行建模,但是到目前為止,這些規(guī)則是如何在網(wǎng)絡(luò)中編碼的,或者一個規(guī)則是如何被改變的我們還不是十分清楚。本文介紹了一種新的問題:操作由深度生成網(wǎng)絡(luò)模型編碼的特定規(guī)則。因此,給定一個生成模型,目標(biāo)是調(diào)整其權(quán)重,使新的和修改后的模型遵循新的規(guī)則,并生成遵循新規(guī)則集的圖像,如下所示。

91b133ac-5766-11eb-8b86-12bb97331649.png

通過將網(wǎng)絡(luò)的每一層視為一個關(guān)聯(lián)存儲器,將潛在生成規(guī)則儲存為隱藏特征上的一組鍵值關(guān)系??梢酝ㄟ^定義約束優(yōu)化來編輯和修改模型,約束優(yōu)化在關(guān)聯(lián)性儲存器中添加或編輯一個特定規(guī)則,同時盡可能保留模型中現(xiàn)有的語義關(guān)系。論文直接通過度量和操縱模型的內(nèi)部結(jié)構(gòu)來實(shí)現(xiàn)這一點(diǎn),而不需要任何新的訓(xùn)練數(shù)據(jù)。

Learning Stereo from Single Images

(https://arxiv.org/abs/2008.01484) 給定一對對應(yīng)的圖像,視差匹配的目標(biāo)是估計從第一視圖到第二視圖的每個像素的對應(yīng)位置之間的每像素水平位移(即視差),反之亦然。雖然全監(jiān)督的方法可以給出很好的結(jié)果,但一對視察圖像之間精確的真實(shí)視差往往很難獲得。一種可能的替代方法是對合成數(shù)據(jù)進(jìn)行訓(xùn)練,然后對有限數(shù)量的實(shí)際標(biāo)記數(shù)據(jù)進(jìn)行微調(diào)。但是,如果沒有一個帶有足夠標(biāo)簽的微調(diào)步驟,這樣的模型就不能很好地生成真實(shí)的圖像。

91e2e46a-5766-11eb-8b86-12bb97331649.png

該文提出了一種新的、全自動的視差估計訓(xùn)練流程,通過使用圖像深度估計網(wǎng)絡(luò),該方法可以由已知深度信息的非結(jié)構(gòu)化單幅圖像生成視差估計訓(xùn)練數(shù)據(jù),這樣就無需人工合成數(shù)據(jù)或真實(shí)視差圖像對即可進(jìn)行訓(xùn)練。。首先,通過使用深度視差的前向形變操作將給定的左輸入圖像轉(zhuǎn)換為合成的右圖像。然后,利用視差圖像對,以有監(jiān)督的方式對視差估計網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到一個泛化的模型。

What makes fake images detectable? Understanding properties that generalize

(https://arxiv.org/abs/2008.10588) 雖然GaN生成圖像的質(zhì)量已經(jīng)達(dá)到了令人印象深刻的水平,但是經(jīng)過訓(xùn)練的深度網(wǎng)絡(luò)仍然可以檢測到生成圖像中的細(xì)微偽影,并且這種訓(xùn)練的網(wǎng)絡(luò)還可以在不同數(shù)據(jù)集和不同方法上訓(xùn)練的多個模型中發(fā)現(xiàn)相同的偽影。本文旨在可視化和理解哪些工件在模型之間是共享的,并且容易在不同的場景中檢測和轉(zhuǎn)移。

921c9d90-5766-11eb-8b86-12bb97331649.png

由于全局面部結(jié)構(gòu)在不同的生成器和數(shù)據(jù)集之間可能有所不同,因此生成的圖像的局部面片更加確定,并且可能產(chǎn)生冗余的偽影。為此,本文采用了一種基于區(qū)塊的全卷積分類器來關(guān)注局部區(qū)塊而不是全局結(jié)構(gòu)。然后可以使用路徑級分類器來可視化和分類在各種測試數(shù)據(jù)集中最能指示真實(shí)或虛假圖像的區(qū)塊。另外,可以對生成的圖像進(jìn)行操作以夸大假圖像的特征屬性。

視覺和語言

Connecting Vision and Language with Localized Narratives

(https://arxiv.org/abs/1912.03098) 連接視覺和語言的一種流行方式是圖像標(biāo)題,其中每個圖像都與人類編寫的文本標(biāo)題配對,但這種鏈接僅在完整的圖像尺度范圍內(nèi),其中的文本描述了整個圖像。為了改進(jìn)這種若的關(guān)聯(lián),有人嘗試著將圖片標(biāo)題的特定部分和圖像中的目標(biāo)框聯(lián)系起來。但是,這種關(guān)聯(lián)仍然非常稀疏,大多數(shù)對象和單詞都沒有對應(yīng)的目標(biāo)框,且注釋過程可能會非常昂貴。

9245c242-5766-11eb-8b86-12bb97331649.png

本文提出了一種新的有效的多模態(tài)圖像標(biāo)注形式,稱之為定位敘事。定位敘述是通過要求注釋者用他們的聲音描述一個圖像,同時將鼠標(biāo)懸停在他們描述的區(qū)域上而生成的。例如,如上圖所示,注釋者一邊說“woman”,一邊用鼠標(biāo)指示她的空間范圍,從而為這個名詞提供了視覺基礎(chǔ)。后來,他們把鼠標(biāo)從女人身上移到氣球上,跟著氣球的繩子,說“holding”。這為這種關(guān)系提供了直接的視覺基礎(chǔ)。它們還描述了“晴朗的藍(lán)天”和“淺藍(lán)色牛仔褲”等屬性。由于語音與鼠標(biāo)指針同步,因此可以確定描述中每個單詞的圖像位置。這以鼠標(biāo)軌跡段的形式為每個單詞提供了密集視覺基礎(chǔ)。這一豐富的注釋方法具有多種形式(圖像、文本、語音和位置),可用于文本到圖像生成、視覺問答和語音驅(qū)動的環(huán)境導(dǎo)航等不同的任務(wù)。或者,為了更精細(xì)地控制任務(wù),可以在圖像的特定部分設(shè)置條件化字幕,視力不理想的人可以通過將手指懸停在圖像上來獲得特定部分的描述。

UNITER: UNiversal Image-TExt Representation Learning

(https://arxiv.org/abs/1909.11740) 大多數(shù)視覺與語言任務(wù)(V&L)如視覺問答(VQA)依賴于多模態(tài)聯(lián)合嵌入來彌補(bǔ)圖像和文本中視覺和文本線索之間的語義鴻溝。但是這種表示通常是為特定的任務(wù)定制的,并且需要特定的體系結(jié)構(gòu)。為了學(xué)習(xí)可用于所有V&L下游任務(wù)的通用聯(lián)合嵌入。本文介紹了一種大規(guī)模聯(lián)合多模態(tài)嵌入預(yù)訓(xùn)練模型 UNITER ,如下圖所示。在transformer模型的基礎(chǔ)上,對UNITER進(jìn)行了4個任務(wù)的預(yù)訓(xùn)練:基于圖像的蒙版語言建模(MLM),利用圖像和文本特征恢復(fù)隨機(jī)蒙版單詞。以文本為條件的蒙版區(qū)域建模(MRM),即重構(gòu)給定圖像的某些區(qū)域;圖像文本匹配(ITM),即預(yù)測圖像和文本實(shí)例是否配對;以及單詞區(qū)域?qū)R(WRA),即學(xué)習(xí)最佳變換找到單詞和圖像之間的最佳對齊。為了在下游任務(wù)中使用UNITER,首先將其重新表示為分類問題,然后使用交叉熵?fù)p失對添加在[CLS]特征上的分類器進(jìn)行訓(xùn)練。

928aef2a-5766-11eb-8b86-12bb97331649.png

Learning to Learn Words from Visual Scenes

(https://arxiv.org/abs/1911.11237) 視覺和語言任務(wù)的標(biāo)準(zhǔn)方法是學(xué)習(xí)一個共同的嵌入空間,但是這種方法效率很低,通常需要數(shù)百萬個例子來學(xué)習(xí),對語言的自然構(gòu)成結(jié)構(gòu)的泛化很差,而且所學(xué)嵌入在推理時無法適應(yīng)新詞。因此,本文提出讓網(wǎng)絡(luò)嘗試學(xué)習(xí)單詞嵌入的過程,而不是學(xué)習(xí)單詞嵌入。

92de1bbe-5766-11eb-8b86-12bb97331649.png

該模型基于transformer模型,在每次迭代中,該模型接收一個圖像語言對,然后元學(xué)習(xí)一個策略從該集中獲取詞表示。這就使得我們能夠在推理時獲得新單詞的表示,并且能夠更魯棒地推廣到新的描述任務(wù)中。具體來說,每一個任務(wù)都是一個語言習(xí)得任務(wù)或一個小插曲,由訓(xùn)練樣本和測試樣本組成,測試樣本對從訓(xùn)練樣本中獲得的語言進(jìn)行評價。例如,在上圖中,模型需要從訓(xùn)練樣本中獲取單詞“chair”,這是它以前從未見過的單詞。元訓(xùn)練是在向前傳遞中完成的,并使得模型需要指向訓(xùn)練示例中正確的單詞“chair”,并使用匹配損失來訓(xùn)練整個模型。經(jīng)過多種事件和任務(wù)的訓(xùn)練,該模型能夠很快適應(yīng)推理過程中的新任務(wù)。 結(jié)語 讓人感到遺憾的是,論文的數(shù)量使得總結(jié)任務(wù)變得困難和耗時。所以對于其余的論文,我將簡單地列出一些我遇到的論文的標(biāo)題,如果讀者對這些主題感興趣的話也方便自行查找研究(參考原文)。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:ECCV 2020 亮點(diǎn)摘要(下)

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    科普|通信射頻接頭學(xué)習(xí)

    科普|通信射頻接頭學(xué)習(xí)
    的頭像 發(fā)表于 08-19 17:09 ?545次閱讀
    科普|通信射頻接頭<b class='flag-5'>學(xué)習(xí)</b>

    機(jī)器學(xué)習(xí)異常檢測實(shí)戰(zhàn):用Isolation Forest快速構(gòu)建標(biāo)簽異常檢測系統(tǒng)

    本文轉(zhuǎn)自:DeepHubIMBA監(jiān)督異常檢測作為機(jī)器學(xué)習(xí)領(lǐng)域的重要分支,專門用于在缺乏標(biāo)記數(shù)據(jù)的環(huán)境中識別異常事件。本文深入探討異常檢測技術(shù)的理論基礎(chǔ)與實(shí)踐應(yīng)用,通過IsolationForest
    的頭像 發(fā)表于 06-24 11:40 ?1026次閱讀
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>異常檢測實(shí)戰(zhàn):用Isolation Forest快速構(gòu)建<b class='flag-5'>無</b>標(biāo)簽異常檢測系統(tǒng)

    DeepSeeK學(xué)習(xí)資料

    104頁DeepSeeK學(xué)習(xí)資料(清華)
    發(fā)表于 06-08 09:57 ?2次下載

    使用MATLAB進(jìn)行監(jiān)督學(xué)習(xí)

    監(jiān)督學(xué)習(xí)是一種根據(jù)未標(biāo)注數(shù)據(jù)進(jìn)行推斷的機(jī)器學(xué)習(xí)方法。監(jiān)督學(xué)習(xí)旨在識別數(shù)據(jù)中隱藏的模式和關(guān)系,無需任何
    的頭像 發(fā)表于 05-16 14:48 ?1011次閱讀
    使用MATLAB進(jìn)行<b class='flag-5'>無</b><b class='flag-5'>監(jiān)督學(xué)習(xí)</b>

    如何優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)

    優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率是提高模型訓(xùn)練效率和性能的關(guān)鍵步驟。以下是一些優(yōu)化BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率的方法: 一、理解學(xué)習(xí)率的重要性 學(xué)習(xí)率決定了模型參數(shù)在每次迭代時更新的幅度。過大的
    的頭像 發(fā)表于 02-12 15:51 ?1268次閱讀

    如何快速學(xué)習(xí)硬件電路

    對于想要學(xué)習(xí)硬件電路的新手來說,一開始可能感到有些困難,但只要掌握了正確的學(xué)習(xí)方法和技巧,就能夠快速地成為一名優(yōu)秀的硬件電路工程師。 首先,新手需要了解基本的電路知識,例如電阻、電容、電感等。這些
    的頭像 發(fā)表于 01-20 11:11 ?1695次閱讀
    如何快速<b class='flag-5'>學(xué)習(xí)</b>硬件電路

    傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    在上一篇文章中,我們介紹了機(jī)器學(xué)習(xí)的關(guān)鍵概念術(shù)語。在本文中,我們會介紹傳統(tǒng)機(jī)器學(xué)習(xí)的基礎(chǔ)知識和多種算法特征,供各位老師選擇。 01 傳統(tǒng)機(jī)器學(xué)習(xí) 傳統(tǒng)機(jī)器學(xué)習(xí),一般指不基于神經(jīng)網(wǎng)絡(luò)的算
    的頭像 發(fā)表于 12-30 09:16 ?1587次閱讀
    傳統(tǒng)機(jī)器<b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

    什么是機(jī)器學(xué)習(xí)?通過機(jī)器學(xué)習(xí)方法能解決哪些問題?

    來源:Master編程樹“機(jī)器學(xué)習(xí)”最初的研究動機(jī)是讓計算機(jī)系統(tǒng)具有人的學(xué)習(xí)能力以便實(shí)現(xiàn)人工智能。因?yàn)闆]有學(xué)習(xí)能力的系統(tǒng)很難被認(rèn)為是具有智能的。目前被廣泛采用的機(jī)器學(xué)習(xí)的定義是“利用經(jīng)
    的頭像 發(fā)表于 11-16 01:07 ?1349次閱讀
    什么是機(jī)器<b class='flag-5'>學(xué)習(xí)</b>?通過機(jī)器<b class='flag-5'>學(xué)習(xí)</b>方法能解決哪些問題?

    時空引導(dǎo)下的時間序列自監(jiān)督學(xué)習(xí)框架

    【導(dǎo)讀】最近,香港科技大學(xué)、上海AI Lab等多個組織聯(lián)合發(fā)布了一篇時間序列監(jiān)督預(yù)訓(xùn)練的文章,相比原來的TS2Vec等時間序列表示學(xué)習(xí)工作,核心在于提出了將空間信息融入到預(yù)訓(xùn)練階段,即在預(yù)訓(xùn)練階段
    的頭像 發(fā)表于 11-15 11:41 ?1056次閱讀
    時空引導(dǎo)下的時間序列自<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>框架

    NPU與機(jī)器學(xué)習(xí)算法的關(guān)系

    在人工智能領(lǐng)域,機(jī)器學(xué)習(xí)算法是實(shí)現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復(fù)雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學(xué)習(xí)等機(jī)器學(xué)習(xí)任務(wù)設(shè)計的處理器,其與機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 11-15 09:19 ?1670次閱讀

    NPU在深度學(xué)習(xí)中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其核心驅(qū)動力之一,已經(jīng)在眾多領(lǐng)域展現(xiàn)出了巨大的潛力和價值。NPU(Neural Processing Unit,神經(jīng)網(wǎng)絡(luò)處理單元)是專門為深度學(xué)習(xí)
    的頭像 發(fā)表于 11-14 15:17 ?2547次閱讀

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是一種機(jī)器學(xué)習(xí)方法,它通過與環(huán)境的交互來學(xué)習(xí)如何做出決策,以最大化累積獎勵。PyTorch 是一個流行的開源機(jī)器學(xué)習(xí)庫,
    的頭像 發(fā)表于 11-05 17:34 ?1293次閱讀

    GPU深度學(xué)習(xí)應(yīng)用案例

    GPU在深度學(xué)習(xí)中的應(yīng)用廣泛且重要,以下是一些GPU深度學(xué)習(xí)應(yīng)用案例: 一、圖像識別 圖像識別是深度學(xué)習(xí)的核心應(yīng)用領(lǐng)域之一,GPU在加速圖像識別模型訓(xùn)練方面發(fā)揮著關(guān)鍵作用。通過利用GPU的并行計算
    的頭像 發(fā)表于 10-27 11:13 ?1920次閱讀

    人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)存在什么區(qū)別

    人工智能指的是在某種程度上顯示出類似人類智能的設(shè)備。AI有很多技術(shù),但其中一個很大的子集是機(jī)器學(xué)習(xí)——讓算法從數(shù)據(jù)中學(xué)習(xí)。
    發(fā)表于 10-24 17:22 ?3326次閱讀
    人工智能、機(jī)器<b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>存在什么區(qū)別

    AI大模型與深度學(xué)習(xí)的關(guān)系

    AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系,它們互為促進(jìn),相輔相成。以下是對兩者關(guān)系的介紹: 一、深度學(xué)習(xí)是AI大模型的基礎(chǔ) 技術(shù)支撐 :深度學(xué)習(xí)是一種機(jī)器學(xué)習(xí)的方法,通過多層神經(jīng)網(wǎng)
    的頭像 發(fā)表于 10-23 15:25 ?3382次閱讀