欧美一级AAAAAA片在线看黑人,91亚洲人成电影网站在线观看,五月丁香拍拍激情综合三屁

【導(dǎo)讀】軟注意力機(jī)制已在計算機(jī)視覺領(lǐng)域取得了廣泛的應(yīng)用和成功。但是我們發(fā)現(xiàn)硬注意力機(jī)制在計算機(jī)視覺任務(wù)中的研究還相對空白。而硬注意力機(jī)制能夠從輸入信息中選擇重要的特征，因此它被視為是一種比軟注意力機(jī)制更高效的方法。本次，將為大家介紹一種通過引入硬注意力機(jī)制來引導(dǎo)學(xué)習(xí)視覺回答任務(wù)的研究。此外結(jié)合L2 正則化篩選特征向量，可以高效地促進(jìn)篩選的過程并取得更好的整體表現(xiàn)，而無需專門的學(xué)習(xí)過程。

摘要

生物感知中的注意機(jī)制主要是用于為復(fù)雜處理過程選擇感知信息子集，以對所有感官輸入執(zhí)行禁止操作。軟注意力機(jī)制 (soft attention mechanism) 通過選擇性地忽略部分信息來對其余信息進(jìn)行重加權(quán)聚合計算，已在計算機(jī)視覺領(lǐng)域取得了廣泛的應(yīng)用和成功。然而，我們對于硬注意力機(jī)制 (hard attention mechanism) 的探索卻相對較少，在這里，我們引入一種新的硬注意力方法，它能夠在最近發(fā)布的一些視覺問答數(shù)據(jù)庫中取得有競爭力的表現(xiàn)，甚至在一些數(shù)據(jù)集中的性能超過了軟注意力機(jī)制。雖然硬注意力機(jī)制通常被認(rèn)為是一種不可微分的方法，我們發(fā)現(xiàn)特征量級與語義相關(guān)性是相關(guān)的，并能為我們提供有用的信號來篩選注意力機(jī)制選擇標(biāo)準(zhǔn)。由于硬注意力機(jī)制能夠從輸入信息中選擇重要的特征，因此它被視為是一種比軟注意力機(jī)制更高效的方法，特別地對于最近研究中使用非局部逐對操作 (non-local pairwise) 而言，其計算和內(nèi)存成本的消耗是巨大的。

簡介

視覺注意力有助于促進(jìn)人類在復(fù)雜視覺推理多方面的能力。例如，對于需要在人群中識別出狗的任務(wù)，視覺系統(tǒng)能夠自適應(yīng)地分配更多的計算處理資源，對狗及其潛在的目標(biāo)或場景進(jìn)行視覺信息處理。當(dāng)觀察者正觀察場景中的其他目標(biāo)，而未發(fā)覺到一些引人注目的實(shí)體時，這種感知效果將變得非常顯著。盡管注意力機(jī)制并不是計算機(jī)視覺領(lǐng)域中的一項(xiàng)變革性的技術(shù)，但由于許多計算機(jī)視覺任務(wù)，如檢測，分割和分類，并沒有涉及復(fù)雜的視覺推理過程，因此這種注意力機(jī)制對計算機(jī)視覺任務(wù)而言還是有幫助的。

視覺問答任務(wù)是一項(xiàng)需要復(fù)雜推理過程的視覺任務(wù)，在近些年得到廣泛的關(guān)注并取得了長足的進(jìn)步。成功的視覺問答框架必須要能夠處理多個對象及其之間復(fù)雜的關(guān)系，同時還要能夠集成豐富的目標(biāo)背景知識。我們意識到計算機(jī)視覺中的軟注意力機(jī)制主要是通過加權(quán)聚合部分重要信息來提高視覺處理的準(zhǔn)確性，但對于計算機(jī)視覺中的硬注意力機(jī)制的研究相對空白。

在這里，我們探索一種簡單的硬注意力機(jī)制，來引導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)的特征表征：特征學(xué)習(xí)通常需要為硬注意力的選擇提供一種簡單的訪問信號。特別地，用 L2 正則化篩選這些特征向量已被驗(yàn)證是一種有助于硬注意力機(jī)制的方法，它能夠高效地促進(jìn)篩選的過程并取得更好的整體表現(xiàn)，而無需專門的學(xué)習(xí)過程。下圖1展示了這種方法的結(jié)果。注意力信號直接源自于標(biāo)準(zhǔn)的監(jiān)督任務(wù)損失函數(shù)，而無需任何明確的監(jiān)督信號來激活正則化，也無需其他潛在的措施。

圖1 基于給定的自然圖像和文本問題輸入，我們的視覺問答架構(gòu)得到的輸出結(jié)果圖。這里，我們使用了一種硬注意機(jī)制，只對那些重要的視覺特征進(jìn)行選擇并處理。基于我們模型結(jié)構(gòu)，正則化后視覺特征的相關(guān)性以及那些具有高度相關(guān)性并包含重要語義內(nèi)容的特征向量的前提，生成我們的注意力圖像。

此外，通過對特征向量的 L2 正則化處理來選擇重要性特征，我們的視覺問答框架進(jìn)一步采用硬注意力機(jī)制進(jìn)行增強(qiáng)。我們將最初的版本成為硬注意力網(wǎng)絡(luò) HAN (Hard Attention Network)，用于通過頂層正則化項(xiàng)來選擇固定數(shù)量的特征向量。第二個版本我們稱之為自適應(yīng)的硬注意力網(wǎng)絡(luò) AdaHAN (Hard Hard Attention Network)，這是基于輸入來決定特征向量的可變數(shù)量的一種網(wǎng)絡(luò)結(jié)構(gòu)。我們在大量的數(shù)據(jù)集上評估我們的方法，實(shí)驗(yàn)結(jié)果表明我們的算法能夠在多個視覺問答數(shù)據(jù)及上實(shí)現(xiàn)與軟注意力機(jī)制相當(dāng)?shù)男阅堋４送?，我們的方法還能產(chǎn)生可解釋的硬注意力掩模，其中所選的圖像特征區(qū)域通常包含一些相應(yīng)的重要語義信息，如一些連貫的對象。相比于非局部成對模型，我們的方法也能取得相當(dāng)出色的表現(xiàn)。

方法

下圖2展示了我們提出的用于學(xué)習(xí)從圖像和問題映射到答案的模型結(jié)構(gòu)。我們用卷積神經(jīng)網(wǎng)絡(luò) (CNN) 對圖像進(jìn)行編碼(在這里采用的是預(yù)訓(xùn)練的 ResNet-101 模型，或是從頭開始訓(xùn)練小型的 CNN 模型)，并用 LSTM 將問題編碼為一個固定長度的矢量表征。通過將答案復(fù)制到 CNN 模型中每個空間位置并將其與視覺特征相連接，我們計算得到組合表征。經(jīng)過幾層組合處理后，我們在空間位置上引入注意力機(jī)制，這與先前研究中引入軟注意力機(jī)制的過程是一致的。最后，我們將特征聚合，并使用池化和 (sum-pooling) 或關(guān)系模塊 (relational modules)，通過計算答案類別的標(biāo)準(zhǔn)邏輯回歸損失來端到端地訓(xùn)練整個網(wǎng)絡(luò)。

圖2 我們在模型中引入硬注意力機(jī)制來代替軟注意力機(jī)制，并遵循標(biāo)準(zhǔn)視覺問答框架的其他結(jié)構(gòu)。圖像和問題都被編碼成各自的矢量表征。隨后，空間視覺特征的編碼被進(jìn)一步表示，而問題嵌入相應(yīng)地通過傳播和連接 (或添加) 以形成多模式輸入表征。我們的注意力機(jī)制能夠有選擇性地選擇用于下一次聚合和處理多模式向量的應(yīng)答模塊。

▌1.硬注意力機(jī)制

我們引入了一種新的硬注意力機(jī)制，它在空間位置上產(chǎn)生二進(jìn)制掩碼，并確定用于下一步處理的特征選擇。我們將我們的方法稱為硬注意力網(wǎng)絡(luò) (HAN)，其核心在于對每個空間位置使用 L2 正則化激活以生成該位置相關(guān)性。L2 范數(shù)和相關(guān)性之間的關(guān)系是 CNN 訓(xùn)練特征的一種新屬性，這不需要額外的約束或目標(biāo)。我們的結(jié)構(gòu)也只是對這種現(xiàn)象進(jìn)行引導(dǎo)而沒有明確地訓(xùn)練該網(wǎng)絡(luò)。

因此，與軟注意力機(jī)制相比，我們的方法不需要額外的參數(shù)學(xué)習(xí)。HAN 只需要一個額外的、可解釋的超參數(shù)：即輸入單元所使用的稀疏，也是用于權(quán)衡訓(xùn)練速度和準(zhǔn)確性的參數(shù)。

▌2.特征聚合

池化和在引入注意力機(jī)制后，減少特征矢量的一種簡單方法是將其進(jìn)行池化和操作以生成長度固定的矢量。在注意力權(quán)重向量為 w 的軟注意力條件下，我們很容易計算得到向量的池化和。在硬注意力條件下，基于選擇的特征，我們也可以由此類比地計算。

非局部逐對操作為進(jìn)一步改善池化和的性能，我們探索一種與通過非局部成對計算來演繹推理相類似的方法。其數(shù)學(xué)描述如下：

在這里，softmax 函數(shù)作用于所有的 i, j 位置。我們的方法能夠成對地計算非局部嵌入之間的關(guān)系，獨(dú)立于空間或時間的近似度。硬注意力機(jī)制能夠幫助我們減少所要考慮的設(shè)置，因此我們的目標(biāo)在于測試通過硬注意力選擇的特征是否能與此操作相兼容。

實(shí)驗(yàn)

為了展示硬注意力機(jī)制對視覺問答任務(wù)的重要性，我們首先在 VQA-CP v2 數(shù)據(jù)集上，將 HAN 與現(xiàn)有的軟注意力網(wǎng)絡(luò) SAN 進(jìn)行比較分析，并通過卷積映射直接控制空間單元出現(xiàn)的數(shù)量來探索不同程度的硬注意力的影響。隨后，我們評估 AdaHAN 模型并研究網(wǎng)絡(luò)深度和預(yù)訓(xùn)練策略的影響，這是一種能夠自適應(yīng)地選擇單元出現(xiàn)數(shù)量的一種模型。最后，我們展示了定性的實(shí)驗(yàn)結(jié)果，并提供了在 CLEVR 數(shù)據(jù)集上的結(jié)果，以表明我們方法的通用性。

▌1.實(shí)驗(yàn)細(xì)節(jié)

我們的模型都使用相同的 LSTM 模型用于問題嵌入，其大小為512，并采用在ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的 ResNet-101 模型的最后一個卷積層 (能夠產(chǎn)生10×10空間表征，每個具有2048個維度)，用于圖像嵌入。此外，我們還使用3層大小分別為1024、2048、1000的 MLP 結(jié)構(gòu)，作為一個分類模型。我們使用 ADAM 進(jìn)行優(yōu)化，采用分布式設(shè)置，以128每批次大小來計算梯度值，并根據(jù)經(jīng)驗(yàn)在Visual QA數(shù)據(jù)集上選擇默認(rèn)的超參數(shù)。

▌2.數(shù)據(jù)集

VQA-CP v2 數(shù)據(jù)集的結(jié)果：VQA-CP v2 數(shù)據(jù)集包含 121K (98K) 張圖像數(shù)據(jù)，438K (220K) 條問題數(shù)據(jù)以及 4.4M (2.2M) 答案數(shù)據(jù)。該數(shù)據(jù)集提供了標(biāo)準(zhǔn)的訓(xùn)練測試過程，并將問題分解為不同的類型：如答案為肯定/否定類型，答案是數(shù)字類型，以及其他類型等，這有助于我們用每種問題類型準(zhǔn)確性來評估網(wǎng)絡(luò)架構(gòu)的性能。

CLEVR：CLEVR 是一個合成數(shù)據(jù)庫，由 100K 張 3D 渲染圖像組成，如球體、圓柱體等。雖然視覺任務(wù)相對簡單，但解決這個數(shù)據(jù)集也需要推理目標(biāo)間的復(fù)雜關(guān)系。

▌3.結(jié)果分析

硬注意力機(jī)制的影響

我們考慮最基礎(chǔ)的硬注意力結(jié)構(gòu)：采用硬注意力機(jī)制，并對每個出現(xiàn)單元進(jìn)行池化和操作，最后連接一個小型的 MLP 結(jié)構(gòu)。下表1展示了我們的實(shí)驗(yàn)結(jié)果?？梢钥吹剑胗沧⒁饬C(jī)制不僅不會丟失特征的重要信息，還能在較少出現(xiàn)單元的情況下，取得相當(dāng)?shù)男阅芙Y(jié)果，這表明了這種機(jī)制是圖像的重要部分。此外，在表1下面我們還與軟注意力機(jī)制進(jìn)行了對比，可以發(fā)現(xiàn)軟注意力機(jī)制的表現(xiàn)并不優(yōu)于我們的方法。

表1 不同出現(xiàn)單元數(shù)量和聚合操作的性能比較。我們考慮簡單的和操作和非局部成對計算作為特征聚合的工具。

自適應(yīng)硬注意力機(jī)制的結(jié)果

下表2展示了自適應(yīng)硬注意力機(jī)制的實(shí)驗(yàn)結(jié)果。我們可以看到，自適應(yīng)機(jī)制使用非常少的單元：進(jìn)行池化和計算時，只使用100個單元中的25.66個，而進(jìn)行非局部成對聚合時，則只有32.63個單元被使用。這表明即便非常簡單的自適應(yīng)方法，也能給圖像和問題的解決可以帶來計算和性能方面的提升，這也說明更復(fù)雜的方法將是未來工作的重要方向。

表2 不同自適應(yīng)硬注意力技術(shù)、單元出現(xiàn)的平均數(shù)量和聚合操作的性能對比。我們考慮一種簡單的和操作和非局部成對聚合操作。

此外，下表3展示了移除兩層結(jié)構(gòu)后自適應(yīng)硬注意力機(jī)制的性能表現(xiàn)?？梢钥吹?，移除這些層后，模型的表現(xiàn)下降了約1％，這表明了決定單元出現(xiàn)與否需要不同的信息，這不同于 ResNet 模型的分類微調(diào)設(shè)計，同時也說明了深度對于自適應(yīng)機(jī)制的影響。

表3 在 VQA-CP v2 數(shù)據(jù)集上不同單元出現(xiàn)數(shù)量的性能比較。其中第二列表示輸入單元出現(xiàn)的百分比，而第三列代表 MLP 結(jié)構(gòu)的層數(shù)。

定性結(jié)果及 CLEVR 數(shù)據(jù)集結(jié)果

下圖3、圖4展示了我們方法的定性實(shí)驗(yàn)結(jié)果。圖3展示了采用不同硬注意力機(jī)制(HAN、AdaHAN)、不同聚合操作 (和操作、逐對操作) 的實(shí)驗(yàn)結(jié)果。而圖4展示了采用最佳的模型設(shè)置：自適應(yīng)硬注意力機(jī)制加上非局部逐對聚合操作 (AdaHAN+pairwise)，在 VQA-CP 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。

圖3 不同硬注意力機(jī)制和不同聚合方法變體的定性結(jié)果

圖4 AdaHAN+pairwise 的定性結(jié)果

此外，我們還進(jìn)一步在 CLEVR 數(shù)據(jù)集上驗(yàn)證我們方法的通用性，其他的設(shè)置與 VQA-CP 數(shù)據(jù)集上相類似。下圖5展示了兩種方法的實(shí)驗(yàn)結(jié)果。

圖5 在 CLEVR 數(shù)據(jù)集上相同超參數(shù)設(shè)置，不同方法的驗(yàn)證精度結(jié)果。(a) HAN+RN (0.25的輸入單元) 和標(biāo)準(zhǔn)的 RN 結(jié)構(gòu) (全輸入單元)，訓(xùn)練12個小時來測量方法的有效性。(b) 我們的硬注意力方法。

結(jié)論

我們已經(jīng)引入了一種新的硬注意力方法用于計算機(jī)視覺任務(wù)，它能夠選擇用于下一步處理的特征向量子集。我們探索了兩種模型：一個選擇具有預(yù)定義向量數(shù)量的 HAN 模型，另一個自適應(yīng)地選擇子集大小作為輸入的 AdaHAN。通過特征向量數(shù)量與相關(guān)信息的相關(guān)性，我們的注意力機(jī)制能夠解決文獻(xiàn)中現(xiàn)有方法存在的梯度問題。經(jīng)過大量的實(shí)驗(yàn)評估，結(jié)果表明了在具有挑戰(zhàn)性的 Visual QA 數(shù)據(jù)集上，我們的 HAN 和 AdaHAN 模型能夠取得有競爭力的性能表現(xiàn)，并在某些時候取得相當(dāng)甚至超過軟注意力機(jī)制的表現(xiàn)，同時還能提供額外的計算效率優(yōu)勢。最后，我們還提供了可解釋性表示，即對所選特征的空間位置中相應(yīng)貢獻(xiàn)最大、最顯著的部分進(jìn)行了可視化。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4831

瀏覽量
107223
圖像

圖像

+關(guān)注

關(guān)注
2

文章
1096

瀏覽量
42250
數(shù)據(jù)庫

數(shù)據(jù)庫

+關(guān)注

關(guān)注
7

文章
4004

瀏覽量
68158

原文標(biāo)題：如何通過引入硬注意力機(jī)制來學(xué)習(xí)視覺問答任務(wù)？

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

一種通過引入硬注意力機(jī)制來引導(dǎo)學(xué)習(xí)視覺回答任務(wù)的研究

評論