色露露永久免费观看,本生素人TV在线观看,AVTT2014天堂网东京热

對于 AI 系統(tǒng)來說，將語言與視覺聯(lián)系起來是它需要面對并學(xué)會解決的基本問題，例如在進行圖像的檢索時，AI 系統(tǒng)需要既能識別圖像，也能識別語言，并將二者相關(guān)聯(lián)起來。

對于這類需要 AI 系統(tǒng)識別不同種類或形式的信息來源的任務(wù)中，就需要多模態(tài)機器學(xué)習(xí)（MML/Multimodal Machine Learning）來發(fā)揮作用。所謂模態(tài)，指的是一種信息的來源或形式，例如文字、圖像、視頻、音頻等都是模態(tài)。多模態(tài)機器學(xué)習(xí)是指利用機器學(xué)習(xí)來處理多種模態(tài)的信息。

近些年來，在多模態(tài)機器學(xué)習(xí)領(lǐng)域中，多模態(tài)圖像語言轉(zhuǎn)換器（Multimodal image–language transformers）已經(jīng)取得了深刻進展，尤其在解決各種需要微調(diào)的任務(wù)，如視覺問答、圖像檢索中發(fā)揮了關(guān)鍵性作用。

但是，在既需要處理圖像又需要處理語言文本的多模態(tài)機器學(xué)習(xí)任務(wù)中，有一類問題對于多模態(tài)圖像語言轉(zhuǎn)換器來說尤其棘手，那就是對文本中的動詞的理解。例如要求 AI 系統(tǒng)來在圖像中區(qū)分識別找出“踢球”和“拋球”這兩種情景。在這一任務(wù)中，AI 系統(tǒng)不僅需要識別出圖像中的“球”這一對象，還需要識別圖像中不同對象之間的關(guān)系。

為了評估近年來多模態(tài)圖像語言轉(zhuǎn)換器的預(yù)訓(xùn)練水平，尤其是在“看圖理解”中對于上文所說的動詞的識別能力。近日，DeepMind 開發(fā)出一套方法，并引入了名為 SVO-Probes 的“圖像－句子對” 數(shù)據(jù)集，來評估不同 AI 系統(tǒng)的多模態(tài)預(yù)訓(xùn)練模型對于動詞的理解水平，尤其是了解這些 AI 系統(tǒng)多模態(tài)轉(zhuǎn)換器的預(yù)訓(xùn)練模型在結(jié)合語言文本來識別圖像時，到底是既能夠識別中圖片中的物體、也能區(qū)分中圖像中的動作，還是只能夠識別出圖中的物體。

為了達到這一目的，DeepMind 建立的 SVO-Probes 數(shù)據(jù)集包含了 48000 個圖像-句子對，可以測試 AI 系統(tǒng)對 447 個動詞的理解，這些動詞要么是視覺可以區(qū)分的，要么是在預(yù)訓(xùn)練數(shù)據(jù)中常見的，例如許多概念字幕數(shù)據(jù)集。這個數(shù)據(jù)集中的每個句子都可以分解成一個 <主語、動詞、賓語> 三元組，也就是 SVO 三元組，并分別配對有與句子描述的內(nèi)容相符和不符的圖像，它們在是實驗中分別被稱為“正實例圖像” 和 “負實例圖像”。

圖｜評估多模態(tài)語言圖像轉(zhuǎn)換器對于動詞的識別能力的 SVO- Probes 數(shù)據(jù)集中的圖像-句子對（來源：DeepMind）

上圖顯示了圖像-句子對的幾個例子，以左上角的圖像-句子對為例，分別顯示了與句子“孩子、過、馬路”相符的正示例圖像，以及與“女士、過、馬路”不符的負示例圖像，通過這一對可以測試 AI 系統(tǒng)識別圖中的對象——也就是名詞的能力；而上方中間的圖像-句子對，則分別顯示了”人、唱歌、演唱會上“ 的正示例圖像和”“人、跳舞、演唱會上“ 的負示例圖像。通過這一對就可以既測試 AI 系統(tǒng)識別圖中的名詞的能力，也能測試 AI 識別動詞的能力。

在實驗中使用這一 SVO-Probes 數(shù)據(jù)集以零樣本的方式對 AI 預(yù)訓(xùn)練模型進行評估之后，DeepMind 的工程師發(fā)現(xiàn)，相比名詞等其他詞性，預(yù)訓(xùn)練模型在需要動詞理解的情況下錯誤率要高很多。

下面的條形圖詳細說明了測試的結(jié)果。標準多模態(tài)轉(zhuǎn)換器模型經(jīng)過測試后總體準確率達到 64.3%，這也顯示了 SVO- Probes 數(shù)據(jù)集確實具有挑戰(zhàn)性。而這一 AI 模型在對于主語和賓語判斷的準確率分別為 67.0% 和 73.4%，但是對于動詞判斷的準確率卻下降到 60.8%。這一結(jié)果表明，動詞識別確實對 AI 系統(tǒng)模型具有挑戰(zhàn)性。

此外，該公司的工程師們還進一步總結(jié)調(diào)查了哪些類別的動詞對于這些 AI 預(yù)訓(xùn)練模型尤其具有挑戰(zhàn)性。結(jié)果發(fā)現(xiàn)，像“抓”這樣的運動性動詞以及“帶領(lǐng)”這樣在不同類型的語境中經(jīng)常出現(xiàn)的動詞對于 AI 來說更容易。而 AI 模型判斷的正確率最高的動詞有“打斗”“包圍”“滑雪”“參加”等；而錯誤率最高的幾個動詞有“切”“爭論”“斷”等。

圖｜多模態(tài)機器學(xué)習(xí)的圖像語言轉(zhuǎn)換器對于 SVO-Probes 數(shù)據(jù)集進行判斷測試之后的結(jié)果（來源：DeepMind）

值得一提的是，當(dāng)工程師們對哪些模型架構(gòu)在 SVO-Probes 數(shù)據(jù)集上的表現(xiàn)更好這一問題進行探索時，他們驚訝地發(fā)現(xiàn)，相比圖像建模能力更強的標準圖像語言轉(zhuǎn)換器模型，那些圖像建模較弱的模型反而表現(xiàn)更好。對這一與直覺相反的發(fā)現(xiàn)的解釋的一個假設(shè)是，標準轉(zhuǎn)換器模型在圖像識別方面可能有些“過度訓(xùn)練”了。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴