1. 論文信息
標(biāo)題:Visual Classification via Description from Large Language Models
作者:Zihao Xu, Hao he, Guang-He Lee, Yuyang Wang, Hao Wang
原文鏈接:http://wanghao.in/paper/ICLR22_GRDA.pdf
代碼鏈接:https://github.com/ZrrSkywalker/PointCLIP
2. 引言
論文首先介紹了一個(gè)非常有意思的圖:為什么人們把圖中的物體分類為母雞?因?yàn)槿绻覀內(nèi)祟愋枰C明我們給出的答案是正確的,你可以給它的喙命名,描述它的羽毛,或者討論我們與母雞聯(lián)系在一起的任何其他特征。
人們很容易用文字來(lái)描述類別的視覺(jué)特征,并利用這些文字描述來(lái)輔助感知,用于分類檢測(cè)等各種感知任務(wù)。然而,生成這樣的模式的語(yǔ)言描述本身就已經(jīng)非常具有挑戰(zhàn),很難以完成了,更不用說(shuō)利用它們進(jìn)行感知任務(wù),這在機(jī)器學(xué)習(xí)領(lǐng)域還是一個(gè)比較大的挑戰(zhàn)。
在成對(duì)的圖像-文本數(shù)據(jù)的大型語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練視覺(jué)語(yǔ)言模型(Vison-Language Model),例如CLIP ,最近取得了巨大成功,在圖像分類等領(lǐng)域取得了巨大的成就。標(biāo)準(zhǔn)的zero-shot分類的程序設(shè)定——計(jì)算查詢圖像和每個(gè)類別單詞的embeddings之間的相似度,然后選擇最高的。這種zero-shot的設(shè)定在許多流行的基準(zhǔn)測(cè)試中顯示了令人印象深刻的性能。
與單詞相比,這種結(jié)構(gòu)化的描述顯然是一個(gè)合理的出發(fā)點(diǎn),因?yàn)檫@種基于語(yǔ)義的方法可以依賴于這樣一個(gè)事實(shí),即在互聯(lián)網(wǎng)環(huán)境種,“母雞”這個(gè)詞往往出現(xiàn)在母雞的圖片附近。
其實(shí)本文主要的insight是,其實(shí)我們可以使用語(yǔ)言作為視覺(jué)識(shí)別的internal representation,這為計(jì)算機(jī)視覺(jué)任務(wù)創(chuàng)建了一個(gè)可解釋的方案。使用語(yǔ)言使我們能夠靈活地與任何單詞進(jìn)行比較,而不是只使用一個(gè)類別名稱來(lái)在多模態(tài)信息種進(jìn)行查詢。如果我們知道應(yīng)該使用什么特性,我們可以讓VLM檢查這些特性,而不僅僅是依照類名進(jìn)行查詢。
要找一只母雞,要找它的喙、羽毛以及其他的特征。通過(guò)基于這些特性的判斷,我們可以獲得視覺(jué)信息種的額外線索,鼓勵(lì)查看我們想要使用的特性。在這個(gè)過(guò)程中,我們可以清楚地了解模型使用什么來(lái)做出決策,顯然這是有助于。然而,手工編寫(xiě)這些特性可能代價(jià)高昂,而且不能擴(kuò)展到大量的類。我們可以通過(guò)向另一個(gè)模型請(qǐng)求幫助來(lái)解決這個(gè)問(wèn)題。
大型語(yǔ)言模型(large language model),如GPT-3 ,顯示了對(duì)各種主題的顯著的世界知識(shí)。它們可以被認(rèn)為是隱性知識(shí)庫(kù),以一種可以用自然語(yǔ)言輕松查詢的方式喧鬧地濃縮了互聯(lián)網(wǎng)的集體知識(shí)。因?yàn)槿藗兘?jīng)常寫(xiě)東西看起來(lái)像什么,這包括視覺(jué)描述符的知識(shí)。
因此,我們可以簡(jiǎn)單地問(wèn)一個(gè)LLM,通過(guò)LLM來(lái)查詢物體的特征。與從大型語(yǔ)言模型獲得的類描述符相比,我們提供了一種用視覺(jué)語(yǔ)言模型替代當(dāng)前零目標(biāo)分類范式的方法。這不需要額外的訓(xùn)練,也不需要推理期間的大量計(jì)算開(kāi)銷。通過(guò)構(gòu)造,這提供了某種程度的內(nèi)在可解釋性;我們可以知道一張圖片被標(biāo)記為老虎,因?yàn)槟P涂吹降氖抢匣⒌臈l紋,而不是因?yàn)樗幸粋€(gè)尾巴而把他分類成老虎。
3. 方法
首先來(lái)描述下本文定義識(shí)別范式和經(jīng)典的語(yǔ)言識(shí)別模型的區(qū)別,如上圖,論文提出的方法首先對(duì)模型類別的特征進(jìn)行分解:
where is the set of descriptors for the category and is the log probability that descriptor pertains to the image . Our approach will represent the descriptors also through a natural language sentence.
如何得到這些先驗(yàn)的特征分配呢?當(dāng)然不是去根據(jù)手工標(biāo)注,我們可以去問(wèn)GPT-3。當(dāng)類別D(c)的字典包含許多與觀察到的圖像x高度匹配的描述符時(shí),該模型s(c, x)將輸出一個(gè)高分。圖2說(shuō)明了這種分類方法。我們使用加法,以便在圖像中可以缺少一些描述符,并通過(guò)類的描述符數(shù)量進(jìn)行規(guī)范化,以允許不同的類擁有不同數(shù)量的描述符。由于描述符是相加的,并且用自然語(yǔ)言表示,因此模型是自然可解釋的。要理解為什么模型預(yù)測(cè)c類,我們可以簡(jiǎn)單地閱讀哪些描述符得分高。
問(wèn)題的模式,如上所示。而獲取的答案也非常有意思:
可以發(fā)現(xiàn),利用GPT-3來(lái)預(yù)測(cè)的效果還是非常不錯(cuò)的。描述符通常包括顏色、形狀、物體部件、數(shù)量和關(guān)系,但也可以用自然語(yǔ)言表達(dá)任何東西,這些特征靈活性區(qū)分了它們,使每個(gè)類別的描述符豐富而微妙。
雖然語(yǔ)言模型的訓(xùn)練集中沒(méi)有圖像,但它們可以在沒(méi)有視覺(jué)輸入的情況下成功地模仿視覺(jué)描述。用于訓(xùn)練語(yǔ)言模型的語(yǔ)料庫(kù)包含有視覺(jué)知識(shí)的人所寫(xiě)的描述。這些描述,在規(guī)模上聚合,為視覺(jué)識(shí)別提供了強(qiáng)有力的基礎(chǔ)。
下一步就是GROUNDING DESCRIPTORS, 也就是說(shuō)利用“{category_name} which (is/has/etc) {descriptor}”這種prompt的方式,來(lái)使得CLIP的描述更加細(xì)粒度,使得模型的text embedding具有更強(qiáng)的泛化能力??梢园l(fā)現(xiàn),這個(gè)方法等于只是重新設(shè)計(jì)了一種獲取prompt的方式。
4. 實(shí)驗(yàn)
論文評(píng)估提出的方法在執(zhí)行圖像分類的能力,同時(shí)也為其決策提供解釋。雖然大多數(shù)可解釋性方法都在基準(zhǔn)性能上做出了妥協(xié),但在表1中演示了我們的方法在此基礎(chǔ)上進(jìn)行了改進(jìn)。
與將圖像與類名的embedding進(jìn)行比較的CLIP相比,論文提出的方法在imagenet1上平均提高了3%以上的性能。ImageNetV2分布移位基準(zhǔn)的改進(jìn)表明,這些改進(jìn)不是由于對(duì)ImageNet分布的過(guò)擬合。最后,我們演示了對(duì)鳥(niǎo)類細(xì)粒度分類的CUB基準(zhǔn)的約1-2%的改進(jìn),表明該技術(shù)在通用識(shí)別環(huán)境之外具有前景。我們假設(shè),由于GPT-3不能產(chǎn)生特定于鳥(niǎo)類分類的生態(tài)位描述符,所以在CUB上的收益減少了。
可以看到可視化還是提供了比較充分的對(duì)于類別特征的解釋的。
論文也提供了基于描述符的檢索信息,可以發(fā)現(xiàn)也會(huì)有非常顯著的性能改進(jìn)。
5. 結(jié)論
論文提出了一種新的基于視覺(jué)語(yǔ)言模型的零鏡頭分類框架。作者利用大型語(yǔ)言模型中關(guān)于視覺(jué)類別的語(yǔ)言知識(shí),為每個(gè)類別生成文本描述符,將圖像與這些描述符進(jìn)行比較,而不是直接估計(jì)圖像與類別名稱的相似性。使用GPT-3和CLIP,作者顯示了非常promising的結(jié)果。
審核編輯:劉清
-
Clip
+關(guān)注
關(guān)注
0文章
32瀏覽量
7040 -
GPT
+關(guān)注
關(guān)注
0文章
368瀏覽量
16098
原文標(biāo)題:通過(guò)大型語(yǔ)言模型的描述進(jìn)行視覺(jué)分類
文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
如何利用Transformers了解視覺(jué)語(yǔ)言模型

一種新的動(dòng)態(tài)微觀語(yǔ)言競(jìng)爭(zhēng)社會(huì)仿真模型
一種改進(jìn)的視覺(jué)詞袋方法
一種新的目標(biāo)分類特征深度學(xué)習(xí)模型

一種基于框架特征的共指消解方法

一種基于BERT模型的社交電商文本分類算法

一種問(wèn)題框架與模型驅(qū)動(dòng)技術(shù)現(xiàn)結(jié)合的方法

OpenCV中支持的非分類與檢測(cè)視覺(jué)模型
介紹一種新的全景視覺(jué)里程計(jì)框架PVO

大語(yǔ)言模型中的語(yǔ)言與知識(shí):一種神秘的分離現(xiàn)象

基于視覺(jué)語(yǔ)言模型的導(dǎo)航框架VLMnav
大語(yǔ)言模型開(kāi)發(fā)框架是什么
?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

評(píng)論