日日摸夜夜添夜夜添中文字幕,成h一级毛片免费看,giuseppe zanotti杨幂

1. 論文信息

標(biāo)題：Visual Classification via Description from Large Language Models

作者：Zihao Xu, Hao he, Guang-He Lee, Yuyang Wang, Hao Wang

原文鏈接：http://wanghao.in/paper/ICLR22_GRDA.pdf

代碼鏈接：https://github.com/ZrrSkywalker/PointCLIP

2. 引言

論文首先介紹了一個非常有意思的圖：為什么人們把圖中的物體分類為母雞？因?yàn)槿绻覀內(nèi)祟愋枰C明我們給出的答案是正確的，你可以給它的喙命名，描述它的羽毛，或者討論我們與母雞聯(lián)系在一起的任何其他特征。

人們很容易用文字來描述類別的視覺特征，并利用這些文字描述來輔助感知，用于分類檢測等各種感知任務(wù)。然而，生成這樣的模式的語言描述本身就已經(jīng)非常具有挑戰(zhàn)，很難以完成了，更不用說利用它們進(jìn)行感知任務(wù)，這在機(jī)器學(xué)習(xí)領(lǐng)域還是一個比較大的挑戰(zhàn)。

在成對的圖像-文本數(shù)據(jù)的大型語料庫上進(jìn)行訓(xùn)練視覺語言模型（Vison-Language Model），例如CLIP ，最近取得了巨大成功，在圖像分類等領(lǐng)域取得了巨大的成就。標(biāo)準(zhǔn)的zero-shot分類的程序設(shè)定——計(jì)算查詢圖像和每個類別單詞的embeddings之間的相似度，然后選擇最高的。這種zero-shot的設(shè)定在許多流行的基準(zhǔn)測試中顯示了令人印象深刻的性能。

與單詞相比，這種結(jié)構(gòu)化的描述顯然是一個合理的出發(fā)點(diǎn)，因?yàn)檫@種基于語義的方法可以依賴于這樣一個事實(shí)，即在互聯(lián)網(wǎng)環(huán)境種，“母雞”這個詞往往出現(xiàn)在母雞的圖片附近。

其實(shí)本文主要的insight是，其實(shí)我們可以使用語言作為視覺識別的internal representation，這為計(jì)算機(jī)視覺任務(wù)創(chuàng)建了一個可解釋的方案。使用語言使我們能夠靈活地與任何單詞進(jìn)行比較，而不是只使用一個類別名稱來在多模態(tài)信息種進(jìn)行查詢。如果我們知道應(yīng)該使用什么特性，我們可以讓VLM檢查這些特性，而不僅僅是依照類名進(jìn)行查詢。

要找一只母雞，要找它的喙、羽毛以及其他的特征。通過基于這些特性的判斷，我們可以獲得視覺信息種的額外線索，鼓勵查看我們想要使用的特性。在這個過程中，我們可以清楚地了解模型使用什么來做出決策，顯然這是有助于。然而，手工編寫這些特性可能代價高昂，而且不能擴(kuò)展到大量的類。我們可以通過向另一個模型請求幫助來解決這個問題。

大型語言模型(large language model)，如GPT-3 ，顯示了對各種主題的顯著的世界知識。它們可以被認(rèn)為是隱性知識庫，以一種可以用自然語言輕松查詢的方式喧鬧地濃縮了互聯(lián)網(wǎng)的集體知識。因?yàn)槿藗兘?jīng)常寫東西看起來像什么，這包括視覺描述符的知識。

因此，我們可以簡單地問一個LLM，通過LLM來查詢物體的特征。與從大型語言模型獲得的類描述符相比，我們提供了一種用視覺語言模型替代當(dāng)前零目標(biāo)分類范式的方法。這不需要額外的訓(xùn)練，也不需要推理期間的大量計(jì)算開銷。通過構(gòu)造，這提供了某種程度的內(nèi)在可解釋性;我們可以知道一張圖片被標(biāo)記為老虎，因?yàn)槟Ｐ涂吹降氖抢匣⒌臈l紋，而不是因?yàn)樗幸粋€尾巴而把他分類成老虎。

3. 方法

首先來描述下本文定義識別范式和經(jīng)典的語言識別模型的區(qū)別，如上圖，論文提出的方法首先對模型類別的特征進(jìn)行分解：

where is the set of descriptors for the category and is the log probability that descriptor pertains to the image . Our approach will represent the descriptors also through a natural language sentence.

如何得到這些先驗(yàn)的特征分配呢？當(dāng)然不是去根據(jù)手工標(biāo)注，我們可以去問GPT-3。當(dāng)類別D(c)的字典包含許多與觀察到的圖像x高度匹配的描述符時，該模型s(c, x)將輸出一個高分。圖2說明了這種分類方法。我們使用加法，以便在圖像中可以缺少一些描述符，并通過類的描述符數(shù)量進(jìn)行規(guī)范化，以允許不同的類擁有不同數(shù)量的描述符。由于描述符是相加的，并且用自然語言表示，因此模型是自然可解釋的。要理解為什么模型預(yù)測c類，我們可以簡單地閱讀哪些描述符得分高。

問題的模式，如上所示。而獲取的答案也非常有意思：

可以發(fā)現(xiàn)，利用GPT-3來預(yù)測的效果還是非常不錯的。描述符通常包括顏色、形狀、物體部件、數(shù)量和關(guān)系，但也可以用自然語言表達(dá)任何東西，這些特征靈活性區(qū)分了它們，使每個類別的描述符豐富而微妙。

雖然語言模型的訓(xùn)練集中沒有圖像，但它們可以在沒有視覺輸入的情況下成功地模仿視覺描述。用于訓(xùn)練語言模型的語料庫包含有視覺知識的人所寫的描述。這些描述，在規(guī)模上聚合，為視覺識別提供了強(qiáng)有力的基礎(chǔ)。

下一步就是GROUNDING DESCRIPTORS，也就是說利用“{category_name} which (is/has/etc) {descriptor}”這種prompt的方式，來使得CLIP的描述更加細(xì)粒度，使得模型的text embedding具有更強(qiáng)的泛化能力?？梢园l(fā)現(xiàn)，這個方法等于只是重新設(shè)計(jì)了一種獲取prompt的方式。

4. 實(shí)驗(yàn)

論文評估提出的方法在執(zhí)行圖像分類的能力，同時也為其決策提供解釋。雖然大多數(shù)可解釋性方法都在基準(zhǔn)性能上做出了妥協(xié)，但在表1中演示了我們的方法在此基礎(chǔ)上進(jìn)行了改進(jìn)。

與將圖像與類名的embedding進(jìn)行比較的CLIP相比，論文提出的方法在imagenet1上平均提高了3%以上的性能。ImageNetV2分布移位基準(zhǔn)的改進(jìn)表明，這些改進(jìn)不是由于對ImageNet分布的過擬合。最后，我們演示了對鳥類細(xì)粒度分類的CUB基準(zhǔn)的約1-2%的改進(jìn)，表明該技術(shù)在通用識別環(huán)境之外具有前景。我們假設(shè)，由于GPT-3不能產(chǎn)生特定于鳥類分類的生態(tài)位描述符，所以在CUB上的收益減少了。

可以看到可視化還是提供了比較充分的對于類別特征的解釋的。

論文也提供了基于描述符的檢索信息，可以發(fā)現(xiàn)也會有非常顯著的性能改進(jìn)。

5. 結(jié)論

論文提出了一種新的基于視覺語言模型的零鏡頭分類框架。作者利用大型語言模型中關(guān)于視覺類別的語言知識，為每個類別生成文本描述符，將圖像與這些描述符進(jìn)行比較，而不是直接估計(jì)圖像與類別名稱的相似性。使用GPT-3和CLIP，作者顯示了非常promising的結(jié)果。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴