chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種新的基于視覺(jué)語(yǔ)言模型的零鏡頭分類框架

jf_pmFSk4VX ? 來(lái)源:GiantPandaCV ? 作者:Garfield ? 2022-10-20 09:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1. 論文信息

標(biāo)題:Visual Classification via Description from Large Language Models

作者:Zihao Xu, Hao he, Guang-He Lee, Yuyang Wang, Hao Wang

原文鏈接:http://wanghao.in/paper/ICLR22_GRDA.pdf

代碼鏈接:https://github.com/ZrrSkywalker/PointCLIP

2. 引言

b4537fd0-5013-11ed-a3b6-dac502259ad0.png

論文首先介紹了一個(gè)非常有意思的圖:為什么人們把圖中的物體分類為母雞?因?yàn)槿绻覀內(nèi)祟愋枰C明我們給出的答案是正確的,你可以給它的喙命名,描述它的羽毛,或者討論我們與母雞聯(lián)系在一起的任何其他特征。

人們很容易用文字來(lái)描述類別的視覺(jué)特征,并利用這些文字描述來(lái)輔助感知,用于分類檢測(cè)等各種感知任務(wù)。然而,生成這樣的模式的語(yǔ)言描述本身就已經(jīng)非常具有挑戰(zhàn),很難以完成了,更不用說(shuō)利用它們進(jìn)行感知任務(wù),這在機(jī)器學(xué)習(xí)領(lǐng)域還是一個(gè)比較大的挑戰(zhàn)。

在成對(duì)的圖像-文本數(shù)據(jù)的大型語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練視覺(jué)語(yǔ)言模型(Vison-Language Model),例如CLIP ,最近取得了巨大成功,在圖像分類等領(lǐng)域取得了巨大的成就。標(biāo)準(zhǔn)的zero-shot分類的程序設(shè)定——計(jì)算查詢圖像和每個(gè)類別單詞的embeddings之間的相似度,然后選擇最高的。這種zero-shot的設(shè)定在許多流行的基準(zhǔn)測(cè)試中顯示了令人印象深刻的性能。

與單詞相比,這種結(jié)構(gòu)化的描述顯然是一個(gè)合理的出發(fā)點(diǎn),因?yàn)檫@種基于語(yǔ)義的方法可以依賴于這樣一個(gè)事實(shí),即在互聯(lián)網(wǎng)環(huán)境種,“母雞”這個(gè)詞往往出現(xiàn)在母雞的圖片附近。

其實(shí)本文主要的insight是,其實(shí)我們可以使用語(yǔ)言作為視覺(jué)識(shí)別的internal representation,這為計(jì)算機(jī)視覺(jué)任務(wù)創(chuàng)建了一個(gè)可解釋的方案。使用語(yǔ)言使我們能夠靈活地與任何單詞進(jìn)行比較,而不是只使用一個(gè)類別名稱來(lái)在多模態(tài)信息種進(jìn)行查詢。如果我們知道應(yīng)該使用什么特性,我們可以讓VLM檢查這些特性,而不僅僅是依照類名進(jìn)行查詢。

要找一只母雞,要找它的喙、羽毛以及其他的特征。通過(guò)基于這些特性的判斷,我們可以獲得視覺(jué)信息種的額外線索,鼓勵(lì)查看我們想要使用的特性。在這個(gè)過(guò)程中,我們可以清楚地了解模型使用什么來(lái)做出決策,顯然這是有助于。然而,手工編寫(xiě)這些特性可能代價(jià)高昂,而且不能擴(kuò)展到大量的類。我們可以通過(guò)向另一個(gè)模型請(qǐng)求幫助來(lái)解決這個(gè)問(wèn)題。

大型語(yǔ)言模型(large language model),如GPT-3 ,顯示了對(duì)各種主題的顯著的世界知識(shí)。它們可以被認(rèn)為是隱性知識(shí)庫(kù),以一種可以用自然語(yǔ)言輕松查詢的方式喧鬧地濃縮了互聯(lián)網(wǎng)的集體知識(shí)。因?yàn)槿藗兘?jīng)常寫(xiě)東西看起來(lái)像什么,這包括視覺(jué)描述符的知識(shí)。

因此,我們可以簡(jiǎn)單地問(wèn)一個(gè)LLM,通過(guò)LLM來(lái)查詢物體的特征。與從大型語(yǔ)言模型獲得的類描述符相比,我們提供了一種用視覺(jué)語(yǔ)言模型替代當(dāng)前零目標(biāo)分類范式的方法。這不需要額外的訓(xùn)練,也不需要推理期間的大量計(jì)算開(kāi)銷。通過(guò)構(gòu)造,這提供了某種程度的內(nèi)在可解釋性;我們可以知道一張圖片被標(biāo)記為老虎,因?yàn)槟P涂吹降氖抢匣⒌臈l紋,而不是因?yàn)樗幸粋€(gè)尾巴而把他分類成老虎。

3. 方法

b4b17bb2-5013-11ed-a3b6-dac502259ad0.png

首先來(lái)描述下本文定義識(shí)別范式和經(jīng)典的語(yǔ)言識(shí)別模型的區(qū)別,如上圖,論文提出的方法首先對(duì)模型類別的特征進(jìn)行分解:

where is the set of descriptors for the category and is the log probability that descriptor pertains to the image . Our approach will represent the descriptors also through a natural language sentence.

如何得到這些先驗(yàn)的特征分配呢?當(dāng)然不是去根據(jù)手工標(biāo)注,我們可以去問(wèn)GPT-3。當(dāng)類別D(c)的字典包含許多與觀察到的圖像x高度匹配的描述符時(shí),該模型s(c, x)將輸出一個(gè)高分。圖2說(shuō)明了這種分類方法。我們使用加法,以便在圖像中可以缺少一些描述符,并通過(guò)類的描述符數(shù)量進(jìn)行規(guī)范化,以允許不同的類擁有不同數(shù)量的描述符。由于描述符是相加的,并且用自然語(yǔ)言表示,因此模型是自然可解釋的。要理解為什么模型預(yù)測(cè)c類,我們可以簡(jiǎn)單地閱讀哪些描述符得分高。

b4bcb4c8-5013-11ed-a3b6-dac502259ad0.png

問(wèn)題的模式,如上所示。而獲取的答案也非常有意思:

b4cb7256-5013-11ed-a3b6-dac502259ad0.png

可以發(fā)現(xiàn),利用GPT-3來(lái)預(yù)測(cè)的效果還是非常不錯(cuò)的。描述符通常包括顏色、形狀、物體部件、數(shù)量和關(guān)系,但也可以用自然語(yǔ)言表達(dá)任何東西,這些特征靈活性區(qū)分了它們,使每個(gè)類別的描述符豐富而微妙。

雖然語(yǔ)言模型的訓(xùn)練集中沒(méi)有圖像,但它們可以在沒(méi)有視覺(jué)輸入的情況下成功地模仿視覺(jué)描述。用于訓(xùn)練語(yǔ)言模型的語(yǔ)料庫(kù)包含有視覺(jué)知識(shí)的人所寫(xiě)的描述。這些描述,在規(guī)模上聚合,為視覺(jué)識(shí)別提供了強(qiáng)有力的基礎(chǔ)。

下一步就是GROUNDING DESCRIPTORS, 也就是說(shuō)利用“{category_name} which (is/has/etc) {descriptor}”這種prompt的方式,來(lái)使得CLIP的描述更加細(xì)粒度,使得模型的text embedding具有更強(qiáng)的泛化能力??梢园l(fā)現(xiàn),這個(gè)方法等于只是重新設(shè)計(jì)了一種獲取prompt的方式。

4. 實(shí)驗(yàn)

b4f2383c-5013-11ed-a3b6-dac502259ad0.png

論文評(píng)估提出的方法在執(zhí)行圖像分類的能力,同時(shí)也為其決策提供解釋。雖然大多數(shù)可解釋性方法都在基準(zhǔn)性能上做出了妥協(xié),但在表1中演示了我們的方法在此基礎(chǔ)上進(jìn)行了改進(jìn)。

與將圖像與類名的embedding進(jìn)行比較的CLIP相比,論文提出的方法在imagenet1上平均提高了3%以上的性能。ImageNetV2分布移位基準(zhǔn)的改進(jìn)表明,這些改進(jìn)不是由于對(duì)ImageNet分布的過(guò)擬合。最后,我們演示了對(duì)鳥(niǎo)類細(xì)粒度分類的CUB基準(zhǔn)的約1-2%的改進(jìn),表明該技術(shù)在通用識(shí)別環(huán)境之外具有前景。我們假設(shè),由于GPT-3不能產(chǎn)生特定于鳥(niǎo)類分類的生態(tài)位描述符,所以在CUB上的收益減少了。

b518990a-5013-11ed-a3b6-dac502259ad0.png

可以看到可視化還是提供了比較充分的對(duì)于類別特征的解釋的。

b55ed186-5013-11ed-a3b6-dac502259ad0.png

論文也提供了基于描述符的檢索信息,可以發(fā)現(xiàn)也會(huì)有非常顯著的性能改進(jìn)。

5. 結(jié)論

論文提出了一種新的基于視覺(jué)語(yǔ)言模型的零鏡頭分類框架。作者利用大型語(yǔ)言模型中關(guān)于視覺(jué)類別的語(yǔ)言知識(shí),為每個(gè)類別生成文本描述符,將圖像與這些描述符進(jìn)行比較,而不是直接估計(jì)圖像與類別名稱的相似性。使用GPT-3和CLIP,作者顯示了非常promising的結(jié)果。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Clip
    +關(guān)注

    關(guān)注

    0

    文章

    32

    瀏覽量

    7040
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    368

    瀏覽量

    16098

原文標(biāo)題:通過(guò)大型語(yǔ)言模型的描述進(jìn)行視覺(jué)分類

文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何利用Transformers了解視覺(jué)語(yǔ)言模型

    模型稱為 “視覺(jué)語(yǔ)言模型是什么意思?個(gè)結(jié)合了視覺(jué)語(yǔ)
    發(fā)表于 03-03 09:49 ?1323次閱讀
    如何利用Transformers了解<b class='flag-5'>視覺(jué)</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>

    一種成分取證的理論分析模式的分類框架

    一種成分取證的理論分析模式的分類框架
    發(fā)表于 03-20 11:04 ?0次下載

    一種新的動(dòng)態(tài)微觀語(yǔ)言競(jìng)爭(zhēng)社會(huì)仿真模型

    語(yǔ)言競(jìng)爭(zhēng)傳播演化現(xiàn)象是典型的不能假設(shè)、無(wú)法進(jìn)行真實(shí)性實(shí)驗(yàn)的社會(huì)科學(xué)問(wèn)題,而建立在社會(huì)仿真模型基礎(chǔ)上的計(jì)算實(shí)驗(yàn)是可行的方案。利用基于Agent的社會(huì)圈子網(wǎng)絡(luò)理論并引入語(yǔ)言的內(nèi)部詞匯結(jié)構(gòu)給出一種
    發(fā)表于 11-23 15:41 ?6次下載

    一種改進(jìn)的視覺(jué)詞袋方法

    視覺(jué)詞袋模型廣泛地應(yīng)用于圖像分類與圖像檢索等領(lǐng)域.在傳統(tǒng)詞袋模型中,視覺(jué)單詞統(tǒng)計(jì)方法忽略了視覺(jué)
    發(fā)表于 12-28 17:36 ?3次下載

    一種新的目標(biāo)分類特征深度學(xué)習(xí)模型

    為提高低配置計(jì)算環(huán)境中的視覺(jué)目標(biāo)實(shí)時(shí)在線分類特征提取的時(shí)效性和分類準(zhǔn)確率,提出一種新的目標(biāo)分類特征深度學(xué)習(xí)
    發(fā)表于 03-20 17:30 ?0次下載
    <b class='flag-5'>一種</b>新的目標(biāo)<b class='flag-5'>分類</b>特征深度學(xué)習(xí)<b class='flag-5'>模型</b>

    一種基于框架特征的共指消解方法

    一種基于框架特征的共指消解方法,該方法通過(guò)融合漢語(yǔ)框架語(yǔ)義信息并采用多種分類算法實(shí)現(xiàn)共指消解。框架語(yǔ)義篇章語(yǔ)料集上的實(shí)驗(yàn)結(jié)果表明,將漢語(yǔ)
    發(fā)表于 03-19 11:35 ?7次下載
    <b class='flag-5'>一種</b>基于<b class='flag-5'>框架</b>特征的共指消解方法

    一種基于BERT模型的社交電商文本分類算法

    隨著網(wǎng)絡(luò)購(gòu)物的高速發(fā)展,網(wǎng)絡(luò)商家和購(gòu)物者在網(wǎng)絡(luò)交易活動(dòng)中產(chǎn)生了大量的交易數(shù)據(jù),其中蘊(yùn)含著巨大的分析價(jià)值。針對(duì)社交電商商品文本的文本分類問(wèn)題,為了更加高效準(zhǔn)確地判斷文本所描述商品的類別,提出了一種
    發(fā)表于 04-13 15:14 ?8次下載
    <b class='flag-5'>一種</b>基于BERT<b class='flag-5'>模型</b>的社交電商文本<b class='flag-5'>分類</b>算法

    一種問(wèn)題框架模型驅(qū)動(dòng)技術(shù)現(xiàn)結(jié)合的方法

    ,仍是個(gè)亟待解決的問(wèn)題。文中提出了一種問(wèn)題框架模型驅(qū)動(dòng)技術(shù)相結(jié)合的方法,其可將問(wèn)題模型轉(zhuǎn)換為UML( Unified Modeling
    發(fā)表于 04-23 10:48 ?4次下載
    <b class='flag-5'>一種</b>問(wèn)題<b class='flag-5'>框架</b>與<b class='flag-5'>模型</b>驅(qū)動(dòng)技術(shù)現(xiàn)結(jié)合的方法

    OpenCV中支持的非分類與檢測(cè)視覺(jué)模型

    前面給大家分別匯總了OpenCV中支持的圖像分類與對(duì)象檢測(cè)模型,視覺(jué)視覺(jué)任務(wù)除了分類與檢測(cè)還有很多其他任務(wù),這里我們就來(lái)OpenCV中支持的
    的頭像 發(fā)表于 08-19 09:10 ?1644次閱讀

    介紹一種新的全景視覺(jué)里程計(jì)框架PVO

    論文提出了PVO,這是一種新的全景視覺(jué)里程計(jì)框架,用于實(shí)現(xiàn)場(chǎng)景運(yùn)動(dòng)、幾何和全景分割信息的更全面建模。
    的頭像 發(fā)表于 05-09 16:51 ?2226次閱讀
    介紹<b class='flag-5'>一種</b>新的全景<b class='flag-5'>視覺(jué)</b>里程計(jì)<b class='flag-5'>框架</b>PVO

    語(yǔ)言模型中的語(yǔ)言與知識(shí):一種神秘的分離現(xiàn)象

    自然語(yǔ)言處理領(lǐng)域存在著個(gè)非常有趣的現(xiàn)象:在多語(yǔ)言模型中,不同的語(yǔ)言之間似乎存在著一種隱含的對(duì)齊
    發(fā)表于 02-20 14:53 ?848次閱讀
    大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>中的<b class='flag-5'>語(yǔ)言</b>與知識(shí):<b class='flag-5'>一種</b>神秘的分離現(xiàn)象

    基于視覺(jué)語(yǔ)言模型的導(dǎo)航框架VLMnav

    本文提出了一種視覺(jué)語(yǔ)言模型(VLM)轉(zhuǎn)換為端到端導(dǎo)航策略的具體框架。不依賴于感知、規(guī)劃和控制之間的分離,而是使用VLM在
    的頭像 發(fā)表于 11-22 09:42 ?799次閱讀

    語(yǔ)言模型開(kāi)發(fā)框架是什么

    語(yǔ)言模型開(kāi)發(fā)框架是指用于訓(xùn)練、推理和部署大型語(yǔ)言模型的軟件工具和庫(kù)。下面,AI部落小編為您介紹大語(yǔ)言
    的頭像 發(fā)表于 12-06 10:28 ?528次閱讀

    文詳解視覺(jué)語(yǔ)言模型

    視覺(jué)語(yǔ)言模型(VLM)是一種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?1766次閱讀
    <b class='flag-5'>一</b>文詳解<b class='flag-5'>視覺(jué)</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    視覺(jué)語(yǔ)言模型(Visual Language Model, VLM)是一種結(jié)合視覺(jué)(圖像/視頻)和語(yǔ)言
    的頭像 發(fā)表于 03-17 15:32 ?4128次閱讀
    ?VLM(<b class='flag-5'>視覺(jué)</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>)?詳細(xì)解析