三级丝袜在线观看,小泽玛利亚一区二区,JIZZXXXX18HD中国

2020年，通用模型產(chǎn)生了經(jīng)濟(jì)價(jià)值，特別是GPT-3，它的出現(xiàn)證明了大型語(yǔ)言模型具有驚人的語(yǔ)言能力，并且在執(zhí)行其他任務(wù)方面也毫不遜色。

2021年，OpenAI 聯(lián)合創(chuàng)始人 Ilya Sutskever預(yù)測(cè)語(yǔ)言模型會(huì)轉(zhuǎn)向視覺(jué)領(lǐng)域。他說(shuō)：“下一代模型，或許可以針對(duì)文本輸入，從而編輯和生成圖像?！?/p>

聽(tīng)話聽(tīng)音！OpenAI 踐行了這一想法，幾個(gè)小時(shí)前，OpenAI通過(guò)官方推特發(fā)布了兩個(gè)嶄新的網(wǎng)絡(luò)，一個(gè)叫DALL-E（參見(jiàn)今天推送的頭條），能夠通過(guò)給定的文本創(chuàng)建出圖片；一個(gè)叫CLIP，能夠?qū)D像映射到文本描述的類別中。

其中，CLIP可以通過(guò)自然語(yǔ)言監(jiān)督有效學(xué)習(xí)視覺(jué)概念，從而解決目前深度學(xué)習(xí)主流方法存在的幾個(gè)問(wèn)題：

1.需要大量的訓(xùn)練數(shù)據(jù)集，從而導(dǎo)致較高的創(chuàng)建成本。

2.標(biāo)準(zhǔn)的視覺(jué)模型，往往只擅長(zhǎng)一類任務(wù)，遷移到其他任務(wù)，需要花費(fèi)巨大的成本。

3.在基準(zhǔn)上表現(xiàn)良好的模型，在測(cè)試中往往不盡人意。

具體而言，OpenAI從互聯(lián)網(wǎng)收集的4億（圖像、文本）對(duì)的數(shù)據(jù)集，在預(yù)訓(xùn)練之后，用自然語(yǔ)言描述所學(xué)的視覺(jué)概念，從而使模型能夠在zero-shot狀態(tài)下轉(zhuǎn)移到下游任務(wù)。這種設(shè)計(jì)類似于GPT-2和GPT-3的“zero-shot”。

這一點(diǎn)非常關(guān)鍵，因?yàn)檫@意味著，可以不直接針對(duì)基準(zhǔn)進(jìn)行優(yōu)化，同時(shí)表現(xiàn)出了優(yōu)越的性能：穩(wěn)健性差距（robustness gap）縮小了75%，性能和ResNet507相當(dāng)。換句話說(shuō)。無(wú)需使用其訓(xùn)練的128萬(wàn)個(gè)訓(xùn)練樣本中的任何一個(gè)，即可與原始ResNet-50 在 Image Net Zero-shot的精確度相匹配。

如上圖所示，雖然兩個(gè)模型在ImageNet測(cè)試集上的準(zhǔn)確度相差無(wú)幾，但CLIP的性能更能代表在非ImageNet設(shè)置下的表現(xiàn)。

CLIP網(wǎng)絡(luò)中做了大量的工作是關(guān)于zero-shot 遷移的學(xué)習(xí)、自然語(yǔ)言監(jiān)督、多模態(tài)學(xué)習(xí)。其實(shí)，關(guān)于零數(shù)據(jù)學(xué)習(xí)的想法可以追溯到十年前，但是最近在計(jì)算機(jī)視覺(jué)中火了起來(lái)。零數(shù)據(jù)學(xué)習(xí)的一個(gè)重點(diǎn)是：利用自然語(yǔ)言作為靈活的預(yù)測(cè)空間，從而實(shí)現(xiàn)泛化和遷移。另外，在2013年，斯坦福大學(xué)的Richer Socher通過(guò)訓(xùn)練CIFAR-10上的一個(gè)模型，在詞向量嵌入空間中進(jìn)行預(yù)測(cè)，并表明模型可以預(yù)測(cè)兩個(gè)“未見(jiàn)過(guò)”的類別。Richer的工作提供了一個(gè)概念證明。

CLIP是過(guò)去一年，從自然語(yǔ)言監(jiān)督中學(xué)習(xí)視覺(jué)表征工作中的一部分。CLIP使用了更現(xiàn)代的架構(gòu)，如Transformer，包括探索自回歸語(yǔ)言建模的Virtex，研究掩蔽語(yǔ)言建模的ICMLM等等。

方法

前面也提到，CLIP訓(xùn)練的數(shù)據(jù)來(lái)源于互聯(lián)網(wǎng)上4億數(shù)據(jù)對(duì)。用這些數(shù)據(jù)，CLIP需要完成的任務(wù)是：給定一幅圖像，在32，768個(gè)隨機(jī)抽樣的文本片段中，找到能夠匹配的那一個(gè)。

完成這個(gè)任務(wù)，需要CLIP模型學(xué)會(huì)識(shí)別圖像中的各種視覺(jué)概念，并將概念和圖片相關(guān)聯(lián)。因此，CLIP模型可以應(yīng)用于幾乎任意的視覺(jué)分類任務(wù)。

例如，如果一個(gè)數(shù)據(jù)集的任務(wù)是對(duì)狗與貓的照片進(jìn)行分類，而CLIP模型預(yù)測(cè) “一張狗的照片 ”和 “一張貓的照片 ”這兩個(gè)文字描述哪個(gè)更匹配。

如上圖所示，CLIP網(wǎng)絡(luò)工作流程：預(yù)訓(xùn)練圖編碼器和文本編碼器，以預(yù)測(cè)數(shù)據(jù)集中哪些圖像與哪些文本配對(duì)。然后，將CLIP轉(zhuǎn)換為zero-shot分類器。

此外，將數(shù)據(jù)集的所有類轉(zhuǎn)換為諸如“一只狗的照片”之類的標(biāo)簽，并預(yù)測(cè)最佳配對(duì)的圖像。

總體而言，CLIP能夠解決：

1.昂貴的數(shù)據(jù)集：ImageNet中1400萬(wàn)張圖片的標(biāo)注，動(dòng)用了25，000名勞動(dòng)力。相比之下，CLIP使用的是已經(jīng)在互聯(lián)網(wǎng)上公開(kāi)提供的文本-圖像對(duì)。自我監(jiān)督學(xué)習(xí)、對(duì)比方法、自我訓(xùn)練方法和生成式建模也可以減少對(duì)標(biāo)注圖像的依賴。

2.任務(wù)單一：CLIP可以適用于執(zhí)行各種視覺(jué)分類任務(wù)，而不需要額外的訓(xùn)練。

3.實(shí)際應(yīng)用性能不佳：深度學(xué)習(xí)中“基準(zhǔn)性能”與“實(shí)際性能”之間存在差距是一直以來(lái)的“痛”。這種差距之所以會(huì)出現(xiàn)，是因?yàn)槟Ｐ汀白鞅住?，即僅優(yōu)化其在基準(zhǔn)上的性能，就像一個(gè)學(xué)生僅僅通過(guò)研究過(guò)去幾年的試題就能通過(guò)考試一樣。

CLIP模型可以不必在數(shù)據(jù)上訓(xùn)練，而是直接在基準(zhǔn)上進(jìn)行評(píng)估，因此無(wú)法以這種方式來(lái)“作弊”。此外，為了驗(yàn)證“作弊的假設(shè)”，測(cè)量了CLIP在有能力“研究” ImageNet時(shí)性能會(huì)如何變化。

當(dāng)線性分類器根據(jù)CLIP的特性安裝時(shí)，線性分類器能夠?qū)LIP在ImageNet測(cè)試儀上的準(zhǔn)確性提高近10％。但是，在評(píng)估“魯棒性”的性能時(shí)，這個(gè)分類器在其余7個(gè)數(shù)據(jù)集的評(píng)估套件中并沒(méi)有取得更好的平均表現(xiàn)。

優(yōu)勢(shì)1. CLIP非常高效

CLIP從未經(jīng)過(guò)濾的、變化多端的、極其嘈雜的數(shù)據(jù)中學(xué)習(xí)，且希望能夠在零樣本的情況下使用。從GPT-2和GPT-3中，我們可以知道，基于此類數(shù)據(jù)訓(xùn)練的模型可以實(shí)現(xiàn)出色的零樣本性能；但是，這類模型需要大量的訓(xùn)練計(jì)算。為了減少所需的計(jì)算，我們專注研究算法，以提高我們所使用方法的訓(xùn)練效率。我們介紹了兩種能夠節(jié)省大量計(jì)算的算法。

第一個(gè)算法是采用對(duì)比目標(biāo)（contrastive objective），將文本與圖像連接起來(lái)。最初我們探索了一種類似于VirTex的圖像到文本的方法，但這種方法在拓展以實(shí)現(xiàn)最先進(jìn)的性能時(shí)遇到了困難。在一些小型與中型實(shí)驗(yàn)中，我們發(fā)現(xiàn)CLIP所使用的對(duì)比目標(biāo)在零樣本ImageNet分類中的效率提高了4到10倍。

第二個(gè)算法是采用Vision Transformer，這個(gè)算法使我們的計(jì)算效率比在標(biāo)準(zhǔn)ResNet上提高了3倍。最后，性能最好的CLIP模型與現(xiàn)有的大規(guī)模圖像模型相似，在256個(gè)GPU上訓(xùn)練了2周。我們最初是嘗試訓(xùn)練圖像到字幕的語(yǔ)言模型，但發(fā)現(xiàn)這種方法在零樣本遷移方面遇到了困難。在16 GPU的日實(shí)驗(yàn)中，一個(gè)語(yǔ)言在訓(xùn)練了4億張圖像后，在ImageNet上僅達(dá)到16％的準(zhǔn)確性。CLIP的效率更高，且以大約快10倍的速度達(dá)到了相同的準(zhǔn)確度。

2. CLIP靈活且通用

由于CLIP模型可以直接從自然語(yǔ)言中學(xué)習(xí)許多視覺(jué)概念，因此它們比現(xiàn)有的ImageNet模型更加靈活與通用。我們發(fā)現(xiàn)，CLIP模型能夠在零樣本下執(zhí)行許多不同的任務(wù)。為了驗(yàn)證這一點(diǎn)，我們?cè)?0多個(gè)數(shù)據(jù)集上測(cè)量了CLIP的零樣本性能，任務(wù)包括細(xì)粒度物體分類，地理定位，視頻中的動(dòng)作識(shí)別和OCR等。其中，學(xué)習(xí)OCR時(shí)，CLIP取得了在標(biāo)準(zhǔn)ImageNet模型中所無(wú)法實(shí)現(xiàn)的令人興奮的效果。

比如，我們對(duì)每個(gè)零樣本分類器的隨機(jī)非櫻桃采摘預(yù)測(cè)進(jìn)行了可視化。這一發(fā)現(xiàn)也反映在使用線性探測(cè)學(xué)習(xí)評(píng)估的標(biāo)準(zhǔn)表示中。

我們測(cè)試了26個(gè)不同的遷移數(shù)據(jù)集，其中最佳的CLIP模型在20個(gè)數(shù)據(jù)集上的表現(xiàn)都比最佳的公開(kāi)ImageNet模型（Noisy Student EfficientNet-L2）出色。

在27個(gè)測(cè)試任務(wù)的數(shù)據(jù)集中，測(cè)試任務(wù)包括細(xì)粒度物體分類，OCR，視頻活動(dòng)識(shí)別以及地理定位，我們發(fā)現(xiàn)CLIP模型學(xué)會(huì)了使用效果更廣泛的圖像表示。與先前的10種方法相比，CLIP模型的計(jì)算效率也更高。

局限性

盡管CLIP在識(shí)別常見(jiàn)物體上的表現(xiàn)良好，但在一些更抽象或系統(tǒng)的任務(wù)（例如計(jì)算圖像中的物體數(shù)量）和更復(fù)雜的任務(wù)（例如預(yù)測(cè)照片中距離最近的汽車(chē)有多近）上卻遇到了困難。

在這兩個(gè)數(shù)據(jù)集上，零樣本CLIP僅僅比隨機(jī)猜測(cè)要好一點(diǎn)點(diǎn)。與其他模型相比，在非常細(xì)粒度分類的任務(wù)上，例如區(qū)分汽車(chē)模型、飛機(jī)型號(hào)或花卉種類時(shí)，零樣本CLIP的表現(xiàn)也不好。

對(duì)于不包含在其預(yù)訓(xùn)練數(shù)據(jù)集內(nèi)的圖像，CLIP進(jìn)行泛化的能力也很差。

例如，盡管CLIP學(xué)習(xí)了功能強(qiáng)大的OCR系統(tǒng)，但從MNIST數(shù)據(jù)集的手寫(xiě)數(shù)字上進(jìn)行評(píng)估時(shí)，零樣本CLIP只能達(dá)到88％的準(zhǔn)確度，遠(yuǎn)遠(yuǎn)低于人類在數(shù)據(jù)集中的99.75％精確度。

最后，我們觀察到，CLIP的零樣本分類器對(duì)單詞構(gòu)造或短語(yǔ)構(gòu)造比較敏感，有時(shí)還需要試驗(yàn)和錯(cuò)誤“提示引擎”才能表現(xiàn)良好。

更廣的影響

CLIP允許人們?cè)O(shè)計(jì)自己的分類器，且無(wú)需使用任務(wù)特定的訓(xùn)練數(shù)據(jù)。

設(shè)計(jì)分類的方式會(huì)嚴(yán)重影響模型的性能和模型的偏差。例如，我們發(fā)現(xiàn)，如果給定一組標(biāo)簽，其中包括Fairface種族標(biāo)簽和少數(shù)令人討厭的術(shù)語(yǔ)，例如“犯罪”，“動(dòng)物”等，那么該模型很可能將大約32.3%的年齡為0至20歲的人的圖像化為糟糕的類別。但是，當(dāng)我們添加“兒童”這一類別時(shí)，分類比率將下降到大約8.7％。

此外，由于CLIP不需要任務(wù)特定的訓(xùn)練數(shù)據(jù)，因此它可以更輕松地解鎖某些任務(wù)。

一些任務(wù)可能會(huì)增加隱私或監(jiān)視相關(guān)的風(fēng)險(xiǎn)，因此我們通過(guò)研究CLIP在名人識(shí)別方面的表現(xiàn)來(lái)探索這一擔(dān)憂。對(duì)100個(gè)名人圖像進(jìn)行識(shí)別時(shí)，CLIP實(shí)際分類的準(zhǔn)確率最高為59.2%，對(duì)1000個(gè)名人進(jìn)行識(shí)別時(shí)，準(zhǔn)確率最高為43.3％。值得注意的是，盡管通過(guò)任務(wù)不可知的預(yù)訓(xùn)練可以達(dá)到這些效果，但與廣泛使用的生產(chǎn)級(jí)別模型相比，該性能并不具有競(jìng)爭(zhēng)力。

結(jié)論

借助CLIP，我們測(cè)試了互聯(lián)網(wǎng)的自然語(yǔ)言上與任務(wù)無(wú)關(guān)的預(yù)訓(xùn)練（這種預(yù)訓(xùn)練為NLP的最新突破提供了動(dòng)力）是否可以用來(lái)改善其他領(lǐng)域的深度學(xué)習(xí)性能。

目前，CLIP應(yīng)用于計(jì)算機(jī)視覺(jué)所取得的效果令我們非常興奮。像GPT家族一樣，CLIP在預(yù)訓(xùn)練期間學(xué)習(xí)了我們通過(guò)零樣本遷移所展示的各種任務(wù)。

CLIP在ImageNet上的表現(xiàn)也令人驚喜，其中零樣本評(píng)估展示了CLIP模型的強(qiáng)大功能。

責(zé)任編輯：lq

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴