chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI又放大招:連接文本與圖像的CLIP

新機器視覺 ? 來源:AI科技評論 ? 作者:AI科技評論 ? 2021-04-18 10:42 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2020年,通用模型產(chǎn)生了經(jīng)濟價值,特別是GPT-3,它的出現(xiàn)證明了大型語言模型具有驚人的語言能力,并且在執(zhí)行其他任務方面也毫不遜色。

2021年,OpenAI 聯(lián)合創(chuàng)始人 Ilya Sutskever預測語言模型會轉(zhuǎn)向視覺領域。他說:“下一代模型,或許可以針對文本輸入,從而編輯和生成圖像?!?/p>

cbdba506-9fbb-11eb-8b86-12bb97331649.png

聽話聽音!OpenAI 踐行了這一想法,幾個小時前,OpenAI通過官方推特發(fā)布了兩個嶄新的網(wǎng)絡,一個叫DALL-E(參見今天推送的頭條),能夠通過給定的文本創(chuàng)建出圖片;一個叫CLIP,能夠?qū)D像映射到文本描述的類別中。

其中,CLIP可以通過自然語言監(jiān)督有效學習視覺概念,從而解決目前深度學習主流方法存在的幾個問題:

1.需要大量的訓練數(shù)據(jù)集,從而導致較高的創(chuàng)建成本。

2.標準的視覺模型,往往只擅長一類任務,遷移到其他任務,需要花費巨大的成本。

3.在基準上表現(xiàn)良好的模型,在測試中往往不盡人意。

具體而言,OpenAI從互聯(lián)網(wǎng)收集的4億(圖像、文本)對的數(shù)據(jù)集,在預訓練之后,用自然語言描述所學的視覺概念,從而使模型能夠在zero-shot狀態(tài)下轉(zhuǎn)移到下游任務。這種設計類似于GPT-2和GPT-3的“zero-shot”。

這一點非常關(guān)鍵,因為這意味著,可以不直接針對基準進行優(yōu)化,同時表現(xiàn)出了優(yōu)越的性能:穩(wěn)健性差距(robustness gap)縮小了75%,性能和ResNet507相當。換句話說。無需使用其訓練的128萬個訓練樣本中的任何一個,即可與原始ResNet-50 在 Image Net Zero-shot的精確度相匹配。

cc10765a-9fbb-11eb-8b86-12bb97331649.png

如上圖所示,雖然兩個模型在ImageNet測試集上的準確度相差無幾,但CLIP的性能更能代表在非ImageNet設置下的表現(xiàn)。

CLIP網(wǎng)絡中做了大量的工作是關(guān)于zero-shot 遷移的學習、自然語言監(jiān)督、多模態(tài)學習。其實,關(guān)于零數(shù)據(jù)學習的想法可以追溯到十年前,但是最近在計算機視覺中火了起來。零數(shù)據(jù)學習的一個重點是:利用自然語言作為靈活的預測空間,從而實現(xiàn)泛化和遷移。另外,在2013年,斯坦福大學的Richer Socher通過訓練CIFAR-10上的一個模型,在詞向量嵌入空間中進行預測,并表明模型可以預測兩個“未見過”的類別。Richer的工作提供了一個概念證明。

CLIP是過去一年,從自然語言監(jiān)督中學習視覺表征工作中的一部分。CLIP使用了更現(xiàn)代的架構(gòu),如Transformer,包括探索自回歸語言建模的Virtex,研究掩蔽語言建模的ICMLM等等。

1

方法

前面也提到,CLIP訓練的數(shù)據(jù)來源于互聯(lián)網(wǎng)上4億數(shù)據(jù)對。用這些數(shù)據(jù),CLIP需要完成的任務是:給定一幅圖像,在32,768個隨機抽樣的文本片段中,找到能夠匹配的那一個。

完成這個任務,需要CLIP模型學會識別圖像中的各種視覺概念,并將概念和圖片相關(guān)聯(lián)。因此,CLIP模型可以應用于幾乎任意的視覺分類任務。

例如,如果一個數(shù)據(jù)集的任務是對狗與貓的照片進行分類,而CLIP模型預測 “一張狗的照片 ”和 “一張貓的照片 ”這兩個文字描述哪個更匹配。

cc99980e-9fbb-11eb-8b86-12bb97331649.png

如上圖所示,CLIP網(wǎng)絡工作流程:預訓練圖編碼器和文本編碼器,以預測數(shù)據(jù)集中哪些圖像與哪些文本配對。然后,將CLIP轉(zhuǎn)換為zero-shot分類器。

此外,將數(shù)據(jù)集的所有類轉(zhuǎn)換為諸如“一只狗的照片”之類的標簽,并預測最佳配對的圖像。

總體而言,CLIP能夠解決:

1.昂貴的數(shù)據(jù)集:ImageNet中1400萬張圖片的標注,動用了25,000名勞動力。相比之下,CLIP使用的是已經(jīng)在互聯(lián)網(wǎng)上公開提供的文本-圖像對。自我監(jiān)督學習、對比方法、自我訓練方法和生成式建模也可以減少對標注圖像的依賴。

2.任務單一:CLIP可以適用于執(zhí)行各種視覺分類任務,而不需要額外的訓練。

3.實際應用性能不佳:深度學習中“基準性能”與“實際性能”之間存在差距是一直以來的“痛”。這種差距之所以會出現(xiàn),是因為模型“作弊”,即僅優(yōu)化其在基準上的性能,就像一個學生僅僅通過研究過去幾年的試題就能通過考試一樣。

CLIP模型可以不必在數(shù)據(jù)上訓練,而是直接在基準上進行評估,因此無法以這種方式來“作弊”。此外,為了驗證“作弊的假設”,測量了CLIP在有能力“研究” ImageNet時性能會如何變化。

當線性分類器根據(jù)CLIP的特性安裝時,線性分類器能夠?qū)LIP在ImageNet測試儀上的準確性提高近10%。但是,在評估“魯棒性”的性能時,這個分類器在其余7個數(shù)據(jù)集的評估套件中并沒有取得更好的平均表現(xiàn)。

2

優(yōu)勢1. CLIP非常高效

CLIP從未經(jīng)過濾的、變化多端的、極其嘈雜的數(shù)據(jù)中學習,且希望能夠在零樣本的情況下使用。從GPT-2和GPT-3中,我們可以知道,基于此類數(shù)據(jù)訓練的模型可以實現(xiàn)出色的零樣本性能;但是,這類模型需要大量的訓練計算。為了減少所需的計算,我們專注研究算法,以提高我們所使用方法的訓練效率。我們介紹了兩種能夠節(jié)省大量計算的算法。

第一個算法是采用對比目標(contrastive objective),將文本與圖像連接起來。最初我們探索了一種類似于VirTex的圖像到文本的方法,但這種方法在拓展以實現(xiàn)最先進的性能時遇到了困難。在一些小型與中型實驗中,我們發(fā)現(xiàn)CLIP所使用的對比目標在零樣本ImageNet分類中的效率提高了4到10倍。

第二個算法是采用Vision Transformer,這個算法使我們的計算效率比在標準ResNet上提高了3倍。最后,性能最好的CLIP模型與現(xiàn)有的大規(guī)模圖像模型相似,在256個GPU上訓練了2周。我們最初是嘗試訓練圖像到字幕的語言模型,但發(fā)現(xiàn)這種方法在零樣本遷移方面遇到了困難。在16 GPU的日實驗中,一個語言在訓練了4億張圖像后,在ImageNet上僅達到16%的準確性。CLIP的效率更高,且以大約快10倍的速度達到了相同的準確度。

2. CLIP靈活且通用

由于CLIP模型可以直接從自然語言中學習許多視覺概念,因此它們比現(xiàn)有的ImageNet模型更加靈活與通用。我們發(fā)現(xiàn),CLIP模型能夠在零樣本下執(zhí)行許多不同的任務。為了驗證這一點,我們在30多個數(shù)據(jù)集上測量了CLIP的零樣本性能,任務包括細粒度物體分類,地理定位,視頻中的動作識別和OCR等。其中,學習OCR時,CLIP取得了在標準ImageNet模型中所無法實現(xiàn)的令人興奮的效果。

比如,我們對每個零樣本分類器的隨機非櫻桃采摘預測進行了可視化。這一發(fā)現(xiàn)也反映在使用線性探測學習評估的標準表示中。

我們測試了26個不同的遷移數(shù)據(jù)集,其中最佳的CLIP模型在20個數(shù)據(jù)集上的表現(xiàn)都比最佳的公開ImageNet模型(Noisy Student EfficientNet-L2)出色。

在27個測試任務的數(shù)據(jù)集中,測試任務包括細粒度物體分類,OCR,視頻活動識別以及地理定位,我們發(fā)現(xiàn)CLIP模型學會了使用效果更廣泛的圖像表示。與先前的10種方法相比,CLIP模型的計算效率也更高。

3

局限性

盡管CLIP在識別常見物體上的表現(xiàn)良好,但在一些更抽象或系統(tǒng)的任務(例如計算圖像中的物體數(shù)量)和更復雜的任務(例如預測照片中距離最近的汽車有多近)上卻遇到了困難。

在這兩個數(shù)據(jù)集上,零樣本CLIP僅僅比隨機猜測要好一點點。與其他模型相比,在非常細粒度分類的任務上,例如區(qū)分汽車模型、飛機型號或花卉種類時,零樣本CLIP的表現(xiàn)也不好。

對于不包含在其預訓練數(shù)據(jù)集內(nèi)的圖像,CLIP進行泛化的能力也很差。

例如,盡管CLIP學習了功能強大的OCR系統(tǒng),但從MNIST數(shù)據(jù)集的手寫數(shù)字上進行評估時,零樣本CLIP只能達到88%的準確度,遠遠低于人類在數(shù)據(jù)集中的99.75%精確度。

最后,我們觀察到,CLIP的零樣本分類器對單詞構(gòu)造或短語構(gòu)造比較敏感,有時還需要試驗和錯誤“提示引擎”才能表現(xiàn)良好。

4

更廣的影響

CLIP允許人們設計自己的分類器,且無需使用任務特定的訓練數(shù)據(jù)。

設計分類的方式會嚴重影響模型的性能和模型的偏差。例如,我們發(fā)現(xiàn),如果給定一組標簽,其中包括Fairface種族標簽和少數(shù)令人討厭的術(shù)語,例如“犯罪”,“動物”等,那么該模型很可能將大約32.3%的年齡為0至20歲的人的圖像化為糟糕的類別。但是,當我們添加“兒童”這一類別時,分類比率將下降到大約8.7%。

此外,由于CLIP不需要任務特定的訓練數(shù)據(jù),因此它可以更輕松地解鎖某些任務。

一些任務可能會增加隱私或監(jiān)視相關(guān)的風險,因此我們通過研究CLIP在名人識別方面的表現(xiàn)來探索這一擔憂。對100個名人圖像進行識別時,CLIP實際分類的準確率最高為59.2%,對1000個名人進行識別時,準確率最高為43.3%。值得注意的是,盡管通過任務不可知的預訓練可以達到這些效果,但與廣泛使用的生產(chǎn)級別模型相比,該性能并不具有競爭力。

5

結(jié)論

借助CLIP,我們測試了互聯(lián)網(wǎng)的自然語言上與任務無關(guān)的預訓練(這種預訓練為NLP的最新突破提供了動力)是否可以用來改善其他領域的深度學習性能。

目前,CLIP應用于計算機視覺所取得的效果令我們非常興奮。像GPT家族一樣,CLIP在預訓練期間學習了我們通過零樣本遷移所展示的各種任務。

CLIP在ImageNet上的表現(xiàn)也令人驚喜,其中零樣本評估展示了CLIP模型的強大功能。

責任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    566

    瀏覽量

    11174
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1229

    瀏覽量

    25910
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1234

    瀏覽量

    9564

原文標題:OpenAI又放大招:連接文本與圖像的CLIP,在ImageNet上效果媲美ResNet50

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    格靈深瞳突破文本人物檢索技術(shù)難題

    格靈深瞳參與研究的GA-DMS框架,為攻破上述技術(shù)難題提供了全新解決方案。研究團隊通過數(shù)據(jù)構(gòu)建和模型架構(gòu)的協(xié)同改進,推動CLIP在人物表征學習中的應用,顯著提升了基于文本的人物檢索效果。該成果已入選EMNLP 2025 主會(自然語言處理領域的頂級國際會議之一)。
    的頭像 發(fā)表于 09-28 09:42 ?232次閱讀
    格靈深瞳突破<b class='flag-5'>文本</b>人物檢索技術(shù)難題

    無法使用OpenVINO?在 GPU 設備上運行穩(wěn)定擴散文本圖像的原因?

    在OpenVINO? GPU 設備上使用圖像大小 (1024X576) 運行穩(wěn)定擴散文本圖像,并收到錯誤消息: RuntimeError: Exception from
    發(fā)表于 06-25 06:36

    DeepSeek開源新版R1 媲美OpenAI o3

    DeepSeek“悄悄”地又放了一個大招,DeepSeek開源了R1最新0528版本。盡管DeepSeek目前還沒有對該版本進行任何說明,但是根據(jù)著名代碼測試平臺Live CodeBench數(shù)據(jù)
    的頭像 發(fā)表于 05-29 11:23 ?625次閱讀

    把樹莓派打造成識別文本的“神器”!

    在許多項目中,RaspberryPi被用作監(jiān)控攝像頭或執(zhí)行機器學習任務。在這些場景中,圖像中經(jīng)常包含應用程序感興趣的文本信息。我們希望提取這些信息并將其轉(zhuǎn)換,以便通過程序分析文本
    的頭像 發(fā)表于 03-25 09:30 ?653次閱讀
    把樹莓派打造成識別<b class='flag-5'>文本</b>的“神器”!

    ?VLM(視覺語言模型)?詳細解析

    支持生成式任務。 多模態(tài)融合 :通過跨模態(tài)注意力機制、投影層(如CLIP圖像文本映射到同一空間)或適配器
    的頭像 發(fā)表于 03-17 15:32 ?6729次閱讀
    ?VLM(視覺語言模型)?詳細解析

    揭秘Cu Clip封裝:如何助力半導體芯片飛躍

    在半導體行業(yè)中,封裝技術(shù)對于功率芯片的性能發(fā)揮起著至關(guān)重要的作用。隨著電子技術(shù)的飛速發(fā)展,特別是在大功率場合下,傳統(tǒng)的封裝技術(shù)已經(jīng)難以滿足日益增長的性能需求。因此,Cu Clip封裝技術(shù)作為一種新興
    的頭像 發(fā)表于 02-19 11:32 ?3487次閱讀
    揭秘Cu <b class='flag-5'>Clip</b>封裝:如何助力半導體芯片飛躍

    OpenAI提交新商標的申請

    近日,OpenAI提交了新商標的申請,這一舉動瞬間吸引了眾多目光,引發(fā)行業(yè)內(nèi)外的廣泛關(guān)注和熱議。雖然目前 OpenAI 并未公開新商標的具體用途和相關(guān)產(chǎn)品,但市場紛紛猜測,這或許與 OpenAI
    的頭像 發(fā)表于 02-05 16:38 ?859次閱讀

    OpenAI失信,未能在2025年之前提供opt-out工具

    名為 “Media Manager”,可以 “識別受版權(quán)保護的文本、圖像、音頻和視頻”,以反映創(chuàng)作者 “跨多個來源” 的偏好。該旨在幫助該公司規(guī)避一些抨擊,并避免 OpenAI 免受與知識產(chǎn)權(quán)相關(guān)的法律
    的頭像 發(fā)表于 01-17 11:10 ?511次閱讀

    #新年新氣象,大家新年快樂!#AIGC入門及鴻蒙入門

    。 2. 實踐操作: 使用Python進行實踐,通過transformers庫加載預訓練的文本生成模型。 學習圖像生成算法,如生成對抗網(wǎng)絡(GAN)等。 3. 工具推薦: ChatGPT:由OpenAI
    發(fā)表于 01-13 10:46

    AIGC入門及鴻蒙入門

    。 2. 實踐操作: 使用Python進行實踐,通過transformers庫加載預訓練的文本生成模型。 學習圖像生成算法,如生成對抗網(wǎng)絡(GAN)等。 3. 工具推薦: ChatGPT:由OpenAI
    發(fā)表于 01-13 10:32

    OpenAI暫不推出Sora視頻生成模型API

    OpenAI近日宣布,目前暫無推出其視頻生成模型Sora的應用程序接口(API)的計劃。Sora模型能夠基于文本圖像生成視頻,引發(fā)了廣泛關(guān)注。然而,由于訪問量遠超預期,OpenAI
    的頭像 發(fā)表于 12-20 14:23 ?797次閱讀

    OpenAI考慮取消AGI條款

    近日,據(jù)英國《金融時報》報道,OpenAI正在與微軟就一項重要條款進行磋商,該條款涉及未來通用人工智能(AGI)技術(shù)的使用權(quán)。 據(jù)了解,OpenAI與微軟此前簽訂的合同中,包含了一項關(guān)于通用
    的頭像 發(fā)表于 12-09 14:35 ?809次閱讀

    新品 | 可拼接燈板矩陣 Puzzle Unit &amp;amp; 創(chuàng)意固定套件CLIP-A/CLIP-B

    本月的第三波新品上線了3款全新產(chǎn)品,涵蓋了多種需求和應用領域。從激發(fā)興趣和創(chuàng)意的PuzzleUnit,到多功能創(chuàng)意套件CLIP-A&CLIP-B,每一款都為不同場景提供了創(chuàng)新解決方案??靵?/div>
    的頭像 發(fā)表于 11-16 01:07 ?589次閱讀
    新品 | 可拼接燈板矩陣 Puzzle Unit &amp;amp; 創(chuàng)意固定套件<b class='flag-5'>CLIP</b>-A/<b class='flag-5'>CLIP</b>-B

    微軟評估OpenAI股權(quán)

    隨著OpenAI向營利性公司轉(zhuǎn)型,其與最大投資者微軟攜手聘請了投資銀行,以評估微軟在OpenAI中的股權(quán)比例。微軟作為OpenAI的重要支持者,已向這家非營利組織投資了近140億美元。
    的頭像 發(fā)表于 10-21 15:40 ?815次閱讀