chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用于學(xué)習(xí)對(duì)象級(jí)、語言感知和語義豐富視覺表征的GLIP模型

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:金克絲 ? 2022-10-26 11:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

簡(jiǎn)介

問題

Visual recognition 模型通常只能預(yù)測(cè)一組固定的預(yù)先確定的目標(biāo)類別,這限制了在現(xiàn)實(shí)世界的可擴(kuò)展能力,因?yàn)閷?duì)于新的視覺概念類別和新的任務(wù)領(lǐng)域需要新的標(biāo)注數(shù)據(jù)。

CLIP可以在大量圖像文本對(duì)上有效地學(xué)習(xí) image-level 的視覺表征,因?yàn)榇笠?guī)模匹配的圖像文本對(duì)包含的視覺概念比任何預(yù)定義的概念都更廣泛,預(yù)訓(xùn)練的CLIP模型語義豐富,可以在 zero-shot 下輕松地遷移到下游的圖像分類和文本圖像檢索任務(wù)中。

為了獲得對(duì)圖像的細(xì)粒度理解(如目標(biāo)檢測(cè)、分割、人體姿態(tài)估計(jì)、場(chǎng)景理解、動(dòng)作識(shí)別、視覺語言理解),這些任務(wù)都非常需要 object-level 的視覺表征。

方案

這篇論文提出了 grounded language-image pretraining (GLIP) 模型,用于學(xué)習(xí)對(duì)象級(jí)、語言感知和語義豐富的視覺表征。GLIP將 object detection 和 phrase grounding 結(jié)合起來進(jìn)行預(yù)訓(xùn)練。這有兩個(gè)好處:

GLIP可以同時(shí)從 detection 和 grounding 數(shù)據(jù)中訓(xùn)練學(xué)習(xí),以改進(jìn)兩種任務(wù),訓(xùn)練一個(gè)優(yōu)秀的 grounding 模型;

GLIP可以通過 self-training 的方式生成 grounding boxes(即偽標(biāo)簽)來利用大量的圖像文本對(duì)數(shù)據(jù),使學(xué)習(xí)到的視覺表征具有豐富的語義。

實(shí)驗(yàn)上,作者對(duì)27M grounding data 進(jìn)行預(yù)訓(xùn)練(包括3M人工注釋和24M網(wǎng)絡(luò)爬取的圖像文本對(duì))。訓(xùn)練學(xué)習(xí)到的視覺表征在各種目標(biāo)級(jí)別的識(shí)別任務(wù)中都具有較強(qiáng)的zero/few shot遷移能力。

當(dāng)直接在COCO和LVIS上評(píng)估(預(yù)訓(xùn)練期間沒有訓(xùn)練COCO中的圖像)時(shí),GLIP分別達(dá)到 49.8 AP和 26.9 AP;

當(dāng)在COCO上進(jìn)行微調(diào)后,在val上達(dá)到 60.8 AP,在test-dev上達(dá)到 61.5 AP,超過了之前的SoTA模型。

主要貢獻(xiàn)

「1、Unifying detection and grounding by reformulating object detection as phrase grounding」

改變了檢測(cè)模型的輸入:不僅輸入圖像,還輸入 text prompt(包含檢測(cè)任務(wù)的所有候選類別)。例如,COCO目標(biāo)檢測(cè)任務(wù)的 text prompt 是由80個(gè)COCO對(duì)象類別名組成的文本字符串,如圖2(左)所示。通過將 object classification logits 替換為 word-region alignment 分?jǐn)?shù)(例如視覺region和文本token的點(diǎn)積),任何 object detection 模型都可以轉(zhuǎn)換為 grounding 模型,如圖2(右)所示。與僅在最后點(diǎn)積操作融合視覺和語言的CLIP不同,GLIP利用跨模態(tài)融合操作,具有了深度的跨模態(tài)融合的能力。

「2、Scaling up visual concepts with massive image-text data」

給定 grounding 模型(teacher),可以自動(dòng)生成大量圖像-文本對(duì)數(shù)據(jù)的 grounding boxes 來擴(kuò)充GLIP預(yù)訓(xùn)練數(shù)據(jù),其中 noun phrases 由NLP解析器檢測(cè),圖3為兩個(gè) boxes 的示例,teacher模型可以定位到困難的概念,如注射器、疫苗、美麗的加勒比海綠松石,甚至抽象的單詞(視圖)。在這種語義豐富的數(shù)據(jù)上訓(xùn)練可以生成語義豐富的student模型。

「3、Transfer learning with GLIP: one model for all」

GLIP可以有效的遷移到各種任務(wù)中,而只需要很少甚至不需要額外的人工標(biāo)注。此外,當(dāng)特定于任務(wù)的標(biāo)注數(shù)據(jù)可用時(shí),也不必微調(diào)整個(gè)模型,只需微調(diào)特定于任務(wù)的 prompt embedding,同時(shí)凍結(jié)模型參數(shù)。

相關(guān)工作

標(biāo)準(zhǔn)的 object detection 模型只能推理固定的對(duì)象類別,如COCO,而這種人工標(biāo)注的數(shù)據(jù)擴(kuò)展成本很高。GLIP將 object detection 定義為 phrase grounding,可以推廣到任何目標(biāo)檢測(cè)任務(wù)。

CLIP和ALIGN在大規(guī)模圖像-文本對(duì)上進(jìn)行跨模態(tài)對(duì)比學(xué)習(xí),可以直接進(jìn)行開放類別的圖像分類。GLIP繼承了這一研究領(lǐng)域的語義豐富和語言感知的特性,實(shí)現(xiàn)了SoTA對(duì)象檢測(cè)性能,并顯著提高了對(duì)下游檢測(cè)任務(wù)的可遷移能力。

方法

Grounded Language Image Pre-training

在概念上,object detection 與 phrase grounding 具有很大的相似性,它們都尋求對(duì)對(duì)象進(jìn)行本地化(即學(xué)習(xí)到并能檢測(cè)這種對(duì)象的類別),并將其與語義概念對(duì)齊。

767c251a-4850-11ed-a3b6-dac502259ad0.png

a、Unified Formulation

「Background: object detection」

標(biāo)準(zhǔn)的檢測(cè)模型將一張圖像輸入 visual encoder(CNN或Transformer),提取 region/box 特征(圖2底部),每個(gè) region/box 特征輸入兩個(gè) prediction heads,即分類器(分類損失)和回歸器(定位損失)。在兩階段檢測(cè)器中,還有一個(gè)分離的RPN層用以區(qū)分前景、背景和改善anchors,因?yàn)镽PN層沒有用到目標(biāo)類別的語義信息,我們將其損失合并到定位損失。

「Object detection as phrase grounding」

作者不是將每個(gè) region/box 分類為c類,而是將檢測(cè)任務(wù)重新定義為一個(gè) grounding 任務(wù),通過將每個(gè) region 與文本 prompt(Prompt = "Detect: person, bicycle, car, ... , toothbrush") 中的c個(gè)phrases 進(jìn)行 grounding/aligning(圖2)。在 grounding 模型中,計(jì)算圖像區(qū)域和prompt中的word之間的對(duì)齊分?jǐn)?shù):

76bf664a-4850-11ed-a3b6-dac502259ad0.png

其中 為圖像編碼器, 為文本編碼器,通過 和上一小節(jié)提到的分類損失、定位損失,共三個(gè)損失端到端進(jìn)行訓(xùn)練。到這里,會(huì)有一個(gè)問題,如圖2中間所示,子詞的數(shù)量 是要大于文本 prompt 的 phrases 數(shù)量 的,這是因?yàn)椋?/p>

有一些phrase包含多個(gè)word,例如‘traffic light’;

一些單詞會(huì)切分為多個(gè)子詞,例如‘toothbrush’會(huì)切分為‘tooth#’和‘#brush’;

一些token為added token或special token,不屬于要識(shí)別的類別;

在token詞表中會(huì)添加一個(gè)[NoObj] token。

因此,如果一個(gè)phrase是正匹配某個(gè)visual region,便將所有子詞正匹配,而將所有的added token負(fù)匹配所有的visual region,這樣將原始的分類損失擴(kuò)展為。

「Equivalence between detection and grounding」

通過上述方法,將任意detection 模型轉(zhuǎn)化為grounding模型,且理論上訓(xùn)練和推理都是等價(jià)的。由于語言編碼器的自由形式的輸入,預(yù)訓(xùn)練的phrase grounding模型可以直接應(yīng)用于任何目標(biāo)檢測(cè)任務(wù)。

b、Language-Aware Deep Fusion

在公式3中,圖像和文本由單獨(dú)的編碼器編碼,只在最后融合以計(jì)算對(duì)齊分?jǐn)?shù),這種模型為晚期融合模型,而在視覺語言任務(wù)中,視覺和語言特征的深度融合是必要的。

因此,作者在圖像和語言編碼器之間引入了深度融合,融合最后幾個(gè)編碼層中的圖像和文本信息,如圖2(中)所示。具體來說,當(dāng)使用DyHead作為圖像編碼器,BERT作為文本編碼器時(shí),深度融合編碼器為:

76f05ae8-4850-11ed-a3b6-dac502259ad0.png

跨模態(tài)交互由跨模態(tài)多頭注意力(X-MHA)(4)實(shí)現(xiàn),然后是單模態(tài)融合,并在(5)和(6)中更新。在沒有添加上下文向量(視覺模態(tài)和語言模態(tài))的情況下,模型即為后期融合模型。

在跨模態(tài)多頭注意力(XMHA)(4)中,每個(gè)head通過關(guān)注另一個(gè)模態(tài)來計(jì)算一個(gè)模態(tài)的上下文向量:

77209226-4850-11ed-a3b6-dac502259ad0.png

深度融合(4)-(6)有兩個(gè)好處:

提高了 phrase grounding 性能;

使學(xué)習(xí)到的視覺表征是語言感知的。

因此模型的預(yù)測(cè)是以文本prompt為條件的。

c、Pre-training with Scalable Semantic-Rich Data

GLIP模型可以在檢測(cè)和更重要的grounding數(shù)據(jù)上進(jìn)行訓(xùn)練,作者表明,grounding數(shù)據(jù)可以提供豐富的語義,以促進(jìn)本地化,可以以self-training的方式擴(kuò)展。

Grounding 數(shù)據(jù)涵蓋了更多的視覺概念詞匯,因此作者擴(kuò)展了詞匯表,幾乎涵蓋了 grounded captions 中出現(xiàn)的任何概念,例如,F(xiàn)lickr30K包含44,518個(gè)惟一的phrase,而VG Caption包含110,689個(gè)惟一phrase。

實(shí)驗(yàn)

GLIP variants

776bc124-4850-11ed-a3b6-dac502259ad0.png

經(jīng)過預(yù)訓(xùn)練,GLIP可以輕松地應(yīng)用于 grounding 和 detection 任務(wù),在三個(gè)基準(zhǔn)上顯示了強(qiáng)大的域遷移性能:

COCO,包含80個(gè)類別;

LVIS包含1000個(gè)類別;

Flickr30K用以 phrase grounding任務(wù)。

作者訓(xùn)練了5個(gè)GLIP變種模型(表1)用以消融,其中GoldG是指0.8M人類標(biāo)注的grounding數(shù)據(jù),包括Flickr30K, VG Caption和GQA,并且已經(jīng)從數(shù)據(jù)集中刪除了COCO圖像,Cap4M和Cap24M是指網(wǎng)絡(luò)收集的圖文對(duì)。

a、Zero-Shot and Supervised Transfer on COCO

77a9f87c-4850-11ed-a3b6-dac502259ad0.png

表2可以看到,GLIP模型實(shí)現(xiàn)了強(qiáng)大的zero-shot和有監(jiān)督(即Fine-Tune)性能。GLIP-T(C)達(dá)到46.7 AP,超過了Faster RCNN,GLIP-L達(dá)到49.8 AP,超過DyHead-T。

在有監(jiān)督下,GLIP-T比標(biāo)準(zhǔn)DyHead提高5.5 AP (55.2 vs 49.7)。通過swin-large作為主干,GLIP-L超越了COCO上當(dāng)前的SoTA,在2017val上達(dá)到了60.8 AP,在test-dev上達(dá)到了61.5 AP。

b、Zero-Shot Transfer on LVIS

77eb8d6e-4850-11ed-a3b6-dac502259ad0.png

表3可以看到,GLIP在所有類別上都展示了強(qiáng)大的zero-shot性能。

c、Phrase Grounding on Flickr30K Entities

782897cc-4850-11ed-a3b6-dac502259ad0.png

帶有GoldG(第3行)的GLIP-T實(shí)現(xiàn)了與帶有GoldG+的MDETR相似的性能,這是因?yàn)橐肓薙win Transformer、DyHead模塊和深度融合模塊。擴(kuò)展訓(xùn)練數(shù)據(jù)的(GLIP-L)可以達(dá)到87.1 Recall@1,比之前的SoTA高出2.8點(diǎn)。

總結(jié)

GLIP將 object detection 和 phrase grounding 任務(wù)統(tǒng)一起來,以學(xué)習(xí)對(duì)象級(jí)的、語言感知的和語義豐富的視覺表征。在預(yù)訓(xùn)練之后,GLIP在完善的基準(zhǔn)測(cè)試和13個(gè)下游任務(wù)的zero-shot和fine-tune設(shè)置方面顯示了有競(jìng)爭(zhēng)力的結(jié)果。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Clip
    +關(guān)注

    關(guān)注

    0

    文章

    34

    瀏覽量

    7204
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    355

    瀏覽量

    23242
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23182

原文標(biāo)題:全新的多模態(tài)預(yù)訓(xùn)練范式:微軟提出GLIP統(tǒng)一了對(duì)象檢測(cè)和短語定位任務(wù)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    機(jī)器人視覺企業(yè)環(huán)視智能完成千萬級(jí)天使輪融資,推動(dòng)通用智能機(jī)器人感知技術(shù)的產(chǎn)業(yè)化落地

    ,是一家專注于機(jī)器人視覺與AI感知技術(shù)的高科技企業(yè)。致力于為機(jī)器人及無人系統(tǒng)提供創(chuàng)新的視覺感知解決方案。 信息顯示,環(huán)視智能創(chuàng)始團(tuán)隊(duì)由天津大學(xué)校友師生組成,核心成員均來自
    的頭像 發(fā)表于 08-05 18:12 ?1514次閱讀
    機(jī)器人<b class='flag-5'>視覺</b>企業(yè)環(huán)視智能完成千萬<b class='flag-5'>級(jí)</b>天使輪融資,推動(dòng)通用智能機(jī)器人<b class='flag-5'>感知</b>技術(shù)的產(chǎn)業(yè)化落地

    明晚開播 |數(shù)據(jù)智能系列講座第7期:面向高泛化能力的視覺感知系統(tǒng)空間建模與微調(diào)學(xué)習(xí)

    鷺島論壇數(shù)據(jù)智能系列講座第7期「面向高泛化能力的視覺感知系統(tǒng)空間建模與微調(diào)學(xué)習(xí)」明晚8點(diǎn)精彩開播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報(bào)告題目面向高泛化能力的視覺
    的頭像 發(fā)表于 06-24 08:01 ?808次閱讀
    明晚開播 |數(shù)據(jù)智能系列講座第7期:面向高泛化能力的<b class='flag-5'>視覺</b><b class='flag-5'>感知</b>系統(tǒng)空間建模與微調(diào)<b class='flag-5'>學(xué)習(xí)</b>

    【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】視覺實(shí)現(xiàn)的基礎(chǔ)算法的應(yīng)用

    閱讀心得體會(huì):ROS2機(jī)器人視覺與地圖構(gòu)建技術(shù) 通過對(duì)本書第7章(ROS2視覺應(yīng)用)和第8章(ROS2地圖構(gòu)建)的學(xué)習(xí),我對(duì)機(jī)器人視覺感知
    發(fā)表于 05-03 19:41

    從安防到元宇宙:RK3588如何重塑視覺感知邊界?

    示例: 多模態(tài)AI融合:支持TensorFlow、PyTorch等主流框架模型部署,可應(yīng)用于智能零售中的行為識(shí)別系統(tǒng),通過攝像頭+紅外傳感器數(shù)據(jù)融合,精準(zhǔn)分析顧客停留熱點(diǎn)。 七屏異顯與8K編解碼:在數(shù)
    發(fā)表于 04-07 16:11

    ?VLM(視覺語言模型)?詳細(xì)解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能
    的頭像 發(fā)表于 03-17 15:32 ?7499次閱讀
    ?VLM(<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細(xì)解析

    如何使用OpenVINO?運(yùn)行對(duì)象檢測(cè)模型?

    無法確定如何使用OpenVINO?運(yùn)行對(duì)象檢測(cè)模型
    發(fā)表于 03-06 07:20

    一文詳解視覺語言模型

    視覺語言模型(VLM)是一種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?3174次閱讀
    一文詳解<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】+Embedding技術(shù)解讀

    理和理解這些數(shù)據(jù)。在自然語言處理中,Embedding常用于將文本數(shù)據(jù)中的單詞、句子或文檔映射為固定長(zhǎng)度的實(shí)數(shù)向量,這些向量包含了豐富語義信息。RAG技術(shù)是一種結(jié)合信息檢索與文本生成
    發(fā)表于 01-17 19:53

    望獲實(shí)時(shí)Linux系統(tǒng)與大語言模型深度融合,開創(chuàng)實(shí)時(shí)智能無限可能!

    語言模型的崛起為智能化應(yīng)用開辟了新的可能性。借助深度學(xué)習(xí)技術(shù),這些模型能夠理解和生成自然語言,處理復(fù)雜的文本和
    的頭像 發(fā)表于 01-08 13:44 ?1020次閱讀

    地平線ViG基于視覺Mamba的通用視覺主干網(wǎng)絡(luò)

    Vision Mamba的成功預(yù)示著將視覺表征學(xué)習(xí)轉(zhuǎn)換為線性復(fù)雜度視覺序列表征學(xué)習(xí)具有巨大的潛力
    的頭像 發(fā)表于 01-08 09:33 ?918次閱讀
    地平線ViG基于<b class='flag-5'>視覺</b>Mamba的通用<b class='flag-5'>視覺</b>主干網(wǎng)絡(luò)

    一種新的通用視覺主干模型Vision Mamba

    CNN和Transformer常作為深度學(xué)習(xí)模型的首選基礎(chǔ)模塊,被應(yīng)用于各種場(chǎng)景,如文本、視覺、語音信號(hào)處理及其各種下游應(yīng)用。然而這兩個(gè)基礎(chǔ)模塊都有著其固有而互補(bǔ)的缺陷:CNN具有固定
    的頭像 發(fā)表于 01-06 09:55 ?2240次閱讀
    一種新的通用<b class='flag-5'>視覺</b>主干<b class='flag-5'>模型</b>Vision Mamba

    《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型

    設(shè)計(jì)專門的編碼器處理視覺、觸覺、位置等不同類型的傳感器數(shù)據(jù),再用cross-attention機(jī)制將它們對(duì)齊到同一語義空間。這種設(shè)計(jì)不僅提高了模型感知能力,還增強(qiáng)了推理過程的可解釋性
    發(fā)表于 12-24 15:03

    NaVILA:加州大學(xué)與英偉達(dá)聯(lián)合發(fā)布新型視覺語言模型

    日前,加州大學(xué)的研究人員攜手英偉達(dá),共同推出了一款創(chuàng)新的視覺語言模型——NaVILA。該模型在機(jī)器人導(dǎo)航領(lǐng)域展現(xiàn)出了獨(dú)特的應(yīng)用潛力,為智能機(jī)器人的自主導(dǎo)航提供了一種全新的解決方案。
    的頭像 發(fā)表于 12-13 10:51 ?949次閱讀

    語言模型開發(fā)框架是什么

    語言模型開發(fā)框架是指用于訓(xùn)練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹大語言
    的頭像 發(fā)表于 12-06 10:28 ?811次閱讀

    利用VLM和MLLMs實(shí)現(xiàn)SLAM語義增強(qiáng)

    語義同步定位與建圖(SLAM)系統(tǒng)在對(duì)鄰近的語義相似物體進(jìn)行建圖時(shí)面臨困境,特別是在復(fù)雜的室內(nèi)環(huán)境中。本文提出了一種面向對(duì)象SLAM的語義增強(qiáng)(SEO-SLAM)的新型SLAM系統(tǒng),借
    的頭像 發(fā)表于 12-05 10:00 ?2150次閱讀
    利用VLM和MLLMs實(shí)現(xiàn)SLAM<b class='flag-5'>語義</b>增強(qiáng)