chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用視覺+語言數(shù)據(jù)增強視覺特征

CVer ? 來源:CVer ? 作者:CVer ? 2023-02-13 13:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

研究動機

傳統(tǒng)的多模態(tài)預(yù)訓(xùn)練方法通常需要"大數(shù)據(jù)"+"大模型"的組合來同時學(xué)習(xí)視覺+語言的聯(lián)合特征。但是關(guān)注如何利用視覺+語言數(shù)據(jù)提升視覺任務(wù)(多模態(tài)->單模態(tài))上性能的工作并不多。本文旨在針對上述問題提出一種簡單高效的方法。

在這篇文章中,以醫(yī)療影像上的特征學(xué)習(xí)為例,我們提出對圖像+文本同時進行掩碼建模(即Masked Record Modeling,Record={Image,Text})可以更好地學(xué)習(xí)視覺特征。該方法具有以下優(yōu)點:

簡單。僅通過特征相加就可以實現(xiàn)多模態(tài)信息的融合。此處亦可進一步挖掘,比如引入更高效的融合策略或者擴展到其它領(lǐng)域。

高效。在近30w的數(shù)據(jù)集上,在4張NVIDIA 3080Ti上完成預(yù)訓(xùn)練僅需要1天半左右的時間。

性能強。在微調(diào)階段,在特定數(shù)據(jù)集上,使用1%的標(biāo)記數(shù)據(jù)可以接近100%標(biāo)記數(shù)據(jù)的性能。

方法(一句話總結(jié))

1318d8aa-ab48-11ed-bfe3-dac502259ad0.png

如上圖所示,我們提出的訓(xùn)練策略是比較直觀的,主要包含三步:

隨機Mask一部分輸入的圖像和文本

使用加法融合過后的圖像+文本的特征重建文本

使用圖像的特征重建圖像。

性能

1343eedc-ab48-11ed-bfe3-dac502259ad0.png

如上圖所示,我們?nèi)鎸Ρ攘爽F(xiàn)有的相關(guān)方法和模型在各類微調(diào)任務(wù)上的性能。

在CheXpert上,我們以1%的有標(biāo)記數(shù)據(jù)接近使用100%有標(biāo)記數(shù)據(jù)的性能。

RSNA Pneumonia和SIIM (分割)上,我們以較大幅度超過了之前最先進的方法。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 建模
    +關(guān)注

    關(guān)注

    1

    文章

    319

    瀏覽量

    62188
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1229

    瀏覽量

    25906
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8995

    瀏覽量

    142433

原文標(biāo)題:ICLR 2023 | 廈大&港大提出MRM:利用視覺+語言數(shù)據(jù)增強視覺特征

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    機器視覺檢測PIN針

    : 結(jié)合形態(tài)學(xué)處理、特征提?。ㄈ玳L寬比、面積)及深度學(xué)習(xí)(針對復(fù)雜缺陷),自動檢出彎曲、斷裂、變形、污染等。輸出與控制:實時顯示檢測結(jié)果(OK/NG)及具體參數(shù)數(shù)值。生成檢測報告,支持數(shù)據(jù)追溯。NG品自動剔除信號輸出,無縫對接產(chǎn)線。了解更多機器
    發(fā)表于 09-26 15:09

    iTOF技術(shù),多樣化的3D視覺應(yīng)用

    (CMOS)產(chǎn)品項目利用其在傳統(tǒng)TOF(CCD)技術(shù)方面的專業(yè)知識,目標(biāo)是在2023年12月之前量產(chǎn)?;诳蛻魳颖掘炞C的初步反饋和溝通表明,與同類產(chǎn)品相比,這兩項指標(biāo)的表現(xiàn)均具有優(yōu)異性,增強了我們對其
    發(fā)表于 09-05 07:24

    基于凌智視覺識別模塊的基于單目視覺的目標(biāo)物測量裝置

    1.視覺測量整體方案本視覺測量系統(tǒng)采用單目視覺技術(shù)實現(xiàn)目標(biāo)物距離
    的頭像 發(fā)表于 07-31 15:35 ?578次閱讀
    基于凌智<b class='flag-5'>視覺</b>識別模塊的基于單目<b class='flag-5'>視覺</b>的目標(biāo)物測量裝置

    機器視覺照明的技術(shù)選擇與應(yīng)用

    機器視覺照明的關(guān)鍵特點包括對比度增強、亮度調(diào)整、魯棒性控制、反射控制、可預(yù)測性、表面因素影響以及光源位置。
    的頭像 發(fā)表于 04-09 09:59 ?386次閱讀

    ?VLM(視覺語言模型)?詳細解析

    的詳細解析: 1. 核心組成與工作原理 視覺編碼器 :提取圖像特征,常用CNN(如ResNet)或視覺Transformer(ViT)。 語言模型 :處理文本輸入/輸出,如GPT、BE
    的頭像 發(fā)表于 03-17 15:32 ?6725次閱讀
    ?VLM(<b class='flag-5'>視覺</b><b class='flag-5'>語言</b>模型)?詳細解析

    一文詳解視覺語言模型

    視覺語言模型(VLM)是一種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?2697次閱讀
    一文詳解<b class='flag-5'>視覺</b><b class='flag-5'>語言</b>模型

    NaVILA:加州大學(xué)與英偉達聯(lián)合發(fā)布新型視覺語言模型

    日前,加州大學(xué)的研究人員攜手英偉達,共同推出了一款創(chuàng)新的視覺語言模型——NaVILA。該模型在機器人導(dǎo)航領(lǐng)域展現(xiàn)出了獨特的應(yīng)用潛力,為智能機器人的自主導(dǎo)航提供了一種全新的解決方案。 視覺語言
    的頭像 發(fā)表于 12-13 10:51 ?854次閱讀

    利用VLM和MLLMs實現(xiàn)SLAM語義增強

    語義同步定位與建圖(SLAM)系統(tǒng)在對鄰近的語義相似物體進行建圖時面臨困境,特別是在復(fù)雜的室內(nèi)環(huán)境中。本文提出了一種面向?qū)ο骃LAM的語義增強(SEO-SLAM)的新型SLAM系統(tǒng),借助視覺語言模型
    的頭像 發(fā)表于 12-05 10:00 ?1964次閱讀
    <b class='flag-5'>利用</b>VLM和MLLMs實現(xiàn)SLAM語義<b class='flag-5'>增強</b>

    協(xié)作機器人TM25S:內(nèi)置視覺系統(tǒng)實現(xiàn)精準(zhǔn)作業(yè)

    步驟。 ? 內(nèi)置視覺系統(tǒng)具有四大功能:識別、增強、查找、測量。 識別功能可以對條形碼/QR碼/DataMatrix碼等二維碼進行讀取、顏色識別、OCR等功能,可用于檢測、分揀、定位等多種工序。 增強功能可以
    的頭像 發(fā)表于 11-28 10:26 ?901次閱讀
    協(xié)作機器人TM25S:內(nèi)置<b class='flag-5'>視覺</b>系統(tǒng)實現(xiàn)精準(zhǔn)作業(yè)

    適用于機器視覺應(yīng)用的智能機器視覺控制平臺

    工控機在機器視覺系統(tǒng)設(shè)計中是不可或缺的核心組件,在機器視覺中發(fā)揮著至關(guān)重要的作用,其強大的計算能力、高度的穩(wěn)定性和可靠性、實時性以及圖像處理和識別能力,為機器視覺檢測提供了有力支持。我們來看
    的頭像 發(fā)表于 11-23 01:08 ?770次閱讀
    適用于機器<b class='flag-5'>視覺</b>應(yīng)用的智能機器<b class='flag-5'>視覺</b>控制平臺

    基于視覺語言模型的導(dǎo)航框架VLMnav

    本文提出了一種將視覺語言模型(VLM)轉(zhuǎn)換為端到端導(dǎo)航策略的具體框架。不依賴于感知、規(guī)劃和控制之間的分離,而是使用VLM在一步中直接選擇動作。驚訝的是,我們發(fā)現(xiàn)VLM可以作為一種無需任何微調(diào)或?qū)Ш?b class='flag-5'>數(shù)據(jù)的端到端策略來使用。這使得該
    的頭像 發(fā)表于 11-22 09:42 ?1165次閱讀

    視覺軟件HALCON的數(shù)據(jù)結(jié)構(gòu)

    在研究機器視覺算法之前,我們需要先了解機器視覺應(yīng)用中涉及的基本數(shù)據(jù)結(jié)構(gòu)。Halcon數(shù)據(jù)結(jié)構(gòu)主要有圖像參數(shù)和控制參數(shù)兩類參數(shù)。圖像參數(shù)包括:image、region、XLD,控制參數(shù)包
    的頭像 發(fā)表于 11-14 10:20 ?1744次閱讀
    <b class='flag-5'>視覺</b>軟件HALCON的<b class='flag-5'>數(shù)據(jù)</b>結(jié)構(gòu)

    SegVG視覺定位方法的各個組件

    視覺定位(Visual Grounding)旨在基于自由形式的自然語言文本表達定位圖像中的目標(biāo)物體。隨著多模態(tài)推理系 統(tǒng)的普及,如視覺問答和圖像描述,視覺定位的重要性愈加凸顯。已有的研
    的頭像 發(fā)表于 10-28 13:59 ?1142次閱讀
    SegVG<b class='flag-5'>視覺</b>定位方法的各個組件

    使用語義線索增強局部特征匹配

    視覺匹配是關(guān)鍵計算機視覺任務(wù)中的關(guān)鍵步驟,包括攝像機定位、圖像配準(zhǔn)和運動結(jié)構(gòu)。目前最有效的匹配關(guān)鍵點的技術(shù)包括使用經(jīng)過學(xué)習(xí)的稀疏或密集匹配器,這需要成對的圖像。這些神經(jīng)網(wǎng)絡(luò)對兩幅圖像的特征有很好的總體理解,但它們經(jīng)常難以匹配不同
    的頭像 發(fā)表于 10-28 09:57 ?1177次閱讀
    使用語義線索<b class='flag-5'>增強</b>局部<b class='flag-5'>特征</b>匹配

    如何利用FPGA技術(shù)革新視覺人工智能應(yīng)用?

    嵌入式視覺人工智能應(yīng)用通過在邊緣實現(xiàn)高度復(fù)雜的實時視頻流處理和決策,正在為各行各業(yè)帶來變革。這些應(yīng)用范圍從自動駕駛到智能制造,其中快速分析視覺數(shù)據(jù)至關(guān)重要。這些應(yīng)用要求實時處理、低延遲和低功耗,以
    的頭像 發(fā)表于 10-16 08:03 ?1047次閱讀
    如何<b class='flag-5'>利用</b>FPGA技術(shù)革新<b class='flag-5'>視覺</b>人工智能應(yīng)用?