chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

低成本擴大輸入分辨率!華科大提出Monkey:新的多模態(tài)大模型

CVer ? 來源:CVer ? 2023-12-04 15:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

低成本擴大輸入分辨率:探秘98億參數(shù)多模態(tài)大模型--Monkey眼中的世界

【導讀】11月,華中科技大學團隊發(fā)布了新的多模態(tài)大模型——Monkey,通過專注于大分辨率,使得Monkey能夠處理分辨率高達1344×896的圖像,并加入了有著詳細描述的高質(zhì)量圖文數(shù)據(jù)進行訓練,幫助Monkey煉就洞察圖像細節(jié)的火眼金睛,取得了與Caption和QA任務相關的16個數(shù)據(jù)集的SOTA,甚至與GPT4V相比,在密集文本問答任務上也有著亮眼的表現(xiàn)。

論文鏈接:https://arxiv.org/abs/2311.06607

代碼地址:https://github.com/Yuliang-Liu/Monkey

官方demo效果展示:

Monkey在密集文本的問答任務上取得了很不錯的效果,可以根據(jù)問題的要求進行推理,能夠適配中文問答

ed9b49ec-91f5-11ee-939d-92fbcf53809c.gif

在文本較少的場景中Monkey也展現(xiàn)了不俗的問答能力,自身擁有豐富的知識庫,可以根據(jù)問題進行外推,從而回答出正確的答案

edba5922-91f5-11ee-939d-92fbcf53809c.gif

Monkey在Caption任務上同樣取得了出色的結果,不僅僅是對圖片進行準確詳細的描述,同時能夠合理發(fā)散,分析出圖片所傳達的一些抽象含義

以下是Monkey同GPT4V在密集文本與圖表上進行問答的可視化結果展示。

edc275e4-91f5-11ee-939d-92fbcf53809c.png

下圖展示了Monkey的卓越性能,在 18 個不同的數(shù)據(jù)集上進行測試的結果表明,Monkey能夠很好地勝任圖像描述生成、場景問答、以場景文本為中心的視覺問答和面向文檔的視覺問答等任務,并在16個數(shù)據(jù)集上取得SOTA。

edc7e358-91f5-11ee-939d-92fbcf53809c.png

方法介紹:

1. 增大輸入分辨率

將原始輸入圖片裁剪成多個圖片塊,再將這些圖片塊和原始輸入圖片統(tǒng)一到448*448的尺寸。每個圖片塊經(jīng)過視覺編碼時會加入一個專屬的Lora以此更好地提取圖片塊的局部視覺特征,訓練時僅訓練Lora部分,而原始的輸入圖像則用于提取全局特征,以此方法達到增大輸入分辨率的目的。

eddb3a70-91f5-11ee-939d-92fbcf53809c.png

2. 多級特征融合的詳細描述生成方法生成高質(zhì)量圖文數(shù)據(jù)

主要分為五個步驟:第一步,使用BLIP2對整張圖生成全局描述;第二步用 GRIT生成區(qū)域框,并提供區(qū)域中對象的名稱和詳細描述,同時使用PPOCR提取區(qū)域的文本框坐標和文本內(nèi)容;第三步使用SAM進行分割,并送入BLIP2生成對各個物體及其組成部分的詳細描述;第四步使用BLIP-2 評估過濾掉低分匹配;最后使用ChatGPT 對上述得到的描述進行總結從而得到圖像的詳細描述。

eddf41ec-91f5-11ee-939d-92fbcf53809c.png

下圖為使用使用多級特征融合的詳細描述生成方法后得到的標注與原始CC3M標注的對比,不難看出,兩種標注之間存在著較大的差距,生成的詳細標注盡可能地包含了圖片中的各種細節(jié),而不像是CC3M地原始標注那樣一句帶過。利用這樣高質(zhì)量的圖文數(shù)據(jù)進行訓練,使得Monkey能夠更好地把握圖文之間的關系。

edf95c12-91f5-11ee-939d-92fbcf53809c.png

更多的可視化對比結果與展示:

通過下圖展示的Monkey在QA任務上與多種大模型的對比結果,從中我們能夠更加直觀地感受到Monkey強大的問答能力,能夠準確地把握住問題并給出正確的回答,尤其是在密集文本問答任務上,目前的大模型或多或少都面臨著一定的問題,Monkey為解決這一難題提供了一條可行的出路。

ee01832e-91f5-11ee-939d-92fbcf53809c.png

總結

Monkey提出了一種訓練高效的方法,無需預訓練即可有效地提高模型的輸入分辨率,最高可達896 x 1344像素。為了彌補簡單文本標簽和高分辨率輸入之間的差距,Monkey提出了一種多級特征融合的詳細描述生成方法,它可以自動提供豐富的信息,以引導模型學習圖像中各個物體的屬性及其聯(lián)系。通過這兩種設計的協(xié)同作用,Monkey練就了一雙火眼金睛,在多個基準測試中取得了出色的結果。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 高分辨率
    +關注

    關注

    0

    文章

    59

    瀏覽量

    15710
  • 圖像
    +關注

    關注

    2

    文章

    1096

    瀏覽量

    42244
  • 大模型
    +關注

    關注

    2

    文章

    3579

    瀏覽量

    5077

原文標題:低成本擴大輸入分辨率!華科大提出Monkey:新的多模態(tài)大模型

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    淺談掃描電鏡的分辨率概念

    掃描電鏡(SEM)的分辨率是指其能夠分辨樣品表面兩點之間的最小距離,是衡量其成像能力的關鍵指標。
    的頭像 發(fā)表于 01-14 16:55 ?993次閱讀
    淺談掃描電鏡的<b class='flag-5'>分辨率</b>概念

    紅外焦平面探測器的分辨率有哪些?高分辨率有哪些優(yōu)勢?

    分辨率是我們選購紅外探測器時的一個關鍵參數(shù),它代表了熱成像像素點的數(shù)量。分辨率越高,像素點就越多,圖像就越清晰,觀測的距離也越遠。紅外熱成像常見的分辨率有120x90、256x192、384x288
    的頭像 發(fā)表于 12-10 16:12 ?938次閱讀
    紅外焦平面探測器的<b class='flag-5'>分辨率</b>有哪些?高<b class='flag-5'>分辨率</b>有哪些優(yōu)勢?

    ADC分辨率與精度的區(qū)別是什么

    簡單點說,“精度”是用來描述物理量的準確程度的,而“分辨率”是 用來描述刻度劃分的。從定義上看,這兩個量應該是風馬牛不相及的。(是不是有朋友感到愕然^_^)。 很多賣傳感器的JS就是利用這一點
    發(fā)表于 12-05 06:24

    鏡頭分辨率如何匹配工業(yè)相機的分辨率

    能被分辨開來的兩個物點之間的最小距離,就是鏡頭的物方分辨率。單位為μm。這只是單純鏡頭本身的參數(shù),只反映鏡頭的解析能力,而和工業(yè)相機多少像素無關!它直接反映了,一個理想物點經(jīng)過鏡頭成像后,會模糊
    的頭像 發(fā)表于 11-21 15:43 ?299次閱讀
    鏡頭<b class='flag-5'>分辨率</b>如何匹配工業(yè)相機的<b class='flag-5'>分辨率</b>

    提高電能質(zhì)量在線監(jiān)測裝置的暫態(tài)記錄分辨率的方法有哪些?

    ? 提高電能質(zhì)量在線監(jiān)測裝置暫態(tài)記錄分辨率,核心是從 硬件升級、算法優(yōu)化、數(shù)據(jù)處理、校準同步 四個維度突破,同時平衡 “分辨率提升” 與 “成本、功耗、穩(wěn)定性”,具體方法可落地為以下 6 類關鍵措施
    的頭像 發(fā)表于 11-14 16:12 ?2019次閱讀

    電能質(zhì)量在線監(jiān)測裝置的暫態(tài)記錄分辨率如何影響故障類型識別?

    暫態(tài)記錄分辨率是故障類型識別的 “細節(jié)放大鏡”—— 核心通過 采樣、幅值分辨率、時間分辨率 決定故障波形 “特征細節(jié)的完整性”,高分辨率
    的頭像 發(fā)表于 11-14 16:10 ?1813次閱讀
    電能質(zhì)量在線監(jiān)測裝置的暫態(tài)記錄<b class='flag-5'>分辨率</b>如何影響故障類型識別?

    亞馬遜云科技上線Amazon Nova模態(tài)嵌入模型

    Embeddings模態(tài)嵌入模型現(xiàn)已在Amazon Bedrock上線,這是一款專為Agentic RAG與語義搜索應用打造的頂尖模態(tài)
    的頭像 發(fā)表于 10-29 17:15 ?195次閱讀
    亞馬遜云科技上線Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嵌入<b class='flag-5'>模型</b>

    分辨率對于模擬到數(shù)字轉換器有什么重要性

    )。輸入帶寬:高分辨率ADC需配合寬輸入帶寬,以避免高頻信號在采樣前失真。例如,12位ADC若需處理100MHz信號,其輸入帶寬需遠高于100MHz。功耗與
    發(fā)表于 09-18 09:31

    米爾RK3576部署端側模態(tài)輪對話,6TOPS算力驅動30億參數(shù)LLM

    與特征提取讀取輸入圖片后,先將其擴展為正方形并填充背景色以統(tǒng)一尺寸,再調(diào)整至模型要求的 392x392 分辨率,最后送入視覺編碼模型進行處理,生成圖片的 embedding 向量,完成
    發(fā)表于 09-05 17:25

    迅為RK3588開發(fā)板Android系統(tǒng)修改屏幕分辨率和density

    先來了解下屏幕相關的基本概念 修改屏幕分辨率和 density 有倆種方法。 方法一: 輸入以下命令查看分辨率的大小,如下圖所示: wm size 輸入以下命令修改屏幕
    發(fā)表于 08-12 16:53

    分辨率 vs 噪聲 —— ADC的挑戰(zhàn)

    設計者常用高分辨率 ADC 以降低最低可量測單位(LSB),提高檢測精度。 比如一個 16 位 ADC 在 5V 范圍內(nèi), LSB ≈ 76 μV ;理想情況下可以檢測到微弱電信號。 問題是: 若
    的頭像 發(fā)表于 06-23 07:38 ?1698次閱讀
    <b class='flag-5'>分辨率</b> vs 噪聲 —— ADC的挑戰(zhàn)

    如何計算存儲示波器的垂直分辨率?

    存儲示波器的垂直分辨率是指示波器能夠分辨的最小電壓變化量,它反映了示波器對信號幅度細節(jié)的測量能力,通常用位數(shù)(bit)來表示,也可通過相關公式換算為具體的電壓值。以下為你詳細介紹其計算方法:了解關鍵
    發(fā)表于 05-30 14:03

    是否可以在16位或32位圖像上推斷單映像-超級分辨率1032的模型?

    無法確定是 單圖像超級分辨率 - 1032 模型可以推斷為 16 位還是 32 位圖像
    發(fā)表于 03-06 07:16

    ??低暟l(fā)布模態(tài)模型文搜存儲系列產(chǎn)品

    模態(tài)模型為安防行業(yè)帶來重大技術革新,基于觀瀾大模型技術體系,??低晫⒋髤?shù)量、大樣本量的圖文模態(tài)
    的頭像 發(fā)表于 02-18 10:33 ?1160次閱讀

    如何在輸入電壓范圍確定的情況下最大的使用AD的分辨率?

    我看ADC手冊上一般要求的參考電壓都是固定的,就拿ADS1242來說,我的輸入電壓的范圍在0~50mV,我使用內(nèi)部的PGA=32,這樣我如果使用2.5V的參考電壓,所有分辨率不能得到有效的利用,我
    發(fā)表于 02-12 07:10