chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

低成本擴(kuò)大輸入分辨率!華科大提出Monkey:新的多模態(tài)大模型

CVer ? 來源:CVer ? 2023-12-04 15:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

低成本擴(kuò)大輸入分辨率:探秘98億參數(shù)多模態(tài)大模型--Monkey眼中的世界

【導(dǎo)讀】11月,華中科技大學(xué)團(tuán)隊發(fā)布了新的多模態(tài)大模型——Monkey,通過專注于大分辨率,使得Monkey能夠處理分辨率高達(dá)1344×896的圖像,并加入了有著詳細(xì)描述的高質(zhì)量圖文數(shù)據(jù)進(jìn)行訓(xùn)練,幫助Monkey煉就洞察圖像細(xì)節(jié)的火眼金睛,取得了與Caption和QA任務(wù)相關(guān)的16個數(shù)據(jù)集的SOTA,甚至與GPT4V相比,在密集文本問答任務(wù)上也有著亮眼的表現(xiàn)。

論文鏈接:https://arxiv.org/abs/2311.06607

代碼地址:https://github.com/Yuliang-Liu/Monkey

官方demo效果展示:

Monkey在密集文本的問答任務(wù)上取得了很不錯的效果,可以根據(jù)問題的要求進(jìn)行推理,能夠適配中文問答

ed9b49ec-91f5-11ee-939d-92fbcf53809c.gif

在文本較少的場景中Monkey也展現(xiàn)了不俗的問答能力,自身擁有豐富的知識庫,可以根據(jù)問題進(jìn)行外推,從而回答出正確的答案

edba5922-91f5-11ee-939d-92fbcf53809c.gif

Monkey在Caption任務(wù)上同樣取得了出色的結(jié)果,不僅僅是對圖片進(jìn)行準(zhǔn)確詳細(xì)的描述,同時能夠合理發(fā)散,分析出圖片所傳達(dá)的一些抽象含義

以下是Monkey同GPT4V在密集文本與圖表上進(jìn)行問答的可視化結(jié)果展示。

edc275e4-91f5-11ee-939d-92fbcf53809c.png

下圖展示了Monkey的卓越性能,在 18 個不同的數(shù)據(jù)集上進(jìn)行測試的結(jié)果表明,Monkey能夠很好地勝任圖像描述生成、場景問答、以場景文本為中心的視覺問答和面向文檔的視覺問答等任務(wù),并在16個數(shù)據(jù)集上取得SOTA。

edc7e358-91f5-11ee-939d-92fbcf53809c.png

方法介紹:

1. 增大輸入分辨率

將原始輸入圖片裁剪成多個圖片塊,再將這些圖片塊和原始輸入圖片統(tǒng)一到448*448的尺寸。每個圖片塊經(jīng)過視覺編碼時會加入一個專屬的Lora以此更好地提取圖片塊的局部視覺特征,訓(xùn)練時僅訓(xùn)練Lora部分,而原始的輸入圖像則用于提取全局特征,以此方法達(dá)到增大輸入分辨率的目的。

eddb3a70-91f5-11ee-939d-92fbcf53809c.png

2. 多級特征融合的詳細(xì)描述生成方法生成高質(zhì)量圖文數(shù)據(jù)

主要分為五個步驟:第一步,使用BLIP2對整張圖生成全局描述;第二步用 GRIT生成區(qū)域框,并提供區(qū)域中對象的名稱和詳細(xì)描述,同時使用PPOCR提取區(qū)域的文本框坐標(biāo)和文本內(nèi)容;第三步使用SAM進(jìn)行分割,并送入BLIP2生成對各個物體及其組成部分的詳細(xì)描述;第四步使用BLIP-2 評估過濾掉低分匹配;最后使用ChatGPT 對上述得到的描述進(jìn)行總結(jié)從而得到圖像的詳細(xì)描述。

eddf41ec-91f5-11ee-939d-92fbcf53809c.png

下圖為使用使用多級特征融合的詳細(xì)描述生成方法后得到的標(biāo)注與原始CC3M標(biāo)注的對比,不難看出,兩種標(biāo)注之間存在著較大的差距,生成的詳細(xì)標(biāo)注盡可能地包含了圖片中的各種細(xì)節(jié),而不像是CC3M地原始標(biāo)注那樣一句帶過。利用這樣高質(zhì)量的圖文數(shù)據(jù)進(jìn)行訓(xùn)練,使得Monkey能夠更好地把握圖文之間的關(guān)系。

edf95c12-91f5-11ee-939d-92fbcf53809c.png

更多的可視化對比結(jié)果與展示:

通過下圖展示的Monkey在QA任務(wù)上與多種大模型的對比結(jié)果,從中我們能夠更加直觀地感受到Monkey強(qiáng)大的問答能力,能夠準(zhǔn)確地把握住問題并給出正確的回答,尤其是在密集文本問答任務(wù)上,目前的大模型或多或少都面臨著一定的問題,Monkey為解決這一難題提供了一條可行的出路。

ee01832e-91f5-11ee-939d-92fbcf53809c.png

總結(jié)

Monkey提出了一種訓(xùn)練高效的方法,無需預(yù)訓(xùn)練即可有效地提高模型的輸入分辨率,最高可達(dá)896 x 1344像素。為了彌補(bǔ)簡單文本標(biāo)簽和高分辨率輸入之間的差距,Monkey提出了一種多級特征融合的詳細(xì)描述生成方法,它可以自動提供豐富的信息,以引導(dǎo)模型學(xué)習(xí)圖像中各個物體的屬性及其聯(lián)系。通過這兩種設(shè)計的協(xié)同作用,Monkey練就了一雙火眼金睛,在多個基準(zhǔn)測試中取得了出色的結(jié)果。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 高分辨率
    +關(guān)注

    關(guān)注

    0

    文章

    53

    瀏覽量

    15641
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    42009
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3351

    瀏覽量

    4721

原文標(biāo)題:低成本擴(kuò)大輸入分辨率!華科大提出Monkey:新的多模態(tài)大模型

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    分辨率對于模擬到數(shù)字轉(zhuǎn)換器有什么重要性

    )。輸入帶寬:高分辨率ADC需配合寬輸入帶寬,以避免高頻信號在采樣前失真。例如,12位ADC若需處理100MHz信號,其輸入帶寬需遠(yuǎn)高于100MHz。功耗與
    發(fā)表于 09-18 09:31

    米爾RK3576部署端側(cè)模態(tài)輪對話,6TOPS算力驅(qū)動30億參數(shù)LLM

    與特征提取讀取輸入圖片后,先將其擴(kuò)展為正方形并填充背景色以統(tǒng)一尺寸,再調(diào)整至模型要求的 392x392 分辨率,最后送入視覺編碼模型進(jìn)行處理,生成圖片的 embedding 向量,完成
    發(fā)表于 09-05 17:25

    分辨率 vs 噪聲 —— ADC的挑戰(zhàn)

    設(shè)計者常用高分辨率 ADC 以降低最低可量測單位(LSB),提高檢測精度。 比如一個 16 位 ADC 在 5V 范圍內(nèi), LSB ≈ 76 μV ;理想情況下可以檢測到微弱電信號。 問題是: 若
    的頭像 發(fā)表于 06-23 07:38 ?1284次閱讀
    <b class='flag-5'>分辨率</b> vs 噪聲 —— ADC的挑戰(zhàn)

    如何計算存儲示波器的垂直分辨率?

    存儲示波器的垂直分辨率是指示波器能夠分辨的最小電壓變化量,它反映了示波器對信號幅度細(xì)節(jié)的測量能力,通常用位數(shù)(bit)來表示,也可通過相關(guān)公式換算為具體的電壓值。以下為你詳細(xì)介紹其計算方法:了解關(guān)鍵
    發(fā)表于 05-30 14:03

    是否可以在16位或32位圖像上推斷單映像-超級分辨率1032的模型?

    無法確定是 單圖像超級分辨率 - 1032 模型可以推斷為 16 位還是 32 位圖像
    發(fā)表于 03-06 07:16

    請問SAR ADC有效分辨率與采樣有關(guān)嗎?

    是不是所有的ADC都是采樣越高、分辨率越差(跳動位數(shù)越多)? 我的實(shí)驗: ADS8556是16位SAR ADC,最高采樣500KhZ。使用20k采樣
    發(fā)表于 01-15 07:57

    TVP7002 VGA輸入分辨率支持1280 x 1536嗎?

    TVP7002 VGA 輸入分辨率支持1280 x 1536嗎? TVP7002 VGA 輸入能自動偵察VGA信號所使用的分辨率嗎?如可以則讀哪些寄存器,有例子嗎?
    發(fā)表于 01-14 07:27

    如何提高透鏡成像的分辨率

    透鏡成像分辨率是指透鏡系統(tǒng)能夠分辨的最小細(xì)節(jié)的能力。提高透鏡成像分辨率對于許多應(yīng)用領(lǐng)域,如顯微鏡、望遠(yuǎn)鏡、相機(jī)等,都是至關(guān)重要的。以下是一些提高透鏡成像分辨率的方法: 1. 減少像差
    的頭像 發(fā)表于 12-25 16:54 ?1477次閱讀

    如何選擇掃描電鏡的分辨率

    選擇掃描電鏡的分辨率需要綜合考慮多個因素。首先是研究目的。如果只是需要對樣品的大致形貌進(jìn)行觀察,例如查看較大顆粒的分布或者材料表面的宏觀缺陷,較低分辨率(如3-10nm)可能就足夠了。但如果要觀察
    的頭像 發(fā)表于 12-25 14:29 ?1005次閱讀
    如何選擇掃描電鏡的<b class='flag-5'>分辨率</b>?

    商湯日日新模態(tài)模型權(quán)威評測第一

    剛剛,商湯科技日日新SenseNova模態(tài)模型,在權(quán)威綜合評測權(quán)威平臺OpenCompass的模態(tài)評測中取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?1370次閱讀

    請問ISO7720的時間分辨率有多少?

    ),HRPWM的時間分辨率是0.18ns,理論上HRPWM的精度為0.0095%。 2)HRPWM輸出通過RC濾波接到ISO7720的輸入,R=10Ω,C=22pF。 3)ISO7720輸出接功率芯片的驅(qū)動
    發(fā)表于 11-29 08:25

    HDMI接口支持哪些視頻分辨率

    HDMI(High-Definition Multimedia Interface)接口支持的視頻分辨率因版本不同而有所差異。以下是HDMI接口不同版本所支持的視頻分辨率的概述: HDMI 1.4
    的頭像 發(fā)表于 11-27 14:14 ?1.9w次閱讀

    視頻處理器的分辨率是如何管理的

    ? ? 隨著電子應(yīng)用技術(shù)和消費(fèi)市場的不斷發(fā)展,LED顯示屏的顯示單元之間的間距正在逐漸縮小,然而,顯示屏的整體面積卻在不斷擴(kuò)大。為了滿足這一趨勢下對超大輸分辨率的需求,視頻處理器和拼接器變得
    的頭像 發(fā)表于 11-11 15:25 ?930次閱讀
    視頻處理器的<b class='flag-5'>分辨率</b>是如何管理的

    提高SAR ADC的分辨率

    電子發(fā)燒友網(wǎng)站提供《提高SAR ADC的分辨率.pdf》資料免費(fèi)下載
    發(fā)表于 10-25 09:11 ?0次下載
    提高SAR ADC的<b class='flag-5'>分辨率</b>

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡單來說,
    的頭像 發(fā)表于 10-18 09:39 ?2159次閱讀