嗯啊哦亚洲综合,国产一区二区三区浪潮

低成本擴大輸入分辨率：探秘98億參數(shù)多模態(tài)大模型--Monkey眼中的世界

【導讀】11月，華中科技大學團隊發(fā)布了新的多模態(tài)大模型——Monkey，通過專注于大分辨率，使得Monkey能夠處理分辨率高達1344×896的圖像，并加入了有著詳細描述的高質(zhì)量圖文數(shù)據(jù)進行訓練，幫助Monkey煉就洞察圖像細節(jié)的火眼金睛，取得了與Caption和QA任務相關的16個數(shù)據(jù)集的SOTA，甚至與GPT4V相比，在密集文本問答任務上也有著亮眼的表現(xiàn)。

論文鏈接：https://arxiv.org/abs/2311.06607

代碼地址：https://github.com/Yuliang-Liu/Monkey

官方demo效果展示：

Monkey在密集文本的問答任務上取得了很不錯的效果，可以根據(jù)問題的要求進行推理，能夠適配中文問答

在文本較少的場景中Monkey也展現(xiàn)了不俗的問答能力，自身擁有豐富的知識庫，可以根據(jù)問題進行外推，從而回答出正確的答案

Monkey在Caption任務上同樣取得了出色的結果，不僅僅是對圖片進行準確詳細的描述，同時能夠合理發(fā)散，分析出圖片所傳達的一些抽象含義

以下是Monkey同GPT4V在密集文本與圖表上進行問答的可視化結果展示。

下圖展示了Monkey的卓越性能，在 18 個不同的數(shù)據(jù)集上進行測試的結果表明，Monkey能夠很好地勝任圖像描述生成、場景問答、以場景文本為中心的視覺問答和面向文檔的視覺問答等任務，并在16個數(shù)據(jù)集上取得SOTA。

方法介紹:

1. 增大輸入分辨率

將原始輸入圖片裁剪成多個圖片塊，再將這些圖片塊和原始輸入圖片統(tǒng)一到448*448的尺寸。每個圖片塊經(jīng)過視覺編碼時會加入一個專屬的Lora以此更好地提取圖片塊的局部視覺特征，訓練時僅訓練Lora部分，而原始的輸入圖像則用于提取全局特征，以此方法達到增大輸入分辨率的目的。

2. 多級特征融合的詳細描述生成方法生成高質(zhì)量圖文數(shù)據(jù)

主要分為五個步驟：第一步，使用BLIP2對整張圖生成全局描述；第二步用 GRIT生成區(qū)域框，并提供區(qū)域中對象的名稱和詳細描述，同時使用PPOCR提取區(qū)域的文本框坐標和文本內(nèi)容；第三步使用SAM進行分割，并送入BLIP2生成對各個物體及其組成部分的詳細描述；第四步使用BLIP-2 評估過濾掉低分匹配；最后使用ChatGPT 對上述得到的描述進行總結從而得到圖像的詳細描述。

下圖為使用使用多級特征融合的詳細描述生成方法后得到的標注與原始CC3M標注的對比，不難看出，兩種標注之間存在著較大的差距，生成的詳細標注盡可能地包含了圖片中的各種細節(jié)，而不像是CC3M地原始標注那樣一句帶過。利用這樣高質(zhì)量的圖文數(shù)據(jù)進行訓練，使得Monkey能夠更好地把握圖文之間的關系。

更多的可視化對比結果與展示:

通過下圖展示的Monkey在QA任務上與多種大模型的對比結果，從中我們能夠更加直觀地感受到Monkey強大的問答能力，能夠準確地把握住問題并給出正確的回答，尤其是在密集文本問答任務上，目前的大模型或多或少都面臨著一定的問題，Monkey為解決這一難題提供了一條可行的出路。

總結

Monkey提出了一種訓練高效的方法，無需預訓練即可有效地提高模型的輸入分辨率，最高可達896 x 1344像素。為了彌補簡單文本標簽和高分辨率輸入之間的差距，Monkey提出了一種多級特征融合的詳細描述生成方法，它可以自動提供豐富的信息，以引導模型學習圖像中各個物體的屬性及其聯(lián)系。通過這兩種設計的協(xié)同作用，Monkey練就了一雙火眼金睛，在多個基準測試中取得了出色的結果。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴