中科大&字節(jié)提出UniDoc：統(tǒng)一的面向文字場景的多模態(tài)大模型

這篇文章是由中科大和字節(jié)跳動合作，在2023年8月23日上傳到arXiv上的文章。這篇文章提出UniDoc，一個統(tǒng)一的多模態(tài)大模型（LMM）。UniDoc主要聚焦于包含文字的圖像的多模態(tài)理解任務。相比于以往的多模態(tài)大模型，UniDoc具備它們所不具備的文字檢測、識別、spotting(端到端OCR)的能力。此外，文章中實驗表明，這些能力的學習能夠彼此促進。

方法框架

如上圖所示，UniDoc基于預訓練的視覺大模型及大語言模型，將文字的檢測、識別、spotting(圖中未畫出)、多模態(tài)理解等四個任務，通過多模態(tài)指令微調(diào)的方式，統(tǒng)一到一個框架中。具體地，輸入一張圖像以及一條指令（可以是檢測、識別、spotting、語義理解），UniDoc提取圖像中的視覺信息和文字信息，結(jié)合自然語言指令以及大語言模型的世界知識，做出相應回答。

訓練數(shù)據(jù)采集

作者團隊收集了大量的PPT圖像，并提取其中文字實例和對應的bbox。在此基礎(chǔ)上構(gòu)建多任務的指令微調(diào)數(shù)據(jù)集。文章認為，PPT圖片中文字具有各種各樣的大小、字體、顏色、風格等，且PPT中視覺元素豐富多樣，適合用于構(gòu)建涉及文字圖像的多模態(tài)任務的訓練。以spotting任務為例，其指令如下圖所示。其中的 term 表示”imgae“，”photo“等隨機名詞，以增加指令多樣性。

實驗結(jié)果

多模態(tài)理解

從上述六個例子可以看到，UniDoc不僅可以有效提取圖像中的視覺信息、文字信息，更可以結(jié)合其豐富的世界知識進行合理地回答。

對于無文字的圖像，UniDoc同樣可以準確地進行問答。

在多個多模態(tài)問答基準數(shù)據(jù)集上，UniDoc實現(xiàn)了優(yōu)越的性能。

文字檢測、識別、spotting

上圖中，第一行的四個case來自于WordArt數(shù)據(jù)集，第二行的四個case來自于TotalText數(shù)據(jù)集?？梢钥吹?，雖然這些行級別的文字圖像呈現(xiàn)不同的字體以及不規(guī)則的文字分布，UniDoc仍然能夠進行準確地識別。

上圖中六個case中，文字存在部分的缺失，UniDoc仍然能夠進行準確地識別。

上圖中四個case展示了UniDoc在TotalText數(shù)據(jù)集上的檢測效果。

在多個文字識別基準數(shù)據(jù)集上，UniDoc實現(xiàn)了優(yōu)越的性能。

消融實驗

有趣的消融實驗：對于同一張輸入圖像，spotting指令（右）規(guī)避了識別指令（左）的識別遺漏現(xiàn)象。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
570

瀏覽量
11288
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1235

瀏覽量
26114
大模型

大模型

+關(guān)注

關(guān)注
2

文章
3578

瀏覽量
5077

原文標題：中科大&字節(jié)提出UniDoc：統(tǒng)一的面向文字場景的多模態(tài)大模型

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

CVer
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關(guān)注個人主頁

Hot DDFM：首個使用擴散模型進行多模態(tài)圖像融合的方法
Hot DepGraph：任意架構(gòu)的結(jié)構(gòu)化剪枝，CNN、Transformer、GNN等都適用！

New SegVG視覺定位方法的各個組件
New 詳解E2E-MFD多模態(tài)融合檢測端到端算法

精選推薦
更多

文章

資料

帖子

SDV域控器日志追蹤與解析技術(shù) – DLT

北匯信息POLELINK
2小時前

91 閱讀

凈利潤大漲50%-76%！全志科技2025年業(yè)績看好，四大賽道齊發(fā)力

章鷹觀察
1小時前

289 閱讀

是德科技高頻高速PCB板全流程測試解決方案

是德科技KEYSIGHT
1小時前

196 閱讀

RA MCU眾測寶典 | ADC/DAC之【RA2L1】DAC電壓輸出及ADC電壓采集實驗

RA生態(tài)工作室
17小時前

237 閱讀

瑞薩RA系列FSP庫開發(fā)實戰(zhàn)指南之I2C通訊協(xié)議的物理層和協(xié)議層簡介

瑞薩嵌入式小百科
2小時前

246 閱讀

多層板工程設計及RFQ培訓講義

tobehonest
2.43 MB

免費

0下載

PWM驅(qū)動電路的設計（原理分析+控制方法+案例分享）

ah此生不換
3.13 MB

免費

0下載

Go語言圣經(jīng)(中文版)

ah此生不換
0.02 MB

免費

0下載

Browser-rb無界面Ruby瀏覽器

張旭
0.09 MB

免費

0下載

YiIM Android即時通訊

張英
4.54 MB

免費

0下載

STM32開發(fā)中的五大嵌入式系統(tǒng)

cdhqyj
12小時前

45 閱讀

【「芯片設計基石——EDA產(chǎn)業(yè)全景與未來展望」閱讀體驗】--中國EDA的發(fā)展

1653149838.791300
1天前

85 閱讀

【「芯片設計基石——EDA產(chǎn)業(yè)全景與未來展望」閱讀體驗】+ 全書概覽

jf_84491108
1天前

77 閱讀

【瑞薩RA × Zephyr開發(fā)板評測】+動態(tài)調(diào)節(jié)PWM占空比測試

安安踢球球
1天前

96 閱讀

用CW32來實現(xiàn)2.4G無線傳輸

fysydfdsfw
1天前

165 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

中科大&字節(jié)提出UniDoc：統(tǒng)一的面向文字場景的多模態(tài)大模型

評論