這篇文章是由中科大和字節(jié)跳動(dòng)合作,在2023年8月23日上傳到arXiv上的文章。這篇文章提出UniDoc,一個(gè)統(tǒng)一的多模態(tài)大模型(LMM)。UniDoc主要聚焦于包含文字的圖像的多模態(tài)理解任務(wù)。相比于以往的多模態(tài)大模型,UniDoc具備它們所不具備的文字檢測、識別、spotting(端到端OCR)的能力。此外,文章中實(shí)驗(yàn)表明,這些能力的學(xué)習(xí)能夠彼此促進(jìn)。
方法框架

如上圖所示,UniDoc基于預(yù)訓(xùn)練的視覺大模型及大語言模型,將文字的檢測、識別、spotting(圖中未畫出)、多模態(tài)理解等四個(gè)任務(wù),通過多模態(tài)指令微調(diào)的方式,統(tǒng)一到一個(gè)框架中。具體地,輸入一張圖像以及一條指令(可以是檢測、識別、spotting、語義理解),UniDoc提取圖像中的視覺信息和文字信息,結(jié)合自然語言指令以及大語言模型的世界知識,做出相應(yīng)回答。
訓(xùn)練數(shù)據(jù)采集

作者團(tuán)隊(duì)收集了大量的PPT圖像,并提取其中文字實(shí)例和對應(yīng)的bbox。在此基礎(chǔ)上構(gòu)建多任務(wù)的指令微調(diào)數(shù)據(jù)集。文章認(rèn)為,PPT圖片中文字具有各種各樣的大小、字體、顏色、風(fēng)格等,且PPT中視覺元素豐富多樣,適合用于構(gòu)建涉及文字圖像的多模態(tài)任務(wù)的訓(xùn)練。以spotting任務(wù)為例,其指令如下圖所示。其中的 term 表示”imgae“,”photo“等隨機(jī)名詞,以增加指令多樣性。

實(shí)驗(yàn)結(jié)果
多模態(tài)理解


從上述六個(gè)例子可以看到,UniDoc不僅可以有效提取圖像中的視覺信息、文字信息,更可以結(jié)合其豐富的世界知識進(jìn)行合理地回答。

對于無文字的圖像,UniDoc同樣可以準(zhǔn)確地進(jìn)行問答。

在多個(gè)多模態(tài)問答基準(zhǔn)數(shù)據(jù)集上,UniDoc實(shí)現(xiàn)了優(yōu)越的性能。
文字檢測、識別、spotting

上圖中,第一行的四個(gè)case來自于WordArt數(shù)據(jù)集,第二行的四個(gè)case來自于TotalText數(shù)據(jù)集。可以看到,雖然這些行級別的文字圖像呈現(xiàn)不同的字體以及不規(guī)則的文字分布,UniDoc仍然能夠進(jìn)行準(zhǔn)確地識別。

上圖中六個(gè)case中,文字存在部分的缺失,UniDoc仍然能夠進(jìn)行準(zhǔn)確地識別。

上圖中四個(gè)case展示了UniDoc在TotalText數(shù)據(jù)集上的檢測效果。

在多個(gè)文字識別基準(zhǔn)數(shù)據(jù)集上,UniDoc實(shí)現(xiàn)了優(yōu)越的性能。
消融實(shí)驗(yàn)

有趣的消融實(shí)驗(yàn):對于同一張輸入圖像,spotting指令(右)規(guī)避了識別指令(左)的識別遺漏現(xiàn)象。
-
語言模型
+關(guān)注
關(guān)注
0文章
570瀏覽量
11246 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1229瀏覽量
26031 -
大模型
+關(guān)注
關(guān)注
2文章
3435瀏覽量
4958
原文標(biāo)題:中科大&字節(jié)提出UniDoc:統(tǒng)一的面向文字場景的多模態(tài)大模型
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
《日本經(jīng)濟(jì)新聞》報(bào)道:中科大為何能對中國AI領(lǐng)域產(chǎn)生很的影響?
在醫(yī)療AI領(lǐng)域砥礪前行的中科大學(xué)子
北大&華為提出:多模態(tài)基礎(chǔ)大模型的高效微調(diào)

中科大&字節(jié)提出UniDoc:統(tǒng)一的面向文字場景的多模態(tài)大模型
評論