日韩在线亚洲第一专区,又大又粗又长又猛A片by

摘要

開放域問答在現(xiàn)實(shí)生活中有著廣泛的應(yīng)用，例如搜索引擎、企業(yè)問答、醫(yī)療問答等等。然而，現(xiàn)有開放域問答系統(tǒng)通常需要消耗大量成本針對(duì)不同格式的異構(gòu)文檔（如PDF、網(wǎng)頁(yè)、掃描文檔等）設(shè)計(jì)特定的內(nèi)容抽取算法，預(yù)先從文檔中抽取文本內(nèi)容作為系統(tǒng)的信息來源。這不僅限制了現(xiàn)有系統(tǒng)的可擴(kuò)展能力，還損失了文檔中的布局和視覺信息。為此，本文提出了一個(gè)全新的開放域文檔視覺問答任務(wù)，直接以異構(gòu)文檔圖像集合為信息來源回答用戶提問，并提出了中文開放域文檔視覺問答數(shù)據(jù)集DuReadervis。DuReadervis共包含158K文檔圖像和15K對(duì)問答對(duì)，主要挑戰(zhàn)包括：1）長(zhǎng)文檔理解；2）噪聲干擾；和3）多片段答案抽取。

1. 背景

現(xiàn)有開放域問答系統(tǒng)主要以文本集合作為信息來源回答用戶提問，如圖1所示，現(xiàn)有系統(tǒng)通常需要花費(fèi)大量成本根據(jù)不同的文檔格式設(shè)計(jì)特定的內(nèi)容抽取算法，預(yù)先從異構(gòu)文檔中抽取文本內(nèi)容。這無疑限制了開放域問答系統(tǒng)的可擴(kuò)展（scalable）能力。一個(gè)可擴(kuò)展的問答系統(tǒng)應(yīng)能同時(shí)處理各種格式文檔，還可以輕松地遷移到尚未見過的文檔格式中。此外，現(xiàn)有系統(tǒng)由于只抽取了文本內(nèi)容，因此會(huì)損失原始文檔中極有價(jià)值的布局特征（如字體大小、列表格式或表格格式等）和視覺特征（如文本顏色、圖像等）。

圖1 開放域問答系統(tǒng)通用流程，需要根據(jù)文檔格式和來源設(shè)計(jì)不同的內(nèi)容抽取器抽取文本內(nèi)容

2. 開放域文檔視覺問答

為了提升開放域問答系統(tǒng)的可擴(kuò)展能力，同時(shí)充分利用異構(gòu)文檔中的布局和視覺信息，本文提出了一個(gè)全新的問答任務(wù)，即開放域文檔視覺問答（Open-domain Document Visual Question Answering，Open-domain DocVQA）。該任務(wù)從視覺角度描述異構(gòu)文檔，直接以從異構(gòu)文檔轉(zhuǎn)換得到的文檔圖像集合為信息來源來回答用戶提問。如圖2所示，該任務(wù)通過通用抽取器（如OCR）抽取文檔圖像中的文本內(nèi)容和布局結(jié)構(gòu)，然后將這些信息連同文檔圖像的視覺特征應(yīng)用于后續(xù)流程中。

圖2 開放域文檔視覺問答通用流程，將不同格式文檔視為文檔圖像，只需類似于OCR的通用抽取器抽取其中的文本內(nèi)容和布局特征

與開放域問答類似，該任務(wù)也包含兩個(gè)階段：

文檔視覺檢索（Document Visual Retrieval，DocVRE）：從原始的文檔圖像集合中檢索和問題相關(guān)的小規(guī)模候選文檔圖像集合

文檔視覺問答（Document Visual Question Answering，DocVQA）：根據(jù)檢索結(jié)果抽取單個(gè)或多個(gè)文本片段作為問題答案

3. DuReadervis

為了推動(dòng)開放域文檔視覺問答的發(fā)展，本文從百度搜索日志中收集用戶向搜索引擎提出的真實(shí)問題和相關(guān)網(wǎng)頁(yè)并進(jìn)行了問答對(duì)的標(biāo)注，提出中文開放域文檔視覺問答數(shù)據(jù)集DuReadervis。相比于現(xiàn)有的文檔視覺問答數(shù)據(jù)集，DuReadervis的問題面向真實(shí)用戶提問，可以滿足開放域的信息搜索需求。此外，DuReadervis中的文檔圖像均來自于互聯(lián)網(wǎng)網(wǎng)頁(yè)，包含豐富的文本內(nèi)容和視覺特征以及復(fù)雜多樣的布局結(jié)構(gòu)，而且DuReadervis需要抽取格式復(fù)雜的長(zhǎng)答案，如多片段文本型答案、列表型答案和表格型答案。表1對(duì)比了DuReadervis和現(xiàn)有文檔視覺問答數(shù)據(jù)集。

表1 DuReadervis與其他文檔視覺問答數(shù)據(jù)集的對(duì)比

3.1 數(shù)據(jù)集統(tǒng)計(jì)分析

DuReadervis共包含158K文檔圖像和15K問答對(duì)，其中訓(xùn)練集包括11K問答對(duì)；開發(fā)集包括1.5K問答對(duì)；測(cè)試集包括2.5K問答對(duì)。

文檔圖像

DuReadervis中的文本內(nèi)容的平均長(zhǎng)度和文檔圖像的平均大小要遠(yuǎn)超于其他數(shù)據(jù)集，表明DuReadervis中的文檔圖像包含更豐富的文本內(nèi)容和視覺特征。此外，DuReadervis中的文檔圖像來自于17000多個(gè)隨機(jī)網(wǎng)站，文檔主題和布局結(jié)構(gòu)多樣性高。另一方面，通常情況下網(wǎng)頁(yè)中會(huì)包含大量的噪聲信息，會(huì)對(duì)模型理解文檔產(chǎn)生干擾。

問題和答案

現(xiàn)有文檔視覺問答數(shù)據(jù)集中的問題主要為事實(shí)類問題。而在DuReadervis中，問題類型同時(shí)包含事實(shí)類和非事實(shí)類問題。本文隨機(jī)篩選了200條問題人工進(jìn)行分類，發(fā)現(xiàn)43%的問題是非事實(shí)類問題。DuReadervis中的答案平均長(zhǎng)度也要遠(yuǎn)長(zhǎng)于其他數(shù)據(jù)集中的答案平均長(zhǎng)度。此外，DuReadervis的答案格式復(fù)雜，包含約40%的文本型答案、25%的列表型答案和35%的表格型答案。在列表型和表格型答案中，很多答案都是不連續(xù)的，需要抽取多片段答案。

表2 數(shù)據(jù)集統(tǒng)計(jì)特征

3.2 數(shù)據(jù)集挑戰(zhàn)

總體而言，DuReadervis的主要挑戰(zhàn)包括以下三點(diǎn)：

長(zhǎng)文檔理解：DuReadervis中的文檔圖像均轉(zhuǎn)換自互聯(lián)網(wǎng)頁(yè)面，包含更長(zhǎng)的文本內(nèi)容、更豐富的視覺特征和復(fù)雜的布局結(jié)構(gòu)；

噪聲干擾：來自于網(wǎng)頁(yè)的文檔圖像中會(huì)包含大量噪聲信息，例如廣告、相關(guān)推薦等，增大了文檔圖像的理解難度；

多片段答案抽?。篋uReadervis中的答案格式更加復(fù)雜，包含文本、列表和表格型答案，需要模型抽取多片段長(zhǎng)答案。

3.3 數(shù)據(jù)集樣例

傳統(tǒng)的開放域問答系統(tǒng)可以通過設(shè)計(jì)特殊的內(nèi)容抽取算法可以很好地去除表格外的噪聲干擾，但提取的文本內(nèi)容很難保留表格的布局結(jié)構(gòu)，系統(tǒng)很難得知不同單元格文本內(nèi)容間的語(yǔ)義關(guān)聯(lián)。相比之下，開放域文檔視覺問答系統(tǒng)則可以通過表格的布局特征更輕松地建模單元格文本內(nèi)容間的語(yǔ)義關(guān)聯(lián)，通過“站點(diǎn)”這一列標(biāo)題找到問題的答案。

4. 基線方法

本文為DuReadervis提出了一個(gè)基線方法。該方法包括三部分：

基于PaddleOCR的通用內(nèi)容抽?。豪肞addleOCR技術(shù)從文檔圖像中抽取文本內(nèi)容和布局結(jié)構(gòu)作為系統(tǒng)輸入；

基于BM25的文檔視覺檢索：根據(jù)抽取出的文本內(nèi)容構(gòu)建檢索庫(kù)，再利用BM25算法檢索相關(guān)文檔圖像；

基于層次化LayoutXLM的文檔視覺問答：為了從候選文檔圖像中抽取問題答案，本文提出了層次化LayoutXLM模型。如圖4所示，該模型利用層次化建模的方式建模DuReadervis中的長(zhǎng)文本內(nèi)容，并通過基于CRF的序列標(biāo)注算法抽取多片段答案。其中，LayoutXLM［4］是以文本、布局和視覺特征為輸入的面向多語(yǔ)言跨模態(tài)文檔的預(yù)訓(xùn)練模型。

圖4 層次化LayoutXLM模型架構(gòu)

5. 實(shí)驗(yàn)

5.1 實(shí)驗(yàn)設(shè)置

為了驗(yàn)證所提方法的有效性，本文在文檔視覺問答和開放域文檔視覺問答任務(wù)上進(jìn)行了實(shí)驗(yàn)，將層次化LayoutXLM與基于純文本預(yù)訓(xùn)練模型的層次化RobertaXLM［5］以及層次化BERT［6］進(jìn)行對(duì)比。其中，在開放域文檔視覺問答實(shí)驗(yàn)中，本文使用BM25算法檢索回與問題最相關(guān)的文檔圖像進(jìn)行答案抽取。兩個(gè)任務(wù)的評(píng)價(jià)指標(biāo)均為F1和Rouge-L。

5.2 實(shí)驗(yàn)結(jié)果

如表3和表4所示，相比于基于純文本預(yù)訓(xùn)練模型的方法，層次化LayoutXLM的性能有明顯提高，然而其整體性能仍與人類表現(xiàn)有一定差距。這表明，一方面布局結(jié)構(gòu)和視覺特征有助于模型理解文檔圖像，另一方面無論是文檔視覺問答亦或是開放域文檔視覺問答均有著較大的提升空間。

6. 結(jié)論

本文為了提高開放域問答系統(tǒng)的可擴(kuò)展能力，使其可以用較低的成本以不同格式的異構(gòu)文檔作為其信息來源，提出了一個(gè)全新的開放域文檔視覺問答任務(wù)，直接以從異構(gòu)文檔轉(zhuǎn)換得到的文檔圖像集合來回答用戶提問。為了推動(dòng)該任務(wù)的發(fā)展，本文提出了中文開放域文檔視覺問答數(shù)據(jù)集DuReadervis，包含158K文檔圖像和15K問答對(duì)。DuReadervis包含三個(gè)挑戰(zhàn)：1）長(zhǎng)文檔理解；2）噪聲干擾；3）多片段答案抽取。同時(shí)，本文提出了一個(gè)基線系統(tǒng)并進(jìn)行了實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明現(xiàn)有基線系統(tǒng)和人類表現(xiàn)仍有一定差距，開放域文檔視覺問答任務(wù)仍有較大的提升空間。除研究目的外，開放域文檔視覺問答的相關(guān)技術(shù)已初步應(yīng)用于諸如汽車、電子、銀行等行業(yè)的問答系統(tǒng)中，并在飛槳AI Studio上開放。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

汽車電子

汽車電子

+關(guān)注

關(guān)注
3045

文章
8948

瀏覽量
172792
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1236

瀏覽量
26187

原文標(biāo)題：ACL2022 | 面向中文真實(shí)搜索場(chǎng)景的開放域文檔視覺問答數(shù)據(jù)集

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

面向中文搜索的開放域文檔視覺問答任務(wù)解決方案

評(píng)論