chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

面向中文搜索的開放域文檔視覺問答任務(wù)解決方案

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來源:哈工大SCIR ? 作者:齊樂 ? 2022-07-08 11:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

摘要

開放域問答在現(xiàn)實(shí)生活中有著廣泛的應(yīng)用,例如搜索引擎、企業(yè)問答、醫(yī)療問答等等。然而,現(xiàn)有開放域問答系統(tǒng)通常需要消耗大量成本針對(duì)不同格式的異構(gòu)文檔(如PDF、網(wǎng)頁(yè)、掃描文檔等)設(shè)計(jì)特定的內(nèi)容抽取算法,預(yù)先從文檔中抽取文本內(nèi)容作為系統(tǒng)的信息來源。這不僅限制了現(xiàn)有系統(tǒng)的可擴(kuò)展能力,還損失了文檔中的布局和視覺信息。為此,本文提出了一個(gè)全新的開放域文檔視覺問答任務(wù),直接以異構(gòu)文檔圖像集合為信息來源回答用戶提問,并提出了中文開放域文檔視覺問答數(shù)據(jù)集DuReadervis。DuReadervis共包含158K文檔圖像和15K對(duì)問答對(duì),主要挑戰(zhàn)包括:1)長(zhǎng)文檔理解;2)噪聲干擾;和3)多片段答案抽取。

1. 背景

現(xiàn)有開放域問答系統(tǒng)主要以文本集合作為信息來源回答用戶提問,如圖1所示,現(xiàn)有系統(tǒng)通常需要花費(fèi)大量成本根據(jù)不同的文檔格式設(shè)計(jì)特定的內(nèi)容抽取算法,預(yù)先從異構(gòu)文檔中抽取文本內(nèi)容。這無疑限制了開放域問答系統(tǒng)的可擴(kuò)展(scalable)能力。一個(gè)可擴(kuò)展的問答系統(tǒng)應(yīng)能同時(shí)處理各種格式文檔,還可以輕松地遷移到尚未見過的文檔格式中。此外,現(xiàn)有系統(tǒng)由于只抽取了文本內(nèi)容,因此會(huì)損失原始文檔中極有價(jià)值的布局特征(如字體大小、列表格式或表格格式等)和視覺特征(如文本顏色、圖像等)。

圖1 開放域問答系統(tǒng)通用流程,需要根據(jù)文檔格式和來源設(shè)計(jì)不同的內(nèi)容抽取器抽取文本內(nèi)容

2. 開放域文檔視覺問答

為了提升開放域問答系統(tǒng)的可擴(kuò)展能力,同時(shí)充分利用異構(gòu)文檔中的布局和視覺信息,本文提出了一個(gè)全新的問答任務(wù),即開放域文檔視覺問答(Open-domain Document Visual Question Answering,Open-domain DocVQA)。該任務(wù)從視覺角度描述異構(gòu)文檔,直接以從異構(gòu)文檔轉(zhuǎn)換得到的文檔圖像集合為信息來源來回答用戶提問。如圖2所示,該任務(wù)通過通用抽取器(如OCR)抽取文檔圖像中的文本內(nèi)容和布局結(jié)構(gòu),然后將這些信息連同文檔圖像的視覺特征應(yīng)用于后續(xù)流程中。

圖2 開放域文檔視覺問答通用流程,將不同格式文檔視為文檔圖像,只需類似于OCR的通用抽取器抽取其中的文本內(nèi)容和布局特征

與開放域問答類似,該任務(wù)也包含兩個(gè)階段:

文檔視覺檢索(Document Visual Retrieval,DocVRE):從原始的文檔圖像集合中檢索和問題相關(guān)的小規(guī)模候選文檔圖像集合

文檔視覺問答(Document Visual Question Answering,DocVQA):根據(jù)檢索結(jié)果抽取單個(gè)或多個(gè)文本片段作為問題答案

3. DuReadervis

為了推動(dòng)開放域文檔視覺問答的發(fā)展,本文從百度搜索日志中收集用戶向搜索引擎提出的真實(shí)問題和相關(guān)網(wǎng)頁(yè)并進(jìn)行了問答對(duì)的標(biāo)注,提出中文開放域文檔視覺問答數(shù)據(jù)集DuReadervis。相比于現(xiàn)有的文檔視覺問答數(shù)據(jù)集,DuReadervis的問題面向真實(shí)用戶提問,可以滿足開放域的信息搜索需求。此外,DuReadervis中的文檔圖像均來自于互聯(lián)網(wǎng)網(wǎng)頁(yè),包含豐富的文本內(nèi)容和視覺特征以及復(fù)雜多樣的布局結(jié)構(gòu),而且DuReadervis需要抽取格式復(fù)雜的長(zhǎng)答案,如多片段文本型答案、列表型答案和表格型答案。表1對(duì)比了DuReadervis和現(xiàn)有文檔視覺問答數(shù)據(jù)集。

表1 DuReadervis與其他文檔視覺問答數(shù)據(jù)集的對(duì)比

3.1 數(shù)據(jù)集統(tǒng)計(jì)分析

DuReadervis共包含158K文檔圖像和15K問答對(duì),其中訓(xùn)練集包括11K問答對(duì);開發(fā)集包括1.5K問答對(duì);測(cè)試集包括2.5K問答對(duì)。

文檔圖像

DuReadervis中的文本內(nèi)容的平均長(zhǎng)度和文檔圖像的平均大小要遠(yuǎn)超于其他數(shù)據(jù)集,表明DuReadervis中的文檔圖像包含更豐富的文本內(nèi)容和視覺特征。此外,DuReadervis中的文檔圖像來自于17000多個(gè)隨機(jī)網(wǎng)站,文檔主題和布局結(jié)構(gòu)多樣性高。另一方面,通常情況下網(wǎng)頁(yè)中會(huì)包含大量的噪聲信息,會(huì)對(duì)模型理解文檔產(chǎn)生干擾。

問題和答案

現(xiàn)有文檔視覺問答數(shù)據(jù)集中的問題主要為事實(shí)類問題。而在DuReadervis中,問題類型同時(shí)包含事實(shí)類和非事實(shí)類問題。本文隨機(jī)篩選了200條問題人工進(jìn)行分類,發(fā)現(xiàn)43%的問題是非事實(shí)類問題。DuReadervis中的答案平均長(zhǎng)度也要遠(yuǎn)長(zhǎng)于其他數(shù)據(jù)集中的答案平均長(zhǎng)度。此外,DuReadervis的答案格式復(fù)雜,包含約40%的文本型答案、25%的列表型答案和35%的表格型答案。在列表型和表格型答案中,很多答案都是不連續(xù)的,需要抽取多片段答案。

表2 數(shù)據(jù)集統(tǒng)計(jì)特征

3.2 數(shù)據(jù)集挑戰(zhàn)

總體而言,DuReadervis的主要挑戰(zhàn)包括以下三點(diǎn):

長(zhǎng)文檔理解:DuReadervis中的文檔圖像均轉(zhuǎn)換自互聯(lián)網(wǎng)頁(yè)面,包含更長(zhǎng)的文本內(nèi)容、更豐富的視覺特征和復(fù)雜的布局結(jié)構(gòu);

噪聲干擾:來自于網(wǎng)頁(yè)的文檔圖像中會(huì)包含大量噪聲信息,例如廣告、相關(guān)推薦等,增大了文檔圖像的理解難度;

多片段答案抽?。篋uReadervis中的答案格式更加復(fù)雜,包含文本、列表和表格型答案,需要模型抽取多片段長(zhǎng)答案。

3.3 數(shù)據(jù)集樣例

傳統(tǒng)的開放域問答系統(tǒng)可以通過設(shè)計(jì)特殊的內(nèi)容抽取算法可以很好地去除表格外的噪聲干擾,但提取的文本內(nèi)容很難保留表格的布局結(jié)構(gòu),系統(tǒng)很難得知不同單元格文本內(nèi)容間的語(yǔ)義關(guān)聯(lián)。相比之下,開放域文檔視覺問答系統(tǒng)則可以通過表格的布局特征更輕松地建模單元格文本內(nèi)容間的語(yǔ)義關(guān)聯(lián),通過“站點(diǎn)”這一列標(biāo)題找到問題的答案。

4. 基線方法

本文為DuReadervis提出了一個(gè)基線方法。該方法包括三部分:

基于PaddleOCR的通用內(nèi)容抽?。豪肞addleOCR技術(shù)從文檔圖像中抽取文本內(nèi)容和布局結(jié)構(gòu)作為系統(tǒng)輸入;

基于BM25的文檔視覺檢索:根據(jù)抽取出的文本內(nèi)容構(gòu)建檢索庫(kù),再利用BM25算法檢索相關(guān)文檔圖像;

基于層次化LayoutXLM的文檔視覺問答:為了從候選文檔圖像中抽取問題答案,本文提出了層次化LayoutXLM模型。如圖4所示,該模型利用層次化建模的方式建模DuReadervis中的長(zhǎng)文本內(nèi)容,并通過基于CRF的序列標(biāo)注算法抽取多片段答案。其中,LayoutXLM[4]是以文本、布局和視覺特征為輸入的面向多語(yǔ)言跨模態(tài)文檔的預(yù)訓(xùn)練模型。

圖4 層次化LayoutXLM模型架構(gòu)

5. 實(shí)驗(yàn)

5.1 實(shí)驗(yàn)設(shè)置

為了驗(yàn)證所提方法的有效性,本文在文檔視覺問答和開放域文檔視覺問答任務(wù)上進(jìn)行了實(shí)驗(yàn),將層次化LayoutXLM與基于純文本預(yù)訓(xùn)練模型的層次化RobertaXLM[5]以及層次化BERT[6]進(jìn)行對(duì)比。其中,在開放域文檔視覺問答實(shí)驗(yàn)中,本文使用BM25算法檢索回與問題最相關(guān)的文檔圖像進(jìn)行答案抽取。兩個(gè)任務(wù)的評(píng)價(jià)指標(biāo)均為F1和Rouge-L。

5.2 實(shí)驗(yàn)結(jié)果

如表3和表4所示,相比于基于純文本預(yù)訓(xùn)練模型的方法,層次化LayoutXLM的性能有明顯提高,然而其整體性能仍與人類表現(xiàn)有一定差距。這表明,一方面布局結(jié)構(gòu)和視覺特征有助于模型理解文檔圖像,另一方面無論是文檔視覺問答亦或是開放域文檔視覺問答均有著較大的提升空間。

6. 結(jié)論

本文為了提高開放域問答系統(tǒng)的可擴(kuò)展能力,使其可以用較低的成本以不同格式的異構(gòu)文檔作為其信息來源,提出了一個(gè)全新的開放域文檔視覺問答任務(wù),直接以從異構(gòu)文檔轉(zhuǎn)換得到的文檔圖像集合來回答用戶提問。為了推動(dòng)該任務(wù)的發(fā)展,本文提出了中文開放域文檔視覺問答數(shù)據(jù)集DuReadervis,包含158K文檔圖像和15K問答對(duì)。DuReadervis包含三個(gè)挑戰(zhàn):1)長(zhǎng)文檔理解;2)噪聲干擾;3)多片段答案抽取。同時(shí),本文提出了一個(gè)基線系統(tǒng)并進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明現(xiàn)有基線系統(tǒng)和人類表現(xiàn)仍有一定差距,開放域文檔視覺問答任務(wù)仍有較大的提升空間。除研究目的外,開放域文檔視覺問答的相關(guān)技術(shù)已初步應(yīng)用于諸如汽車、電子、銀行等行業(yè)的問答系統(tǒng)中,并在飛槳AI Studio上開放。

審核編輯:郭婷


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 汽車電子
    +關(guān)注

    關(guān)注

    3045

    文章

    8948

    瀏覽量

    172792
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1236

    瀏覽量

    26187

原文標(biāo)題:ACL2022 | 面向中文真實(shí)搜索場(chǎng)景的開放域文檔視覺問答數(shù)據(jù)集

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    京東方發(fā)布顯示行業(yè)首款全員開放AI問答系統(tǒng)

    2026年2月24日,BOE(京東方)正式發(fā)布基于京東方藍(lán)鯨顯示大模型的BOE AI 問答系統(tǒng),顯示行業(yè)內(nèi)率先面向企業(yè)全員開放應(yīng)用,以多項(xiàng)技術(shù)領(lǐng)先優(yōu)勢(shì),樹立企業(yè)級(jí)AI創(chuàng)新應(yīng)用新標(biāo)桿,標(biāo)志著京東方以AI賦能開啟了智能驅(qū)動(dòng)運(yùn)營(yíng)的新范
    的頭像 發(fā)表于 03-02 09:42 ?245次閱讀

    小藝開放平臺(tái)平臺(tái)功能

    選擇插件、工作流,響應(yīng)用戶需求。LLM模式適用于簡(jiǎn)單對(duì)話、知識(shí)問答、基礎(chǔ)內(nèi)容生成等場(chǎng)景。 工作流模式 工作流模式是一種基于規(guī)則化流程的智能體編排方式。開發(fā)者將復(fù)雜任務(wù)拆解為有序的規(guī)則化步驟(如數(shù)據(jù)獲取
    發(fā)表于 01-30 15:24

    視覺榮獲DEKRA德凱ISO 26262 ASIL-B功能安全認(rèn)證

    近日,華視覺科技(上海)有限公司(以下簡(jiǎn)稱“華視覺”)的Camera Monitor System(CMS)項(xiàng)目順利通過DEKRA德凱ISO 26262 ASIL-B功能安全認(rèn)證,
    的頭像 發(fā)表于 01-28 15:39 ?285次閱讀

    功率放大器測(cè)試解決方案分享——開放結(jié)構(gòu)磁性納米粒子血管精細(xì)成像

    功率放大器測(cè)試解決方案分享——開放結(jié)構(gòu)磁性納米粒子血管精細(xì)成像
    的頭像 發(fā)表于 12-18 18:32 ?250次閱讀
    功率放大器測(cè)試<b class='flag-5'>解決方案</b>分享——<b class='flag-5'>開放</b>結(jié)構(gòu)磁性納米粒子血管精細(xì)成像

    Nullmax一體機(jī)和小方案的量產(chǎn)加速器

    那么,面向行業(yè)對(duì)智能前視一體機(jī)及小方案的迫切普及需求,Nullmax如何將這套領(lǐng)先的感知技術(shù)能力,高效轉(zhuǎn)化為可大規(guī)模落地的量產(chǎn)“普適”優(yōu)勢(shì)?
    的頭像 發(fā)表于 12-02 15:49 ?466次閱讀
    Nullmax一體機(jī)和小<b class='flag-5'>域</b>控<b class='flag-5'>方案</b>的量產(chǎn)加速器

    廣和通創(chuàng)新發(fā)布AI Dongle解決方案

    11月20日,廣和通創(chuàng)新發(fā)布AI Dongle解決方案,為個(gè)人PC、NAS等設(shè)備提供移動(dòng)AI算力支持。該方案內(nèi)置高性能、低功耗NPU,使得終端在邊緣側(cè)即可進(jìn)行LLM大模型實(shí)時(shí)推理任務(wù),為問答
    的頭像 發(fā)表于 11-26 15:47 ?723次閱讀

    軟通動(dòng)力攜手華為與慶虹電子推出AI視覺工業(yè)質(zhì)檢解決方案

    近日,華為全聯(lián)接大會(huì)(HC)期間,華為聯(lián)合軟通動(dòng)力與慶虹電子在上海世博展覽館重磅發(fā)布?AI視覺工業(yè)質(zhì)檢解決方案?。慶虹電子執(zhí)行總裁包中南,華為數(shù)據(jù)中心集成與輔助運(yùn)營(yíng)領(lǐng)域經(jīng)理彭晶,華為江蘇咨詢
    的頭像 發(fā)表于 09-28 17:38 ?1410次閱讀

    HarmonyOSAI編程智能問答

    CodeGenie基于生成式搜索能力,通過查詢生成、內(nèi)容優(yōu)選服務(wù)高效理解用戶意圖,問答交互式地獲取編碼相關(guān)知識(shí)。 對(duì)話示例 在對(duì)話區(qū)域輸入需要查詢的問題,開始問答。示例如下: ArkTS如何實(shí)現(xiàn)
    發(fā)表于 09-03 16:17

    HarmonyOS AI輔助編程工具(CodeGenie)智能問答

    CodeGenie基于生成式搜索能力,在對(duì)話區(qū)域下拉框中選擇所需要的智能體,通過查詢生成、內(nèi)容優(yōu)選服務(wù)高效理解用戶意圖,問答交互式地獲取編碼相關(guān)知識(shí)。 CodeGenie現(xiàn)接入小藝
    發(fā)表于 08-15 11:07

    NVIDIA助力圖靈新訊美推出企業(yè)級(jí)多模態(tài)視覺大模型融合解決方案

    中國(guó)推出企業(yè)級(jí)多模態(tài)視覺大模型融合解決方案,推動(dòng)先進(jìn) AI 模型在交通治理、工業(yè)質(zhì)檢、金融風(fēng)控等領(lǐng)域?qū)崿F(xiàn)高效識(shí)別、精準(zhǔn)預(yù)警和穩(wěn)定交付。
    的頭像 發(fā)表于 06-26 09:17 ?1330次閱讀

    Vector為華視覺頒發(fā)ISO/SAE 21434汽車CSMS流程證書

    日前,華視覺科技(上海)有限公司(以下簡(jiǎn)稱為“華視覺”)獲得由Vector頒發(fā)的ISO/SAE 21434:2021汽車CSMS(Cyber Security Management
    的頭像 發(fā)表于 06-25 09:56 ?966次閱讀

    CADENAS 解決方案的標(biāo)準(zhǔn)化名稱:3Dfindit

    通過以 3Dfindit 為中心的新品牌結(jié)構(gòu),CADENAS正在將軟件解決方案提升到一個(gè)新的水平。 將 CADENAS 產(chǎn)品戰(zhàn)略性地更名為 3Dfindit 品牌系列,體現(xiàn)了我們整合功能、創(chuàng)造
    發(fā)表于 06-23 15:23

    Claroty BMS 網(wǎng)絡(luò)安全解決方案中文資料

    電子發(fā)燒友網(wǎng)站提供《Claroty BMS 網(wǎng)絡(luò)安全解決方案中文資料.pdf》資料免費(fèi)下載
    發(fā)表于 06-17 17:03 ?1次下載

    SOLIDWORKS科研版?面向學(xué)術(shù)界的解決方案

    學(xué)術(shù)界提供了一套全方面、有效、靈活的計(jì)算機(jī)輔助設(shè)計(jì)(CAD)解決方案,助力科研人員突破設(shè)計(jì)瓶頸,加速科研成果的轉(zhuǎn)化。 SOLIDWORKS科研版?面向學(xué)術(shù)界的解決方案 一、SOLIDWORKS科研版的核心優(yōu)勢(shì) 1.強(qiáng)大的三維設(shè)計(jì)
    的頭像 發(fā)表于 04-16 16:12 ?952次閱讀
    SOLIDWORKS科研版?<b class='flag-5'>面向</b>學(xué)術(shù)界的<b class='flag-5'>解決方案</b>

    中科曙光助力中航結(jié)算公司構(gòu)建私文檔智能問答系統(tǒng)

    近日,中航結(jié)算公司(中國(guó)航空結(jié)算有限責(zé)任公司)依托曙光AI解決方案提供的強(qiáng)勁算力,協(xié)同DeepAI深算智能引擎快速適配、調(diào)優(yōu)、上線DeepSeek大模型業(yè)務(wù)平臺(tái)?;贒eepSeek底座,中航結(jié)算公司構(gòu)建了以RAG增強(qiáng)檢索為核心的私
    的頭像 發(fā)表于 03-19 15:40 ?1140次閱讀