chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

TableBank:高質(zhì)量的標(biāo)注表格數(shù)據(jù)集

電子工程師 ? 來(lái)源:lp ? 2019-04-04 17:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近年來(lái),自然語(yǔ)言處理(NLP,Natural Language Processing)技術(shù)的快速發(fā)展大力推動(dòng)了人工智能的整體進(jìn)展。尤其是在過(guò)去三年,機(jī)器學(xué)習(xí)給NLP所帶來(lái)的進(jìn)步,使計(jì)算機(jī)在機(jī)器翻譯、閱讀理解、語(yǔ)法檢查等任務(wù)上,都達(dá)到了可以媲美人類(lèi)的水平。

不過(guò)相比現(xiàn)實(shí)世界中的實(shí)際應(yīng)用環(huán)境,研究中的NLP任務(wù)相對(duì)單純。事實(shí)上,在NLP已經(jīng)取得很多突破的今天,機(jī)器卻連企業(yè)文檔中最常見(jiàn)的Word、PDF也無(wú)法從頭“讀”到尾。如何能夠讓機(jī)器理解文檔中的標(biāo)題、段落、腳注、圖片、表格等內(nèi)容信息,是NLP能夠處理更多實(shí)際應(yīng)用場(chǎng)景的第一步。

最近,微軟亞洲研究院自然語(yǔ)言計(jì)算組發(fā)表了一篇論文——TableBank: Table Benchmark for Image-based Table Detection and Recognition,致力于解決文檔中的表格檢測(cè)與表格信息識(shí)別,并首次在業(yè)界同時(shí)開(kāi)源表格檢測(cè)和表格結(jié)構(gòu)識(shí)別數(shù)據(jù)集,供研究人員使用。

TableBank:高質(zhì)量的標(biāo)注表格數(shù)據(jù)集

雖然人類(lèi)在視覺(jué)上可以很容易地判斷出一個(gè)表格,但由于表格的布局、樣式多種多樣,對(duì)于機(jī)器而言判斷“何為表格”以及表格中內(nèi)容之間的關(guān)系卻并不容易。傳統(tǒng)的基于規(guī)則的表格識(shí)別方式,一旦換一份文檔就需要大量在文檔后臺(tái)的手工操作;而現(xiàn)有的機(jī)器學(xué)習(xí)方法,又無(wú)法獲得大量有效的標(biāo)注數(shù)據(jù),很難支持實(shí)際場(chǎng)景中的應(yīng)用。于是,TableBank應(yīng)運(yùn)而生。

TableBank是一個(gè)表格檢測(cè)與識(shí)別的數(shù)據(jù)集,基于公開(kāi)的、大規(guī)模的Word文檔和LaTex文檔,通過(guò)弱監(jiān)督方法創(chuàng)建而來(lái)。與傳統(tǒng)的弱監(jiān)督訓(xùn)練集不同,TableBank不僅數(shù)據(jù)質(zhì)量高,而且數(shù)據(jù)規(guī)模比之前的人工標(biāo)記的表格分析數(shù)據(jù)集大幾個(gè)數(shù)量級(jí),其表格數(shù)據(jù)量達(dá)到了41.7萬(wàn)。

然而要讓機(jī)器讀懂表格,首先要能夠從文檔中識(shí)別哪些是表格,隨后再去識(shí)別表格區(qū)域內(nèi)的信息。因此TableBank的實(shí)現(xiàn)主要分兩步走:一,表格檢測(cè)(Table Detection);二,表格結(jié)構(gòu)識(shí)別(Table Structure Recognition)。

表格檢測(cè)

如何能自動(dòng)檢測(cè)到文檔中的表格?

通常每個(gè)Word文檔都有一個(gè)對(duì)應(yīng)的Office XML源代碼文件,在代碼中對(duì)應(yīng)表格的位置,可以對(duì)其進(jìn)行修改,讓表格加上邊框,以此來(lái)區(qū)分表格與文檔的其他部分。對(duì)于LaTex文檔(由LaTex編輯器生成的文檔),則可以直接使用特殊命令將邊界框添加到表格中,以此來(lái)確定表格在文檔中的位置。

然后再將Word和LaTex文檔中的表格轉(zhuǎn)化為相對(duì)應(yīng)的PDF頁(yè)面(如下圖所示),便可獲得帶有表格信息的PDF頁(yè)面,且該文檔對(duì)表格的位置已經(jīng)進(jìn)行了標(biāo)注。這些標(biāo)注過(guò)的表格,都可以放到訓(xùn)練數(shù)據(jù)集中,并且越來(lái)越多。目前,該表格檢測(cè)模型采用了計(jì)算機(jī)視覺(jué)研究中常用的Faster R-CNN 算法

表格結(jié)構(gòu)識(shí)別

表格結(jié)構(gòu)識(shí)別的目的是識(shí)別表格文檔中的文字信息、表格中行和列的布局信息,以及理解行與列之間的關(guān)系。從PDF或圖像中識(shí)別出文字,大家的第一反應(yīng)都是使用OCR(光學(xué)字符識(shí)別)技術(shù),確實(shí)OCR技術(shù)可以識(shí)別出文字,但它只能將其轉(zhuǎn)換成文本格式,再按照在圖像中出現(xiàn)的先后順序依次填入到可編輯的文檔中,而無(wú)法確定文字之間的邏輯關(guān)系,更難于理解表格的行、列信息。

在TableBank的論文里,研究員們一方面結(jié)合OCR技術(shù),識(shí)別出表格里每個(gè)單元格中的文本內(nèi)容,另一方面,使用了創(chuàng)新方法去自動(dòng)識(shí)別出表格在文檔中的位置,以及行與列的布局,明確表格中行列交叉所形成的單元格之間的關(guān)系。

對(duì)于形式、來(lái)源不同的表格,研究員們給出了相應(yīng)的方法來(lái)實(shí)現(xiàn)表格結(jié)構(gòu)的識(shí)別。Word文檔中的表格可直接將XML源代碼文件轉(zhuǎn)換為HTML標(biāo)記序列;LaTex文檔則先生成XML再轉(zhuǎn)換為HTML,然后框定表格中行和列的位置。這樣表格中的行、列信息也就有了標(biāo)注數(shù)據(jù)。

目前,TableBank數(shù)據(jù)集已經(jīng)在GitHub社區(qū)開(kāi)源,其中表格檢測(cè)數(shù)據(jù)有41.7萬(wàn)個(gè),表格結(jié)構(gòu)識(shí)別數(shù)據(jù)有14.5萬(wàn)個(gè)。

數(shù)據(jù)集地址:https://github.com/doc-analysis/TableBank。

表格檢測(cè)與識(shí)別:文檔智能分析的第一步

高質(zhì)量、大規(guī)模、帶有標(biāo)注的表格數(shù)據(jù)集的建立,意味著表格識(shí)別相關(guān)的機(jī)器學(xué)習(xí)訓(xùn)練可大規(guī)模開(kāi)展,并將逐步提升表格識(shí)別的準(zhǔn)確率。集成了計(jì)算機(jī)視覺(jué)、OCR等跨領(lǐng)域技術(shù)的TableBank為NLP在實(shí)際場(chǎng)景中的應(yīng)用,做好了智能分析表格數(shù)據(jù)的前期準(zhǔn)備。

未來(lái),在企業(yè)文檔分析中,無(wú)論是掃描件還是紙質(zhì)文件中的表格識(shí)別,都可以基于TableBank訓(xùn)練的模型進(jìn)行。同樣的場(chǎng)景也可以延伸到由PDF轉(zhuǎn)成Word的文檔中的表格轉(zhuǎn)換,企業(yè)年報(bào)、員工報(bào)銷(xiāo)發(fā)票中的表格信息提取等等。

當(dāng)然,表格只是各類(lèi)文檔中的一小部分,表格檢測(cè)與識(shí)別是NLP在文檔分析研究領(lǐng)域的第一步,文檔中的標(biāo)題、段落、腳注、圖片等其他非結(jié)構(gòu)化數(shù)據(jù)的檢測(cè)與識(shí)別,也是微軟亞洲研究院自然語(yǔ)言計(jì)算組的研究范疇。要想真正實(shí)現(xiàn)對(duì)文檔里的內(nèi)容的智能分析和理解,還有很多研究課題亟待解決。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1229

    瀏覽量

    26031
  • 自然語(yǔ)言處理
    +關(guān)注

    關(guān)注

    1

    文章

    629

    瀏覽量

    14558
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23182

原文標(biāo)題:這是一份數(shù)據(jù)量達(dá)41.7萬(wàn)開(kāi)源表格數(shù)據(jù)集

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    protel輸出高質(zhì)量gerber

    圖文并茂一步一步手把手教你輸出高質(zhì)量的gerber傻瓜式教學(xué)。。。。[hide] [/hide]
    發(fā)表于 12-12 15:43

    高質(zhì)量C++、C編程指南

    高質(zhì)量C++、C編程指南
    發(fā)表于 08-06 11:58

    高質(zhì)量C&C++

    高質(zhì)量C&C++
    發(fā)表于 08-16 19:45

    高質(zhì)量C語(yǔ)言編程

    高質(zhì)量c語(yǔ)言,精,精,精,精華
    發(fā)表于 07-22 13:48

    編寫(xiě)高質(zhì)量C語(yǔ)言代碼

    編寫(xiě)高質(zhì)量C語(yǔ)言代碼 編寫(xiě)高質(zhì)量C語(yǔ)言代碼 編寫(xiě)高質(zhì)量C語(yǔ)言代碼
    發(fā)表于 07-31 17:47

    林銳《高質(zhì)量C語(yǔ)言編程》

    林銳《高質(zhì)量C語(yǔ)言編程》
    發(fā)表于 08-17 12:10

    高質(zhì)量編程

    干貨,《495個(gè)C語(yǔ)言問(wèn)題》、《華為內(nèi)部程序設(shè)計(jì)編碼規(guī)范》、《C語(yǔ)言:陷阱和缺陷》、《高質(zhì)量C編程[林銳]》
    發(fā)表于 02-27 19:39

    請(qǐng)問(wèn)怎么才能設(shè)計(jì)出高質(zhì)量的印制線(xiàn)路板?

    怎么才能設(shè)計(jì)出高質(zhì)量的印制線(xiàn)路板?
    發(fā)表于 04-23 06:57

    MIND:高質(zhì)量的新聞推薦數(shù)據(jù)

    。高質(zhì)量基準(zhǔn)數(shù)據(jù)的缺乏限制了新聞推薦領(lǐng)域的研究進(jìn)展。因此,微軟亞洲研究院聯(lián)合微軟新聞產(chǎn)品團(tuán)隊(duì)在 ACL 2020上發(fā)布了一個(gè)大規(guī)模的英文新聞推薦數(shù)據(jù)
    的頭像 發(fā)表于 01-07 14:42 ?8825次閱讀

    要實(shí)現(xiàn)高質(zhì)量AI診斷,需要大量的高質(zhì)量標(biāo)注圖像進(jìn)行前期的算法訓(xùn)練

    發(fā)展情況看,有效的人工智能算法大多聚集于存在大量標(biāo)準(zhǔn)化數(shù)據(jù)的病種,畢竟要實(shí)現(xiàn)高質(zhì)量AI診斷,需要大量的高質(zhì)量標(biāo)注圖像進(jìn)行前期的算法訓(xùn)練。 這一數(shù)據(jù)
    的頭像 發(fā)表于 01-28 15:28 ?3241次閱讀
    要實(shí)現(xiàn)<b class='flag-5'>高質(zhì)量</b>AI診斷,需要大量的<b class='flag-5'>高質(zhì)量</b><b class='flag-5'>標(biāo)注</b>圖像進(jìn)行前期的算法訓(xùn)練

    如何構(gòu)建高質(zhì)量的大語(yǔ)言模型數(shù)據(jù)

    構(gòu)建高質(zhì)量的大語(yǔ)言模型數(shù)據(jù)是訓(xùn)練強(qiáng)大自然語(yǔ)言處理模型的關(guān)鍵一步。以下是一些關(guān)鍵步驟和考慮因素,有助于創(chuàng)建具有多樣性、準(zhǔn)確性和時(shí)效性的數(shù)據(jù)
    的頭像 發(fā)表于 09-11 17:00 ?2612次閱讀

    標(biāo)貝科技“4D-BEV上億點(diǎn)云標(biāo)注系統(tǒng)”入選國(guó)家數(shù)據(jù)局首批數(shù)據(jù)標(biāo)注優(yōu)秀案例

    4月29日,作為第八屆數(shù)字中國(guó)建設(shè)峰會(huì)的重要組成部分,由國(guó)家數(shù)據(jù)局主辦的高質(zhì)量數(shù)據(jù)數(shù)據(jù)標(biāo)注主題交流活動(dòng)在福州市數(shù)字中國(guó)會(huì)展中心舉行。會(huì)議
    的頭像 發(fā)表于 04-30 14:38 ?558次閱讀
    標(biāo)貝科技“4D-BEV上億點(diǎn)云<b class='flag-5'>標(biāo)注</b>系統(tǒng)”入選國(guó)家<b class='flag-5'>數(shù)據(jù)</b>局首批<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標(biāo)注</b>優(yōu)秀案例

    大模型時(shí)代,如何推進(jìn)高質(zhì)量數(shù)據(jù)建設(shè)?

    高質(zhì)量數(shù)據(jù),即具備高價(jià)值、高密度、標(biāo)準(zhǔn)化特征的數(shù)據(jù)集合。 在AI領(lǐng)域,高質(zhì)量數(shù)據(jù)地位舉足輕重,如同原油經(jīng)煉化成為汽油驅(qū)動(dòng)汽車(chē),海量原始
    的頭像 發(fā)表于 08-21 13:58 ?512次閱讀

    易華錄入選國(guó)家首批高質(zhì)量數(shù)據(jù)建設(shè)先行先試工作名單

    8月28日下午,在2025中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,國(guó)家數(shù)據(jù)局發(fā)布了首批高質(zhì)量數(shù)據(jù)建設(shè)先行先試工作名單。經(jīng)中國(guó)電科推薦、國(guó)家數(shù)據(jù)局評(píng)審,
    的頭像 發(fā)表于 09-04 09:04 ?772次閱讀

    標(biāo)貝科技參編《人工智能高質(zhì)量數(shù)據(jù)建設(shè)指南》

    在人工智能邁入“數(shù)據(jù)驅(qū)動(dòng)”的關(guān)鍵發(fā)展階段,高質(zhì)量數(shù)據(jù)已成為突破技術(shù)瓶頸、推動(dòng)產(chǎn)業(yè)落地的核心引擎。日前,中國(guó)信息通信研究院人工智能研究所聯(lián)合清華大學(xué)計(jì)算社會(huì)科學(xué)與國(guó)家治理實(shí)驗(yàn)室、中國(guó)人工智能產(chǎn)業(yè)發(fā)展
    的頭像 發(fā)表于 09-11 17:19 ?674次閱讀