chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于Transformer架構(gòu)的文檔圖像自監(jiān)督預(yù)訓(xùn)練技術(shù)

CVer ? 來(lái)源:CSIG文檔圖像分析與識(shí)別專 ? 作者:CSIG文檔圖像分析與 ? 2022-11-15 11:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文簡(jiǎn)要介紹ACM MM 2022錄用論文“DiT: Self-supervised Pre-training for Document Image Transformer”[1]的主要工作。該論文是2022年微軟亞研院發(fā)表的LayoutLM V3[2]的前身工作,主要解決了文檔領(lǐng)域中標(biāo)注數(shù)據(jù)稀少和以視覺(jué)為中心的文檔智能任務(wù)骨干網(wǎng)絡(luò)的預(yù)訓(xùn)練問(wèn)題。

一、研究背景

近年來(lái)自監(jiān)督預(yù)訓(xùn)練技術(shù)已在文檔智能領(lǐng)域進(jìn)行了許多的實(shí)踐,大多數(shù)技術(shù)是將圖片、文本、布局結(jié)構(gòu)信息一起輸入統(tǒng)一的Transformer架構(gòu)中。在這些技術(shù)中,經(jīng)典的流程是先經(jīng)過(guò)一個(gè)視覺(jué)模型提取額外文檔圖片信息,例如OCR引擎或版面分析模型,這些模型通常依賴于有標(biāo)注數(shù)據(jù)訓(xùn)練的視覺(jué)骨干網(wǎng)絡(luò)。已有的工作已經(jīng)證明一些視覺(jué)模型在實(shí)際應(yīng)用中的性能經(jīng)常受到域遷移、數(shù)據(jù)分布不一致等問(wèn)題的影響。而且現(xiàn)有的文檔有標(biāo)注數(shù)據(jù)集稀少、樣式單一,訓(xùn)練出來(lái)的骨干網(wǎng)絡(luò)并非最適用于文檔任務(wù)。因此,有必要研究如何利用自監(jiān)督預(yù)訓(xùn)練技術(shù)訓(xùn)練一個(gè)專用于文檔智能領(lǐng)域的骨干網(wǎng)絡(luò)。本文針對(duì)上述問(wèn)題,利用離散變分編碼器和NLP領(lǐng)域的常用預(yù)訓(xùn)練方式實(shí)現(xiàn)了文檔圖像的預(yù)訓(xùn)練。

5053a420-62a5-11ed-8abf-dac502259ad0.png

圖1具有不同布局和格式的視覺(jué)豐富的業(yè)務(wù)文檔,用于預(yù)培訓(xùn)DiT

二、DiT原理簡(jiǎn)述

2.1總體結(jié)構(gòu)

5088a166-62a5-11ed-8abf-dac502259ad0.png

圖2 DiT的總體架構(gòu)

Fig 2是DiT的整體結(jié)構(gòu)。DiT使用ViT[3]作為預(yù)訓(xùn)練的骨干網(wǎng)絡(luò),模型的輸入是圖像Patch化后的Embedding特征向量,Patch的數(shù)量和離散變分編碼器的下采樣比例有關(guān)。輸入經(jīng)過(guò)ViT后輸出到線性層進(jìn)行圖像分類,分類層的大小是8192。預(yù)訓(xùn)練任務(wù)和NLP領(lǐng)域的完型填空任務(wù)一致,先對(duì)輸入的Patch隨機(jī)掩膜,在模型輸出處預(yù)測(cè)被遮蓋的Patch對(duì)應(yīng)的Token,Token由Fig 2 中左側(cè)的離散變分編碼器生成,作為每個(gè)Patch的Label,預(yù)訓(xùn)練過(guò)程使用CE Loss監(jiān)督。

2.2 離散變分編碼器dVAE

離散變分編碼器作為Image Tokenizer,將輸入的Patch Token化,來(lái)源于論文DALL-E[4],在預(yù)訓(xùn)練任務(wù)開(kāi)始前需要額外訓(xùn)練。本文使用數(shù)據(jù)集IIT-CDIP[5]重新訓(xùn)練了DALL-E中的離散變分編碼器以適用于文檔任務(wù)。在預(yù)訓(xùn)練任務(wù)中只使用到編碼器的部分,解碼器不參與預(yù)訓(xùn)練,編碼器將輸入圖片下采樣到原來(lái)的1/8,例如輸入尺度為112*112,那編碼后的Token Map為14*14,此時(shí)的Map大小,應(yīng)與ViT輸入Patch數(shù)保持一致。

2.3 模型微調(diào)

50e1f356-62a5-11ed-8abf-dac502259ad0.png

圖3在不同檢測(cè)框架中應(yīng)用DiT作為骨干網(wǎng)絡(luò)的圖示

模型預(yù)訓(xùn)練完成后,需針對(duì)下游任務(wù)進(jìn)行微小的結(jié)構(gòu)改動(dòng),針對(duì)分類任務(wù),輸入經(jīng)過(guò)平均池化和線性層進(jìn)行分類。針對(duì)檢測(cè)任務(wù),如Fig 3所示,在ViT的特定層進(jìn)行下采樣或上采樣,然后輸入到FPN和后續(xù)的檢測(cè)框架中。

三、主要實(shí)驗(yàn)結(jié)果及可視化效果

表1.RVL-CDIP上的文檔圖像分類精度(%),其中所有模型都使用224×224分辨率的純圖像信息(無(wú)文本信息)。

51049230-62a5-11ed-8abf-dac502259ad0.png

表2.PubLayNet驗(yàn)證集上的文檔布局分析mAP@IOU[0.50:0.95]。ResNext-101-32×8d縮短為ResNext,級(jí)聯(lián)為C。

5123f530-62a5-11ed-8abf-dac502259ad0.png

表3.ICDAR 2019 cTDaR的表檢測(cè)精度(F1)

514b34ce-62a5-11ed-8abf-dac502259ad0.png

表4.文本檢測(cè)精度(IoU@0.5)在FUNSD任務(wù)#1中,掩碼R-CNN與不同的主干(ResNeXt、DeiT、BEiT、MAE和DiT)一起使用?!?syn”表示使用包含1M文檔圖像的合成數(shù)據(jù)集訓(xùn)練DiT,然后使用FUNSD訓(xùn)練數(shù)據(jù)進(jìn)行微調(diào)。

51edced2-62a5-11ed-8abf-dac502259ad0.png

520d00f4-62a5-11ed-8abf-dac502259ad0.png

圖4使用不同標(biāo)記器進(jìn)行圖像重建

從左到右:原始文檔圖像,使用自訓(xùn)練dVAE標(biāo)記器進(jìn)行圖像重建,使用DALL-E標(biāo)記器進(jìn)行的圖像重建從表1、表2、表3、表4

來(lái)看,文章所提方法在各種下游任務(wù)中取得了state-of-the-art的結(jié)果,驗(yàn)證了該方法在文檔領(lǐng)域的有效性。Fig 4中展示了重新訓(xùn)練的離散變分編碼器的可視化輸出,結(jié)果顯示本文中的離散變分編碼器效果更好。

四、總結(jié)及討論

本文設(shè)計(jì)了一個(gè)利用大量無(wú)標(biāo)簽文檔圖像預(yù)訓(xùn)練ViT的自監(jiān)督方法,該方法的核心是利用離散變分編碼器對(duì)圖像Patch進(jìn)行Token化,再使用NLP領(lǐng)域的掩碼重建任務(wù)進(jìn)行預(yù)訓(xùn)練。從實(shí)驗(yàn)結(jié)果可以看出,該方法在多個(gè)下游任務(wù)的有效性,探索了自監(jiān)督任務(wù)在文檔領(lǐng)域的可能性。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3799

    瀏覽量

    138041
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7256

    瀏覽量

    91860

原文標(biāo)題:上交&微軟提出DiT:一種基于Transformer的文檔圖像自監(jiān)督預(yù)訓(xùn)練方法 | ACM MM 2022

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷一場(chǎng)翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語(yǔ)言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?344次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>架構(gòu)</b>概述

    【書(shū)籍評(píng)測(cè)活動(dòng)NO.62】一本書(shū)讀懂 DeepSeek 全家桶核心技術(shù):DeepSeek 核心技術(shù)揭秘

    億個(gè)參數(shù)的混合專家模型(MoE) ,每個(gè)token(模型處理文本的基本單位)激活 370 億個(gè)參數(shù)。該模型在 14.8 萬(wàn)億個(gè)高質(zhì)量 token上進(jìn)行預(yù)訓(xùn)練,采用 MLA 和 MoE 架構(gòu)
    發(fā)表于 06-09 14:38

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布后收到讀者熱烈反響,很多讀者要求進(jìn)一步講解更多的技術(shù)細(xì)節(jié)。本文主要針對(duì)大語(yǔ)言模
    的頭像 發(fā)表于 03-21 18:24 ?1674次閱讀
    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    《AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》閱讀心得3——RAG架構(gòu)與部署本地知識(shí)庫(kù)

    應(yīng)用。第六章深入探討了RAG架構(gòu)的工作原理,該技術(shù)通過(guò)在推理過(guò)程中實(shí)時(shí)檢索和注入外部知識(shí)來(lái)增強(qiáng)模型的生成能力。RAG架構(gòu)的核心是檢索器和生成器兩大模塊,檢索器負(fù)責(zé)從知識(shí)庫(kù)中找到與當(dāng)前查詢相關(guān)的
    發(fā)表于 03-07 19:49

    從Open Model Zoo下載的FastSeg大型公共預(yù)訓(xùn)練模型,無(wú)法導(dǎo)入名稱是怎么回事?

    從 Open Model Zoo 下載的 FastSeg 大型公共預(yù)訓(xùn)練模型。 運(yùn)行 converter.py 以將 FastSeg 大型模型轉(zhuǎn)換為中間表示 (IR): python3
    發(fā)表于 03-05 07:22

    用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 之前我們分享了《從零開(kāi)始訓(xùn)練一個(gè)大語(yǔ)言模型需要投資多少錢》,其中高昂的預(yù)訓(xùn)練費(fèi)用讓許多對(duì)大模型預(yù)訓(xùn)練
    的頭像 發(fā)表于 02-19 16:10 ?996次閱讀
    用PaddleNLP在4060單卡上實(shí)踐大模型<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>技術(shù)</b>

    transformer專用ASIC芯片Sohu說(shuō)明

    的舊圖像模型,也不能運(yùn)行CNN、RNN或LSTM。 但對(duì)于transformer來(lái)說(shuō),Sohu是有史以來(lái)最快的芯片。 借助Llama 70B每秒超過(guò)50萬(wàn)個(gè)token的吞吐量,Sohu可以讓您構(gòu)建在GPU上無(wú)法實(shí)現(xiàn)的產(chǎn)品
    的頭像 發(fā)表于 01-06 09:13 ?1153次閱讀
    <b class='flag-5'>transformer</b>專用ASIC芯片Sohu說(shuō)明

    KerasHub統(tǒng)一、全面的預(yù)訓(xùn)練模型庫(kù)

    深度學(xué)習(xí)領(lǐng)域正在迅速發(fā)展,在處理各種類型的任務(wù)中,預(yù)訓(xùn)練模型變得越來(lái)越重要。Keras 以其用戶友好型 API 和對(duì)易用性的重視而聞名,始終處于這一動(dòng)向的前沿。Keras 擁有專用的內(nèi)容庫(kù),如用
    的頭像 發(fā)表于 12-20 10:32 ?499次閱讀

    如何使用FP8新技術(shù)加速大模型訓(xùn)練

    利用 FP8 技術(shù)加速 LLM 推理和訓(xùn)練越來(lái)越受到關(guān)注,本文主要和大家介紹如何使用 FP8 這項(xiàng)新技術(shù)加速大模型的訓(xùn)練。 使用 FP8 進(jìn)行大模型
    的頭像 發(fā)表于 12-09 11:30 ?1071次閱讀

    Transformer是機(jī)器人技術(shù)的基礎(chǔ)嗎

    生成式預(yù)訓(xùn)練Transformer(GPT)被吹捧為將徹底改變機(jī)器人技術(shù)。但實(shí)際應(yīng)用中,GPT需要龐大且昂貴的計(jì)算資源、冗長(zhǎng)的訓(xùn)練時(shí)間以及(
    的頭像 發(fā)表于 12-05 10:54 ?671次閱讀
    <b class='flag-5'>Transformer</b>是機(jī)器人<b class='flag-5'>技術(shù)</b>的基礎(chǔ)嗎

    時(shí)空引導(dǎo)下的時(shí)間序列監(jiān)督學(xué)習(xí)框架

    【導(dǎo)讀】最近,香港科技大學(xué)、上海AI Lab等多個(gè)組織聯(lián)合發(fā)布了一篇時(shí)間序列無(wú)監(jiān)督預(yù)訓(xùn)練的文章,相比原來(lái)的TS2Vec等時(shí)間序列表示學(xué)習(xí)工作,核心在于提出了將空間信息融入到預(yù)
    的頭像 發(fā)表于 11-15 11:41 ?768次閱讀
    時(shí)空引導(dǎo)下的時(shí)間序列<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b>學(xué)習(xí)框架

    LLM和傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別

    訓(xùn)練方法 LLM: 預(yù)訓(xùn)練和微調(diào): LLM通常采用預(yù)訓(xùn)練(Pre-training)和微調(diào)(Fine-tuning)的方法。
    的頭像 發(fā)表于 11-08 09:25 ?1885次閱讀

    英偉達(dá)推出歸一化Transformer,革命性提升LLM訓(xùn)練速度

    了新的突破。 相較于傳統(tǒng)的Transformer架構(gòu),nGPT在保持原有精度的同時(shí),直接將大型語(yǔ)言模型(LLM)的訓(xùn)練速度提升了高達(dá)20倍。這一顯著的性能提升,無(wú)疑將極大地推動(dòng)AI技術(shù)
    的頭像 發(fā)表于 10-23 11:30 ?875次閱讀

    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    鷺島論壇數(shù)據(jù)智能系列講座第4期「預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)」10月30日(周三)20:00精彩開(kāi)播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報(bào)告題目預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)報(bào)告簡(jiǎn)介
    的頭像 發(fā)表于 10-18 08:09 ?593次閱讀
    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    收集海量的文本數(shù)據(jù)作為訓(xùn)練材料。這些數(shù)據(jù)集不僅包括語(yǔ)法結(jié)構(gòu)的學(xué)習(xí),還包括對(duì)語(yǔ)言的深層次理解,如文化背景、語(yǔ)境含義和情感色彩等。 監(jiān)督學(xué)習(xí):模型采用
    發(fā)表于 08-02 11:03