chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OCR終結(jié)了?曠視提出可以文檔級OCR的多模態(tài)大模型框架Vary,支持中英文,已開源!

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-12-24 21:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

想將一份文檔圖片轉(zhuǎn)換成 Markdown 格式?以往這一任務(wù)需要文本識別、布局檢測和排序、公式表格處理、文本清洗等多個步驟——

這一次,只需一句話命令,多模態(tài)大模型 Vary 直接端到端輸出結(jié)果:

無論是中英文的大段文字:

wKgaomWINeGAaauEAAxKvLvAgCc142.png

wKgaomWINeGAbodMAAWnaNFVZdU310.png

還是包含了公式的文檔圖片:

wKgaomWINeKAPlo4AAVxR6bKBYI081.png

又或是手機(jī)頁面截圖:

wKgaomWINeKAEyFZAAVVG-p7ANc741.png

甚至可以將圖片中的表格轉(zhuǎn)換成 Latex 格式:

wKgaomWINeKAKxFRAAOKXXcn73I239.png

當(dāng)然,作為多模大模型,通用能力的保持也是必須的:

Vary 表現(xiàn)出了很大的潛力和極高的上限,OCR 可以不再需要冗長的 pipline,直接端到端輸出,且可以按用戶的 prompt 輸出不同的格式如 Latex、Word、Markdown。通過 LLM 極強的語言先驗,這種架構(gòu)還可以避免 OCR 中的易錯字,比如“杠桿”和“杜桿”等, 對于模糊文檔,也有望在語言先驗的幫助下實現(xiàn)更強的 OCR 效果。

項目一出,引發(fā)了不少網(wǎng)友的關(guān)注,有網(wǎng)友看后直呼 “kill the game!”

wKgaomWINeKAMNzeAABoNqdAVf4240.png

wKgaomWINeOAXJiuAACEMhqdQXs796.png

那么這樣的效果,是如何做到的呢?

背后原理

目前的多模態(tài)大模型幾乎都是用 CLIP 作為 Vision Encoder 或者說視覺詞表。確實,在 400M 圖像文本對訓(xùn)練的 CLIP 有很強的視覺文本對齊能力,可以覆蓋多數(shù)日常任務(wù)下的圖像編碼。但是對于密集和細(xì)粒度感知任務(wù),比如文檔級別的 OCR、Chart 理解,特別是在非英文場景,CLIP 表現(xiàn)出了明顯的編碼低效和 out-of-vocabulary問題。

受語言的 LLMs 啟發(fā),純 NLP 大模型(如 LLaMA)從英文到中文(外語)時因為原始詞表編碼中文效率低,必須要擴(kuò)大 text 詞表。那么對于現(xiàn)在基于 CLIP 視覺詞表的多模大模型也是一樣的,遇到 “foreign language image”,如一頁論文密密麻麻的文字,很難高效地將圖片 token 化,Vary 提出就是解決這一問題,在不 overwrite 原有詞表前提下,高效擴(kuò)充視覺詞表。

wKgaomWINeOAO9tHAAKXZ72haLU845.png

不同于現(xiàn)有方法直接用現(xiàn)成的 CLIP 詞表,Vary 分兩個階段:第一階段先用一個很小的 Decoder-only 網(wǎng)絡(luò)用自回歸方式幫助產(chǎn)生一個強大的新視覺詞表;然后在第二階段融合新詞表和 CLIP 詞表,從而高效的訓(xùn)練多模大模型擁有新 feature。Vary 的訓(xùn)練方法和模型結(jié)構(gòu)如下圖:

wKgaomWINeOAHvnpAAUprQYQZIE046.png

通過在公開數(shù)據(jù)集以及渲染生成的文檔圖表等數(shù)據(jù)上訓(xùn)練,Vary 極大增強了細(xì)粒度的視覺感知能力。在保持 Vanilla 多模態(tài)能力的同時,激發(fā)出了端到端的中英文圖片、公式截圖和圖表理解能力。

另外,原本可能需要幾千 tokens 的頁面內(nèi)容,通過文檔圖片輸入,信息被Vary壓縮在了 256 個圖像 tokens 中。這也為進(jìn)一步的頁面分析和總結(jié)提供了更多的想象空間。

目前,Vary 的代碼和模型均已開源,還給出了供大家試玩的網(wǎng)頁 demo。感興趣的小伙伴可以去試試了~

項目主頁:

https://varybase.github.io/

wKgaomWINeOACsCzAAAC0jQz1zo740.svg

參考鏈接

wKgaomWINeOACsCzAAAC0jQz1zo740.svg ?

https://zhuanlan.zhihu.com/p/671420712

· ·


原文標(biāo)題:OCR終結(jié)了?曠視提出可以文檔級OCR的多模態(tài)大模型框架Vary,支持中英文,已開源!

文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:OCR終結(jié)了?曠視提出可以文檔級OCR的多模態(tài)大模型框架Vary,支持中英文,已開源!

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    米爾RK3576部署端側(cè)模態(tài)輪對話,6TOPS算力驅(qū)動30億參數(shù)LLM

    embedding 結(jié)合,啟動模態(tài)推理;若不包含,則進(jìn)行純文本推理。組裝輸入結(jié)構(gòu)體并傳遞給模型后,推理結(jié)果將實時打印輸出。5. 退出與資源釋放支持用戶輸入“exit”退出程序,此時
    發(fā)表于 09-05 17:25

    小語種OCR標(biāo)注效率提升10+倍:PaddleOCR+ERNIE 4.5自動標(biāo)注實戰(zhàn)解析

    與一致性校驗,實現(xiàn)高精度、低成本的小語種OCR訓(xùn)練數(shù)據(jù)生成。該方案將數(shù)據(jù)準(zhǔn)備周期 從數(shù)周縮短至數(shù)小時 ,為小語種模型的快速迭代與冷啟動提供了全新范式 一、引言:小語種OCR的“數(shù)據(jù)之困” 在跨境支付、多語言
    的頭像 發(fā)表于 08-29 11:26 ?3017次閱讀
    小語種<b class='flag-5'>OCR</b>標(biāo)注效率提升10+倍:PaddleOCR+ERNIE 4.5自動標(biāo)注實戰(zhàn)解析

    【嘉楠堪智K230開發(fā)板試用體驗】+OCR實現(xiàn)

    匹配等步驟,將掃描文檔、照片或截圖中的文字準(zhǔn)確識別并數(shù)字化。OCR廣泛應(yīng)用于文檔電子化、車牌識別、票據(jù)處理、歷史檔案保存等領(lǐng)域,極大地提升了信息處理的效率與準(zhǔn)確性。隨著深度學(xué)習(xí)的發(fā)展,現(xiàn)代OC
    發(fā)表于 08-23 18:53

    【EASY EAI Orin Nano開發(fā)板試用體驗】PP-OCRV5文字識別實例搭建與移植

    文字類型方面,PP-OCRv5支持簡體中文、中文拼音、繁體中文、英文、日文5大主流文字類型,在場景方面, PP-OCRv5升級了中英復(fù)雜手寫體、豎排文本、生僻字等多種挑戰(zhàn)性場景的識別能力。 在內(nèi)部
    發(fā)表于 08-18 16:57

    端側(cè)OCR文字識別實現(xiàn) -- Core Vision Kit ##HarmonyOS SDK AI##

    ,使用場景中就包括了“通用文字識別”,即我們前文中所說的ocr功能。 其整體流程概括為: 首先通過各種方法得到一張圖片,例如拍照、從相冊中選擇、甚至你也可以通過canvas畫布生成的圖片或者通過組件
    發(fā)表于 06-30 18:07

    OCR識別訓(xùn)練完成后給的是空壓縮包,為什么?

    OCR識別 一共弄了26張圖片,都標(biāo)注好了,點擊開始訓(xùn)練,顯示訓(xùn)練成功了,也將壓縮包發(fā)到郵箱了,下載下來后,壓縮包里面是空的 OCR圖片20幾張圖太少了。麻煩您添加點,參考我們的ocr
    發(fā)表于 05-28 06:46

    ??低?b class='flag-5'>視發(fā)布模態(tài)模型AI融合巡檢超腦

    基于海康觀瀾大模型技術(shù)體系,??低?b class='flag-5'>視推出新一代模態(tài)模型AI融合巡檢超腦,全面升級人、車、行為、事件等算法,為行業(yè)帶來全新的
    的頭像 發(fā)表于 04-17 17:12 ?1142次閱讀

    模型預(yù)標(biāo)注和自動化標(biāo)注在OCR標(biāo)注場景的應(yīng)用

    OCR,即光學(xué)字符識別,簡單來說就是利用光學(xué)設(shè)備去捕獲圖像并識別文字,最終將圖片中的文字轉(zhuǎn)換為可編輯和可搜索的文本。在數(shù)字化時代,OCR(光學(xué)字符識別)技術(shù)作為處理圖像中文字信息的關(guān)鍵手段,其標(biāo)注
    的頭像 發(fā)表于 04-15 15:18 ?615次閱讀

    階躍星辰開源模態(tài)模型,天數(shù)智芯迅速適配

    近日,頭部大模型創(chuàng)業(yè)公司階躍星辰在行業(yè)內(nèi)引起了軒然大波,宣布正式開源兩款Step系列模態(tài)模型——Step-Video-T2V視頻生成
    的頭像 發(fā)表于 02-19 14:30 ?691次閱讀

    ??低?b class='flag-5'>視發(fā)布模態(tài)模型文搜存儲系列產(chǎn)品

    模態(tài)模型為安防行業(yè)帶來重大技術(shù)革新,基于觀瀾大模型技術(shù)體系,??低?b class='flag-5'>視將大參數(shù)量、大樣本量的圖文
    的頭像 發(fā)表于 02-18 10:33 ?876次閱讀

    字節(jié)跳動發(fā)布OmniHuman 模態(tài)框架

    2 月 6 日消息,字節(jié)跳動近日發(fā)布了一項重大成果 ——OmniHuman 模態(tài)框架,其優(yōu)勢在于其強大的視頻生成能力。用戶只需提供一張任意尺寸和人物占比的單張圖片,再結(jié)合一段輸入音頻,就能生成
    的頭像 發(fā)表于 02-07 17:50 ?1076次閱讀

    亮相2024數(shù)字科技生態(tài)大會

    2024數(shù)字科技生態(tài)大會上,展示了多項聯(lián)網(wǎng)領(lǐng)域的前沿技術(shù)及應(yīng)用成果,包括大模型、行業(yè)場景方案以及創(chuàng)新智能終端。
    的頭像 發(fā)表于 12-06 10:34 ?920次閱讀

    SAE J1939中英文資料

    最全的J1939中英文協(xié)議資料
    發(fā)表于 11-26 15:06 ?5次下載

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實現(xiàn)更加智能化的信息處理。簡單來說,
    的頭像 發(fā)表于 10-18 09:39 ?2121次閱讀