chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OCR終結(jié)了?曠視提出可以文檔級(jí)OCR的多模態(tài)大模型框架Vary,支持中英文,已開源!

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-12-24 21:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

想將一份文檔圖片轉(zhuǎn)換成 Markdown 格式?以往這一任務(wù)需要文本識(shí)別、布局檢測(cè)和排序、公式表格處理、文本清洗等多個(gè)步驟——

這一次,只需一句話命令,多模態(tài)大模型 Vary 直接端到端輸出結(jié)果:

無論是中英文的大段文字:

wKgaomWINeGAaauEAAxKvLvAgCc142.png

wKgaomWINeGAbodMAAWnaNFVZdU310.png

還是包含了公式的文檔圖片:

wKgaomWINeKAPlo4AAVxR6bKBYI081.png

又或是手機(jī)頁面截圖:

wKgaomWINeKAEyFZAAVVG-p7ANc741.png

甚至可以將圖片中的表格轉(zhuǎn)換成 Latex 格式:

wKgaomWINeKAKxFRAAOKXXcn73I239.png

當(dāng)然,作為多模大模型,通用能力的保持也是必須的:

Vary 表現(xiàn)出了很大的潛力和極高的上限,OCR 可以不再需要冗長(zhǎng)的 pipline,直接端到端輸出,且可以按用戶的 prompt 輸出不同的格式如 Latex、Word、Markdown。通過 LLM 極強(qiáng)的語言先驗(yàn),這種架構(gòu)還可以避免 OCR 中的易錯(cuò)字,比如“杠桿”和“杜桿”等, 對(duì)于模糊文檔,也有望在語言先驗(yàn)的幫助下實(shí)現(xiàn)更強(qiáng)的 OCR 效果。

項(xiàng)目一出,引發(fā)了不少網(wǎng)友的關(guān)注,有網(wǎng)友看后直呼 “kill the game!”

wKgaomWINeKAMNzeAABoNqdAVf4240.png

wKgaomWINeOAXJiuAACEMhqdQXs796.png

那么這樣的效果,是如何做到的呢?

背后原理

目前的多模態(tài)大模型幾乎都是用 CLIP 作為 Vision Encoder 或者說視覺詞表。確實(shí),在 400M 圖像文本對(duì)訓(xùn)練的 CLIP 有很強(qiáng)的視覺文本對(duì)齊能力,可以覆蓋多數(shù)日常任務(wù)下的圖像編碼。但是對(duì)于密集和細(xì)粒度感知任務(wù),比如文檔級(jí)別的 OCR、Chart 理解,特別是在非英文場(chǎng)景,CLIP 表現(xiàn)出了明顯的編碼低效和 out-of-vocabulary問題。

受語言的 LLMs 啟發(fā),純 NLP 大模型(如 LLaMA)從英文到中文(外語)時(shí)因?yàn)樵荚~表編碼中文效率低,必須要擴(kuò)大 text 詞表。那么對(duì)于現(xiàn)在基于 CLIP 視覺詞表的多模大模型也是一樣的,遇到 “foreign language image”,如一頁論文密密麻麻的文字,很難高效地將圖片 token 化,Vary 提出就是解決這一問題,在不 overwrite 原有詞表前提下,高效擴(kuò)充視覺詞表。

wKgaomWINeOAO9tHAAKXZ72haLU845.png

不同于現(xiàn)有方法直接用現(xiàn)成的 CLIP 詞表,Vary 分兩個(gè)階段:第一階段先用一個(gè)很小的 Decoder-only 網(wǎng)絡(luò)用自回歸方式幫助產(chǎn)生一個(gè)強(qiáng)大的新視覺詞表;然后在第二階段融合新詞表和 CLIP 詞表,從而高效的訓(xùn)練多模大模型擁有新 feature。Vary 的訓(xùn)練方法和模型結(jié)構(gòu)如下圖:

wKgaomWINeOAHvnpAAUprQYQZIE046.png

通過在公開數(shù)據(jù)集以及渲染生成的文檔圖表等數(shù)據(jù)上訓(xùn)練,Vary 極大增強(qiáng)了細(xì)粒度的視覺感知能力。在保持 Vanilla 多模態(tài)能力的同時(shí),激發(fā)出了端到端的中英文圖片、公式截圖和圖表理解能力。

另外,原本可能需要幾千 tokens 的頁面內(nèi)容,通過文檔圖片輸入,信息被Vary壓縮在了 256 個(gè)圖像 tokens 中。這也為進(jìn)一步的頁面分析和總結(jié)提供了更多的想象空間。

目前,Vary 的代碼和模型均已開源,還給出了供大家試玩的網(wǎng)頁 demo。感興趣的小伙伴可以去試試了~

項(xiàng)目主頁:

https://varybase.github.io/

wKgaomWINeOACsCzAAAC0jQz1zo740.svg

參考鏈接

wKgaomWINeOACsCzAAAC0jQz1zo740.svg ?

https://zhuanlan.zhihu.com/p/671420712

· ·


原文標(biāo)題:OCR終結(jié)了?曠視提出可以文檔級(jí)OCR的多模態(tài)大模型框架Vary,支持中英文,已開源!

文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:OCR終結(jié)了?曠視提出可以文檔級(jí)OCR的多模態(tài)大模型框架Vary,支持中英文,已開源!

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    亞馬遜云科技上線Amazon Nova模態(tài)嵌入模型

    Embeddings模態(tài)嵌入模型現(xiàn)已在Amazon Bedrock上線,這是一款專為Agentic RAG與語義搜索應(yīng)用打造的頂尖模態(tài)
    的頭像 發(fā)表于 10-29 17:15 ?98次閱讀
    亞馬遜云科技上線Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嵌入<b class='flag-5'>模型</b>

    米爾RK3576部署端側(cè)模態(tài)輪對(duì)話,6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

    embedding 結(jié)合,啟動(dòng)模態(tài)推理;若不包含,則進(jìn)行純文本推理。組裝輸入結(jié)構(gòu)體并傳遞給模型后,推理結(jié)果將實(shí)時(shí)打印輸出。5. 退出與資源釋放支持用戶輸入“exit”退出程序,此時(shí)
    發(fā)表于 09-05 17:25

    小語種OCR標(biāo)注效率提升10+倍:PaddleOCR+ERNIE 4.5自動(dòng)標(biāo)注實(shí)戰(zhàn)解析

    與一致性校驗(yàn),實(shí)現(xiàn)高精度、低成本的小語種OCR訓(xùn)練數(shù)據(jù)生成。該方案將數(shù)據(jù)準(zhǔn)備周期 從數(shù)周縮短至數(shù)小時(shí) ,為小語種模型的快速迭代與冷啟動(dòng)提供了全新范式 一、引言:小語種OCR的“數(shù)據(jù)之困” 在跨境支付、多語言
    的頭像 發(fā)表于 08-29 11:26 ?3253次閱讀
    小語種<b class='flag-5'>OCR</b>標(biāo)注效率提升10+倍:PaddleOCR+ERNIE 4.5自動(dòng)標(biāo)注實(shí)戰(zhàn)解析

    【嘉楠堪智K230開發(fā)板試用體驗(yàn)】+OCR實(shí)現(xiàn)

    匹配等步驟,將掃描文檔、照片或截圖中的文字準(zhǔn)確識(shí)別并數(shù)字化。OCR廣泛應(yīng)用于文檔電子化、車牌識(shí)別、票據(jù)處理、歷史檔案保存等領(lǐng)域,極大地提升了信息處理的效率與準(zhǔn)確性。隨著深度學(xué)習(xí)的發(fā)展,現(xiàn)代OC
    發(fā)表于 08-23 18:53

    【EASY EAI Orin Nano開發(fā)板試用體驗(yàn)】PP-OCRV5文字識(shí)別實(shí)例搭建與移植

    文字類型方面,PP-OCRv5支持簡(jiǎn)體中文、中文拼音、繁體中文、英文、日文5大主流文字類型,在場(chǎng)景方面, PP-OCRv5升級(jí)了中英復(fù)雜手寫體、豎排文本、生僻字等多種挑戰(zhàn)性場(chǎng)景的識(shí)別能力。 在內(nèi)部
    發(fā)表于 08-18 16:57

    端側(cè)OCR文字識(shí)別實(shí)現(xiàn) -- Core Vision Kit ##HarmonyOS SDK AI##

    ,使用場(chǎng)景中就包括了“通用文字識(shí)別”,即我們前文中所說的ocr功能。 其整體流程概括為: 首先通過各種方法得到一張圖片,例如拍照、從相冊(cè)中選擇、甚至你也可以通過canvas畫布生成的圖片或者通過組件
    發(fā)表于 06-30 18:07

    OCR識(shí)別訓(xùn)練完成后給的是空壓縮包,為什么?

    OCR識(shí)別 一共弄了26張圖片,都標(biāo)注好了,點(diǎn)擊開始訓(xùn)練,顯示訓(xùn)練成功了,也將壓縮包發(fā)到郵箱了,下載下來后,壓縮包里面是空的 OCR圖片20幾張圖太少了。麻煩您添加點(diǎn),參考我們的ocr
    發(fā)表于 05-28 06:46

    愛芯通元NPU適配Qwen2.5-VL-3B視覺模態(tài)模型

    熟悉愛芯通元NPU的網(wǎng)友很清楚,從去年開始我們?cè)诙藗?cè)模態(tài)模型適配上一直處于主動(dòng)緊跟的節(jié)奏。先后適配了國內(nèi)最早開源
    的頭像 發(fā)表于 04-21 10:56 ?2560次閱讀
    愛芯通元NPU適配Qwen2.5-VL-3B視覺<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    ??低?b class='flag-5'>視發(fā)布模態(tài)模型AI融合巡檢超腦

    基于海康觀瀾大模型技術(shù)體系,??低?b class='flag-5'>視推出新一代模態(tài)模型AI融合巡檢超腦,全面升級(jí)人、車、行為、事件等算法,為行業(yè)帶來全新的
    的頭像 發(fā)表于 04-17 17:12 ?1306次閱讀

    模型預(yù)標(biāo)注和自動(dòng)化標(biāo)注在OCR標(biāo)注場(chǎng)景的應(yīng)用

    OCR,即光學(xué)字符識(shí)別,簡(jiǎn)單來說就是利用光學(xué)設(shè)備去捕獲圖像并識(shí)別文字,最終將圖片中的文字轉(zhuǎn)換為可編輯和可搜索的文本。在數(shù)字化時(shí)代,OCR(光學(xué)字符識(shí)別)技術(shù)作為處理圖像中文字信息的關(guān)鍵手段,其標(biāo)注
    的頭像 發(fā)表于 04-15 15:18 ?700次閱讀

    階躍星辰開源模態(tài)模型,天數(shù)智芯迅速適配

    近日,頭部大模型創(chuàng)業(yè)公司階躍星辰在行業(yè)內(nèi)引起了軒然大波,宣布正式開源兩款Step系列模態(tài)模型——Step-Video-T2V視頻生成
    的頭像 發(fā)表于 02-19 14:30 ?804次閱讀

    海康威發(fā)布模態(tài)模型文搜存儲(chǔ)系列產(chǎn)品

    模態(tài)模型為安防行業(yè)帶來重大技術(shù)革新,基于觀瀾大模型技術(shù)體系,??低?b class='flag-5'>視將大參數(shù)量、大樣本量的圖文
    的頭像 發(fā)表于 02-18 10:33 ?999次閱讀

    字節(jié)跳動(dòng)發(fā)布OmniHuman 模態(tài)框架

    2 月 6 日消息,字節(jié)跳動(dòng)近日發(fā)布了一項(xiàng)重大成果 ——OmniHuman 模態(tài)框架,其優(yōu)勢(shì)在于其強(qiáng)大的視頻生成能力。用戶只需提供一張任意尺寸和人物占比的單張圖片,再結(jié)合一段輸入音頻,就能生成
    的頭像 發(fā)表于 02-07 17:50 ?1160次閱讀

    亮相2024數(shù)字科技生態(tài)大會(huì)

    2024數(shù)字科技生態(tài)大會(huì)上,展示了多項(xiàng)聯(lián)網(wǎng)領(lǐng)域的前沿技術(shù)及應(yīng)用成果,包括大模型、行業(yè)場(chǎng)景方案以及創(chuàng)新智能終端。
    的頭像 發(fā)表于 12-06 10:34 ?1019次閱讀