PaddleOCR 發(fā)版 v2.6,帶來全新升級(jí)的 PP-StructureV2 智能文檔分析系統(tǒng),實(shí)現(xiàn)一鍵 PDF 轉(zhuǎn) Word。歡迎廣大開發(fā)者使用 NVIDIA 與飛槳共同深度適配的 NGC 飛槳容器在 NVIDIA GPU 上體驗(yàn)!
1. PaddleOCR v2.6 版本升級(jí)
隨著企業(yè)數(shù)字化進(jìn)程不斷加速,PDF 轉(zhuǎn) Word 的功能、紙質(zhì)文本的電子化存儲(chǔ)、文件復(fù)原與二次編輯、信息檢索等應(yīng)用都有著強(qiáng)烈的企業(yè)需求。目前市面上已有一些軟件,但普遍需要繁瑣的安裝注冊操作,大多還存在額度限制。此外,最終轉(zhuǎn)換效果也依賴于版面形態(tài),無法做到針對性適配。
針對開發(fā)者的需求,飛槳文字識(shí)別套件 PaddleOCR 全新發(fā)布 PP-StructureV2 智能文檔分析系統(tǒng),支持一行命令實(shí)現(xiàn) PDF 轉(zhuǎn) Word 功能,文字、表格、標(biāo)題、圖片都可完整恢復(fù),一鍵實(shí)現(xiàn) PDF 編輯自由!

文檔分析示例
PP-StructureV2 智能文檔分析系統(tǒng)升級(jí)點(diǎn)包括以下 2 方面:
系統(tǒng)功能升級(jí):新增圖像矯正和版面復(fù)原模塊,支持標(biāo)準(zhǔn)格式 PDF 和圖片格式 PDF 解析!
系統(tǒng)性能優(yōu)化:
版面分析:發(fā)布輕量級(jí)版面分析模型,速度提升 11 倍,平均 CPU 耗時(shí)僅需 41ms!
表格識(shí)別:設(shè)計(jì) 3 大優(yōu)化策略,預(yù)測耗時(shí)不變情況下,模型精度提升 6%。
關(guān)鍵信息抽取:設(shè)計(jì)視覺無關(guān)模型結(jié)構(gòu),語義實(shí)體識(shí)別精度提升 2.8%,關(guān)系抽取精度提升超過 9.1%。
GitHub 傳送門:
https://github.com/PaddlePaddle/PaddleOCR
1.1 PP-StructureV2 智能文檔分析系統(tǒng)優(yōu)化策略概述
PP-StructureV2 系統(tǒng)流程圖如下所示,文檔圖像首先經(jīng)過圖像矯正模塊,判斷整圖方向并完成轉(zhuǎn)正,隨后可以完成版面信息分析與關(guān)鍵信息抽取 2 類任務(wù)。

在版面分析任務(wù)中,圖像首先經(jīng)過版面分析模型,將圖像劃分為文本、表格、圖像等不同區(qū)域,隨后對這些區(qū)域分別進(jìn)行識(shí)別,如,將表格區(qū)域送入表格識(shí)別模塊進(jìn)行結(jié)構(gòu)化識(shí)別,將文本區(qū)域送入 OCR 引擎進(jìn)行文字識(shí)別,最后使用版面恢復(fù)模塊將其恢復(fù)為與原始圖像布局一致的 Word 或者 PDF 格式的文件。
在關(guān)鍵信息抽取任務(wù)中,首先使用 OCR 引擎提取文本內(nèi)容,然后由語義實(shí)體識(shí)別模塊獲取圖像中的語義實(shí)體,最后經(jīng)關(guān)系抽取模塊獲取語義實(shí)體之間的對應(yīng)關(guān)系,從而提取需要的關(guān)鍵信息。
從算法改進(jìn)思路來看,對系統(tǒng)中的 3 個(gè)關(guān)鍵子模塊,共進(jìn)行了 8 個(gè)方面的改進(jìn):
版面分析
PP-PicoDet:輕量級(jí)版面分析模型
FGD:兼顧全局與局部特征的模型蒸餾算法
表格識(shí)別
PP-LCNet: CPU 友好型輕量級(jí)骨干網(wǎng)絡(luò)
CSP-PAN:輕量級(jí)高低層特征融合模塊
SLAHead:結(jié)構(gòu)與位置信息對齊的特征解碼模塊
關(guān)鍵信息抽取
VI-LayoutXLM:視覺特征無關(guān)的多模態(tài)預(yù)訓(xùn)練模型結(jié)構(gòu)
TB-YX:考慮閱讀順序的文本行排序邏輯
UDML:聯(lián)合互學(xué)習(xí)知識(shí)蒸餾策略
最終,與 PP-StructureV1 相比:
版面分析模型參數(shù)量減少 95%,推理速度提升 11 倍,精度提升 0.4%;
表格識(shí)別預(yù)測耗時(shí)不變,模型精度提升 6%,端到端 TEDS 提升 2%;
關(guān)鍵信息抽取模型速度提升 2.8 倍,語義實(shí)體識(shí)別模型精度提升 2.8%;關(guān)系抽取模型精度提升 9.1%。
PP-StructureV2 優(yōu)化詳細(xì)策略解析三日課回放,可以掃描下方二維碼,加入 PaddleOCR 官方交流群獲取。除此之外,入群福利還包括:社區(qū)開發(fā)者基于 PP-StructureV2 開發(fā)的 PDF2Word 應(yīng)用程序、《動(dòng)手學(xué) OCR》電子書、10 個(gè) OCR 場景應(yīng)用垂類模型等。
PP-StructureV2 技術(shù)報(bào)告:
https://arxiv.org/abs/2210.05391v2
2. NGC 飛槳容器介紹
如果您希望體驗(yàn) PaddleOCRv2.6 的新特性,歡迎使用 NGC 飛槳容器。NVIDIA 與百度飛槳共同開發(fā)了 NGC 飛槳容器,將最新版本的飛槳與最新的 NVIDIA 的軟件棧(如 CUDA)進(jìn)行了無縫的集成與性能優(yōu)化,最大程度的釋放飛槳框架在 NVIDIA 最新硬件上的計(jì)算能力。這樣,用戶不僅可以快速開啟 AI 應(yīng)用,專注于創(chuàng)新和應(yīng)用本身,還能夠在 AI 訓(xùn)練和推理任務(wù)上獲得飛槳+NVIDIA 帶來的飛速體驗(yàn)。
最佳的開發(fā)環(huán)境搭建工具 - 容器技術(shù)。
容器其實(shí)是一個(gè)開箱即用的服務(wù)器。極大降低了深度學(xué)習(xí)開發(fā)環(huán)境的搭建難度。例如你的開發(fā)環(huán)境中包含其他依賴進(jìn)程(redis,MySQL,Ngnix,selenium-hub等等),或者你需要進(jìn)行跨操作系統(tǒng)級(jí)別的遷移。
容器鏡像方便了開發(fā)者的版本化管理
容器鏡像是一種易于復(fù)現(xiàn)的開發(fā)環(huán)境載體
容器技術(shù)支持多容器同時(shí)運(yùn)行
最好的 PaddlePaddle 容器
NGC 飛槳容器針對 NVIDIA GPU 加速進(jìn)行了優(yōu)化,并包含一組經(jīng)過驗(yàn)證的庫,可啟用和優(yōu)化 NVIDIA GPU 性能。此容器還可能包含對 PaddlePaddle 源代碼的修改,以最大限度地提高性能和兼容性。此容器還包含用于加速 ETL (DALI, RAPIDS)、訓(xùn)練(cuDNN, NCCL)和推理 (TensorRT)工作負(fù)載的軟件。
PaddlePaddle 容器具有以下優(yōu)點(diǎn):
適配最新版本的 NVIDIA 軟件棧(例如最新版本 CUDA),更多功能,更高性能。
更新的 Ubuntu 操作系統(tǒng),更好的軟件兼容性
按月更新
滿足 NVIDIA NGC 開發(fā)及驗(yàn)證規(guī)范,質(zhì)量管理
通過飛槳官網(wǎng)快速獲取
環(huán)境準(zhǔn)備
使用 NGC 飛槳容器需要主機(jī)系統(tǒng)(Linux)安裝以下內(nèi)容:
Docker 引擎
NVIDIA GPU 驅(qū)動(dòng)程序
NVIDIA 容器工具包
有關(guān)支持的版本,請參閱 NVIDIA 框架容器支持矩陣和 NVIDIA 容器工具包文檔。
不需要其他安裝、編譯或依賴管理。無需安裝 NVIDIA CUDA Toolkit。
3. 飛槳與 NVIDIA NGC 合作介紹
目前飛槳已擁有超過 470 萬的開發(fā)者。而在過去五年,飛槳與 NVIDIA 團(tuán)隊(duì)緊密合作,雙方深度融合,做了大量適配工作。
今年,NVIDIA 在國內(nèi)也已經(jīng)設(shè)立了專門的工程團(tuán)隊(duì)支持,賦能飛槳生態(tài)。
而為了讓更多的開發(fā)者能用上基于 NVIDIA 最新的高性能硬件和軟件棧。當(dāng)前,NVIDIA 團(tuán)隊(duì)正在進(jìn)行全新一代 GPU 的適配工作,以及提高飛槳對 CUDA Operation API 的使用率,讓飛槳的開發(fā)者擁有優(yōu)秀的用戶體驗(yàn)及極致性能。
以上的各種適配,僅僅是讓飛槳的開發(fā)者擁有高性能的推理訓(xùn)練成為可能。但是,這些離行業(yè)開發(fā)者還很遠(yuǎn),門檻還很高,難度還很大。
為此,我們將剛剛這些集成和優(yōu)化工作,整合到三大產(chǎn)品線中。其中 NGC 飛槳容器最為閃亮。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5494瀏覽量
109016 -
存儲(chǔ)
+關(guān)注
關(guān)注
13文章
4687瀏覽量
89532 -
gpu
+關(guān)注
關(guān)注
28文章
5090瀏覽量
134392 -
飛槳
+關(guān)注
關(guān)注
0文章
37瀏覽量
2613
原文標(biāo)題:在 NVIDIA NGC 上體驗(yàn)一鍵 PDF 轉(zhuǎn) Word
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評(píng)論請先 登錄
NVIDIA RTX PRO 2000 Blackwell GPU性能測試
智能變槳:基于DSP與CPLD協(xié)同處理的高動(dòng)態(tài)飛行器主槳電動(dòng)變槳距伺服控制系統(tǒng)
飛槳PaddleMaterials完成與沐曦AI芯片深度適配
沐曦與百度飛槳PaddleScience實(shí)現(xiàn)全面深度適配
NVIDIA RTX PRO 4500 Blackwell GPU測試分析
NVIDIA桌面GPU系列擴(kuò)展新產(chǎn)品
NVIDIA NVLink 深度解析
燧原科技正式納入飛槳例行版本發(fā)布體系
百度飛槳框架3.0正式版發(fā)布
沐曦曦云C500通用計(jì)算GPU與百度飛槳完成Ⅱ級(jí)兼容性測試
使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)
NVIDIA GPU助力科研人員探索外星世界
如何在C#中部署飛槳PP-OCRv4模型

NVIDIA與飛槳共同深度適配的NGC飛槳容器在NVIDIA GPU上體驗(yàn)
評(píng)論