chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

PaddleOCR MCP Server 實戰(zhàn):3步將OCR和文檔解析輕松集成到 AI智能體

jf_23871869 ? 來源:jf_23871869 ? 作者:jf_23871869 ? 2025-09-12 18:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一,為什么文檔 AI 智能體需要PaddleOCR MCP Server?

在構(gòu)建面向報告分析、合同信息提取或科研論文總結(jié)等場景的文檔 AI 智能體時,解析PDF格式文件及掃描版圖像文檔往往成為大語言模型(LLM)的痛點(diǎn)。這是因為LLM本質(zhì)是語言模型,能處理字符序列,卻無法直接解析圖像或PDF文件的內(nèi)容。

PaddleOCR MCP Server 將 PaddleOCR 的文字識別和文檔解析能力,以MCP工具的形式提供給 AI 智能體,從而讓 AI 智能體能夠直接處理文檔內(nèi)容,而無需手動提取文本。

二,什么是PaddleOCR MCP Server?

PaddleOCR MCP Server 是一個輕量級 Model Context Protocol (MCP) 服務(wù),專為將 PaddleOCR 的文檔理解能力無縫集成到文檔AI智能體而設(shè)計,讓AI智能體能夠按需調(diào)用文字識別或文檔解析工具,如下圖所示,實現(xiàn)從圖像/PDF中提取結(jié)構(gòu)化信息:

  • OCR:文字識別工具,從圖像/PDF 提取高質(zhì)量文本。
  • PP-StructureV3:文檔解析工具,從圖像/PDF中提取表格、標(biāo)題、段落和公式等文檔元素,并以Markdown/JSON格式輸出。

視頻鏈接:[PaddleOCR MCP Server 實戰(zhàn):3步將OCR和文檔解析輕松集成到 AI智能體 (qq.com)]
PaddleOCR MCP Server 提供三種部署模式,適配大多數(shù)智能體場景:

三,三步將 PaddleOCR MCP Server 集成到你的 AI 智能體

本節(jié)將以本地部署為例,介紹如何將 PaddleOCR 集成到你的智能體中。

步驟 1??:安裝 PaddleOCR MCP Server

# 創(chuàng)建并激活虛擬環(huán)境 (推薦)
conda create -n ocr-env python=3.11
conda activate ocr-env
# 安裝PaddlePaddle GPU版本 (根據(jù)您的CUDA版本選擇合適的版本)
pip install paddlepaddle-gpu==3.1.1 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
python -c "import paddle; paddle.utils.run_check()"  # 驗證PaddlePaddle安裝是否成功
# 安裝PaddleOCR
pip install paddleocr[doc-parser]
# 安裝PaddleOCR MCP Server
git clone https://github.com/PaddlePaddle/PaddleOCR.git
cd PaddleOCR
pip install -e mcp_server

安裝完畢后,運(yùn)行以下命令,若出現(xiàn)下圖所示的運(yùn)行信息,則說明安裝成功:

paddleocr_mcp --pipeline OCR --ppocr_source local --port 8234  --http

步驟 2??:配置PaddleOCR MCP Server

首先,打開兩個命令行窗口,分別運(yùn)行以下命令,啟動PaddleOCR MCP ServerOCR和PP-StructureV3服務(wù):

# 啟動PaddleOCR OCR MCP Server
paddleocr_mcp --pipeline OCR --ppocr_source local --port 8234  --http
# 啟動PaddleOCR PP-StructureV3 MCP Server
paddleocr_mcp --pipeline PP-StructureV3 --ppocr_source local --port 9234  --http

然后,在你的 AI 智能體 MCP 配置文件中(例如:mcp_settings.json)添加以下內(nèi)容:

{
  "mcpServers": {
    "pp-ocrv5": {
      "isActive": true,
      "name": "PP-OCRv5 (local)",
      "type": "streamableHttp",
      "description": "Local PP-OCRv5 pipeline for text recognition.",
      "tags": [],
      "baseUrl": "http://127.0.0.1:8234/mcp"
    },
    "pp-structurev3": {
      "isActive": true,
      "name": "PP-StructureV3 (local)",
      "type": "streamableHttp",
      "description": "Local PP-StructureV3 pipeline for document parser.",
      "tags": [],
      "baseUrl": "http://127.0.0.1:9234/mcp"
    }
  }
}

以Cherry Studio為例,在Settings中選擇 MCP,并把上述配置復(fù)制到JSON編輯框,然后點(diǎn)擊OK按鈕即可。

https://www.cherry-ai.com/

配置成功后,會有一個小綠點(diǎn)出現(xiàn),如下圖所示:

步驟 3??:在智能體中調(diào)用PaddleOCR MCP Server的能力

當(dāng)PaddleOCR MCP Server配置成功后,僅需要在智能體中使用具有function-call能力的大語言模型,即可調(diào)用 PaddleOCR MCP Server的工具。以Cherry Studio為例,在智能體中調(diào)用OCR工具的示例如下:

Prompt: What's in the picture: /home/ppov/Pictures/ocr_test.jpeg

圖片

在智能體中調(diào)用PP-StructureV3工具的示例如下:

Prompt: Extract the table from:/home/ppov/Desktop/test_document.pdf, and output markdown format table

四,總結(jié)與展望

PaddleOCR MCP Server是 AI 智能體理解圖片和PDF文檔的橋梁。通過3 步將OCR和文檔解析輕松集成到 AI 智能體 —— 相當(dāng)于讓AI智能體獲得了“閱讀”文檔的能力,拓展了AI智能體的能力邊界。

下一步與資源

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    89

    文章

    38121

    瀏覽量

    296676
  • OCR
    OCR
    +關(guān)注

    關(guān)注

    0

    文章

    170

    瀏覽量

    17052
  • MCP
    MCP
    +關(guān)注

    關(guān)注

    0

    文章

    286

    瀏覽量

    14910
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    PP-OCRv5 MCP服務(wù)器在海光主板的部署與實戰(zhàn)

    在當(dāng)今數(shù)字化快速發(fā)展的時代,OCR(光學(xué)字符識別)技術(shù)已經(jīng)成為從圖像中提取文本信息的重要工具。無論是在自動化辦公、智能文檔處理還是在內(nèi)容創(chuàng)作領(lǐng)域,OCR 技術(shù)的應(yīng)用都極大地提高了工作效
    的頭像 發(fā)表于 10-15 17:04 ?580次閱讀
    PP-OCRv5 <b class='flag-5'>MCP</b>服務(wù)器在海光主板的部署與<b class='flag-5'>實戰(zhàn)</b>

    智能硬件通過小聆AI自定義MCP應(yīng)用開發(fā)操作講解

    智能硬件通過小聆AI自定義MCP應(yīng)用開發(fā)操作講解 前言 MCP(Modular Communication Protocol,模塊化通信協(xié)議)為智能
    發(fā)表于 10-14 15:50

    【內(nèi)測活動同步開啟】這么小?這么強(qiáng)?新一代大模型MCP開發(fā)板來啦!

    噪,無懼嘈雜環(huán)境 云端接入小聆AI,輕松實現(xiàn)個性化定制 搭載領(lǐng)先大模型全鏈路技術(shù):小聆AI 智能語音交互方案 集成情緒感知與表達(dá) :支持情感
    發(fā)表于 09-25 11:47

    精準(zhǔn)定位性能瓶頸:深入解析 PaddleOCR v3.2 全新 Benchmark 功能

    飛槳技術(shù)生態(tài)伙伴 算力魔方 | 摘要:在實際落地OCR和文檔解析項目時,大家常常會遇到一個棘手問題:模型跑得不夠快,但到底是檢測太慢、識別耗時,還是模塊之間的數(shù)據(jù)流轉(zhuǎn)不高效?PaddleOCR
    的頭像 發(fā)表于 09-05 16:02 ?719次閱讀
    精準(zhǔn)定位性能瓶頸:深入<b class='flag-5'>解析</b> <b class='flag-5'>PaddleOCR</b> v3.2 全新 Benchmark 功能

    小語種OCR標(biāo)注效率提升10+倍:PaddleOCR+ERNIE 4.5自動標(biāo)注實戰(zhàn)解析

    與一致性校驗,實現(xiàn)高精度、低成本的小語種OCR訓(xùn)練數(shù)據(jù)生成。該方案數(shù)據(jù)準(zhǔn)備周期 從數(shù)周縮短至數(shù)小時 ,為小語種模型的快速迭代與冷啟動提供了全新范式 一、引言:小語種OCR的“數(shù)據(jù)之困” 在跨境支付、多語言
    的頭像 發(fā)表于 08-29 11:26 ?3276次閱讀
    小語種<b class='flag-5'>OCR</b>標(biāo)注效率提升10+倍:<b class='flag-5'>PaddleOCR</b>+ERNIE 4.5自動標(biāo)注<b class='flag-5'>實戰(zhàn)</b><b class='flag-5'>解析</b>

    【HZ-T536開發(fā)板免費(fèi)體驗】5- 無需死記 Linux 命令!用 CangjieMagic 在 HZ-T536 開發(fā)板上搭建 MCP 服務(wù)器,自然語言輕松控板

    體驗】2 - 交叉編譯倉頡編程語言程序開發(fā)板運(yùn)行 - 北京合眾恒躍科技有限公司 - 電子技術(shù)論壇 - 廣受歡迎的專業(yè)電子論壇!); CangjieMagic SDK(基于倉頡編程語言的智能框架
    發(fā)表于 08-23 13:10

    【EASY EAI Orin Nano開發(fā)板試用體驗】PP-OCRV5文字識別實例搭建與移植

    復(fù)雜評估集上,PP-OCRv5較PP-OCRv4端端提升13個百分點(diǎn)。一般來說,使用瑞芯微這種帶有NPU的主控進(jìn)行OCR文字識別,識別效率遠(yuǎn)超直接使用MCU進(jìn)行識別,并且功耗還低。 要使
    發(fā)表于 08-18 16:57

    端側(cè)OCR文字識別實現(xiàn) -- Core Vision Kit ##HarmonyOS SDK AI##

    在開發(fā)的時候,是完全沒有辦法確定到時候?qū)嶋H操作中,到底是不是正向的。 另外還有一點(diǎn)要注意的,就是在完成以后,要釋放OCR服務(wù),這一點(diǎn)在textRecognition的文檔里有提及,對于釋放這一
    發(fā)表于 06-30 18:07

    在Cherry Studio中快速使用markitdown MCP Server?

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 Cherry Studio是一款跨平臺的集成AI大模型和知識庫、網(wǎng)絡(luò)搜索、MCP服務(wù)器等相關(guān)工具桌面客戶端應(yīng)用程序,方便用戶配置出自己的AI
    的頭像 發(fā)表于 05-15 10:39 ?1301次閱讀
    在Cherry Studio中快速使用markitdown <b class='flag-5'>MCP</b> <b class='flag-5'>Server</b>?

    如何用FastMCP快速開發(fā)自己的MCP Server

    的感受到了基于AI大模型和 MCP可以非常方便的構(gòu)建自己的AI智能工作流。在此基礎(chǔ)上,不少讀者咨詢,如何將自己已有的工具或函數(shù),制作成
    的頭像 發(fā)表于 05-07 16:07 ?2450次閱讀
    如何用FastMCP快速開發(fā)自己的<b class='flag-5'>MCP</b> <b class='flag-5'>Server</b>?

    MCP百度地圖能力輕松接入DeepSeek

    是如何百度地圖的能力接入DeepSeek。本文詳細(xì)介紹通過MCP百度地圖的能力接入DeepSeek,為用戶提供精準(zhǔn)的智能規(guī)劃服務(wù)。 一
    的頭像 發(fā)表于 03-31 11:05 ?1692次閱讀
    用<b class='flag-5'>MCP</b><b class='flag-5'>將</b>百度地圖能力<b class='flag-5'>輕松</b>接入DeepSeek

    《零基礎(chǔ)開發(fā)AI Agent——手把手教你用扣子做智能

    Agent開發(fā)的核心技能。即使沒有編程基礎(chǔ),也能通過本書輕松上手,設(shè)計出屬于自己的智能。無論是個人興趣還是企業(yè)應(yīng)用,這本書都能為我打開AI世界的大門,抓住
    發(fā)表于 03-18 12:03

    AI Agent 應(yīng)用與項目實戰(zhàn)》閱讀心得3——RAG架構(gòu)與部署本地知識庫

    則將檢索的內(nèi)容與原始查詢結(jié)合,生成最終響應(yīng)。這種設(shè)計使得AI系統(tǒng)能夠突破訓(xùn)練數(shù)據(jù)的限制,實現(xiàn)知識的動態(tài)更新。書中詳細(xì)介紹了RAG的完整工作流程:從數(shù)據(jù)提取開始,通過文本分割文檔
    發(fā)表于 03-07 19:49

    AI Agent 應(yīng)用與項目實戰(zhàn)》----- 學(xué)習(xí)如何開發(fā)視頻應(yīng)用

    用戶的視頻生成請求和展示生成的視頻結(jié)果。 前端界面與語聚AI平臺中的AI助手進(jìn)行集成,確保前端能夠正確地調(diào)用AI助手的功能并接收返回的視頻
    發(fā)表于 03-05 19:52

    名單公布!【書籍評測活動NO.55】AI Agent應(yīng)用與項目實戰(zhàn)

    日程預(yù)測性地調(diào)整了今天的工作安排。 在近日的Agent OpenDay上,智譜AI展示了在AI Agent(智能)方面最新成果,發(fā)布了用AI
    發(fā)表于 01-13 11:04