图片

引言

在大模型应用走向真实业务场景的过程中,文档是企业知识进入AI系统的重要入口。发票、截图、论文、会议白板、表格、票据等非结构化内容,不仅需要被OCR“识别出来”,更需要进一步进入Agent工作流,被理解、追问、汇总、记忆与复用。

基于PaddleOCR与LangChain社区的集成合作,文心飞桨开发者进一步搭建了可视化管理工具ClawMaster。该工具以PaddleOCR作为文档解析入口,结合OpenClaw的Agent编排能力、PowerMem的记忆沉淀能力,并接入星河社区API、ERNIE-Image等平台及模型能力,帮助开发者更低门槛地完成从文档输入、OCR解析、结构化输出,到Agent推理、记忆沉淀与内容生成的完整流程。

ClawMaster项目地址

👉https://github.com/openmaster-ai/clawmaster

基于PaddleOCR能力

ClawMaster打通文档智能体工作流

目前,ClawMaster已将PaddleOCR文档解析能力、OpenClaw Agent编排能力、PowerMem记忆沉淀能力整合到一个可视化管理面板中,让开发者无需反复修改复杂JSON配置,即可快速搭建文档智能体应用。

其中,PaddleOCR承担了文档智能体的“视觉入口”角色。开发者可在ClawMaster中启用paddleocr-doc-parsing,并通过星河社区-PaddleOCR官网API接入PaddleOCR文档解析能力。只需将图片、截图或扫描件放入工作区,并通过自然语言下达任务,Agent就能自动从技能目录中调用PaddleOCR,完成版面分析、文字识别、表格/公式/图表等元素解析,并输出结构化Markdown。

ClawMaster实现将文档智能从单点OCR调用升级为连续工作流。例如,在发票处理场景中,开发者可以通过Agent自动识别发票图片,提取金额、日期、税号并汇总成表格;在论文截图和公式解析场景中,PaddleOCR支持将公式、图表和正文解析为结构化Markdown,Agent进一步完成公式解释和内容问答;在会议白板场景中,OCR结果还可以被Agent提取为Action Items,并写入PowerMem记忆库,在后续会议前自动召回历史待办。

从能力链路来看,ClawMaster将文档智能体拆解为三个关键环节:PaddleOCR负责看懂文档,OpenClaw负责组织任务,PowerMem负责沉淀记忆。由此,OCR结果不再是一次性输出,而是进一步进入“识别—理解—执行—记忆”的智能体闭环,真正成为可调用、可追问、可复用的数据。

星河社区一键调用模型

让Agent从“能用”走向“好用”

ClawMaster支持对OpenClaw的配置、监控、记忆与技能管理进行可视化封装,帮助开发者更快完成文档智能体应用的搭建、调试与运行管理。

能力接入方面,借助PaddleOCR Skills,开发者无需从零部署模型或编写复杂调用逻辑,即可将发票、会议纪要、论文截图、表格、票据等内容解析为结构化Markdown,为后续大模型理解、信息抽取和业务问答提供稳定输入。同时,ClawMaster进一步接入ERNIE-Image等文心大模型能力,让应用从文档解析拓展到生成式配图、内容生成与多模态探索,形成由文心大模型、飞桨星河社区、PaddleOCR、OpenClaw共同支撑的AI应用开发链路。

PaddleOCR官网

👉https://aistudio.baidu.com/paddleocr

ERNIE-Image体验地址

👉https://aistudio.baidu.com/ernieimage

工程体验方面,ClawMaster将原本复杂的OpenClaw JSON配置转化为向导式操作,并提供Token消耗、费用估算、Gateway状态、响应延迟等可观测能力。结合PowerMem,OCR结果与对话上下文还可自动写入、检索和召回,使文档处理从“单次任务”走向“持续业务记忆”。此外,ClawMaster通过Cron定时任务探索Agent自动运维能力,可用于成本日报、下载量追踪、监控数据分析等场景,进一步拓展了PaddleOCR+Agent工作流的应用边界。

除了文档处理,ClawMaster还进一步探索了Agent自动运维能力。通过内置Cron定时任务,开发者可以让OpenClaw Agent定期生成成本日报、追踪npm/PyPI包下载量、读取监控数据并写入PowerMem。下一次任务运行时,Agent可以先检索历史基线,再完成更新与分析。基于此,Agent不仅可以处理文档,也可以参与开发者日常运维、数据追踪和自动化管理流程。

相关任务地址:

clawmaster-workshop/math-quiz-vision-webui

clawmaster-workshop/cron-cost-digest

clawmaster-workshop/cron-package-downloads-tracker

10分钟跑通PaddleOCR+OpenClaw

为帮助更多开发者快速体验,ClawMaster提供了桌面应用、CLI和源码三种使用方式。

开发者可通过GitHub Releases下载对应平台安装包,支持macOS、Windows和Linux。安装后跟随设置向导,即可在本地快速跑通PaddleOCR+OpenClaw文档智能体工作流。

同时支持通过CLI轻量启动:

npm i -g clawmasterclawmaster doctorclawmaster serve

在浏览器打开:

http://localhost:16223

输入终端token后即可进入管理面板。

开发者也可从源码启动:

git clone https://github.com/openmaster-ai/clawmaster.gitcd clawmaster && npm installnpm run dev:webnpm run tauri:dev

PaddleOCR相关代码已合并:

https://github.com/openmaster-ai/clawmaster/pull/125

项目地址:

https://github.com/openmaster-ai/clawmaster

PowerMem插件:

https://github.com/ob-labs/memory-powermem

欢迎更多开发者体验和测试ClawMaster,在GitHub提交Issue、参与Discussion,或贡献新的文档智能体模板。

百度文心飞桨将持续携手OpenClaw、LangChain、OceanBase、Dify、RAGFlow等开源社区与开发者伙伴,围绕文档智能、Agent工作流、多模态理解、企业知识资产化等方向深化共建,推动PaddleOCR从“看得见”进一步走向“看得懂、用得上、跑得通”。

我们期待开发者基于文心飞桨与主流开源脚手架集成持续应用实践,构建更多面向真实场景的AI应用产品。让我们一起开源协作,共同探索大模型时代的文档智能新范式。

*本文系Langchain社区官方大使张海立供稿。

图片

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐