开发者说|基于PaddleOCR×LangChain,ClawMaster让文档智能体10分钟跑起来
该工具以PaddleOCR作为文档解析入口,结合OpenClaw的Agent编排能力、PowerMem的记忆沉淀能力,并接入星河社区API、ERNIE-Image等平台及模型能力,帮助开发者更低门槛地完成从文档输入、OCR解析、结构化输出,到Agent推理、记忆沉淀与内容生成的完整流程。发票、截图、论文、会议白板、表格、票据等非结构化内容,不仅需要被OCR“识别出来”,更需要进一步进入Agent工

引言
在大模型应用走向真实业务场景的过程中,文档是企业知识进入AI系统的重要入口。发票、截图、论文、会议白板、表格、票据等非结构化内容,不仅需要被OCR“识别出来”,更需要进一步进入Agent工作流,被理解、追问、汇总、记忆与复用。
基于PaddleOCR与LangChain社区的集成合作,文心飞桨开发者进一步搭建了可视化管理工具ClawMaster。该工具以PaddleOCR作为文档解析入口,结合OpenClaw的Agent编排能力、PowerMem的记忆沉淀能力,并接入星河社区API、ERNIE-Image等平台及模型能力,帮助开发者更低门槛地完成从文档输入、OCR解析、结构化输出,到Agent推理、记忆沉淀与内容生成的完整流程。
ClawMaster项目地址
👉https://github.com/openmaster-ai/clawmaster

基于PaddleOCR能力
ClawMaster打通文档智能体工作流
目前,ClawMaster已将PaddleOCR文档解析能力、OpenClaw Agent编排能力、PowerMem记忆沉淀能力整合到一个可视化管理面板中,让开发者无需反复修改复杂JSON配置,即可快速搭建文档智能体应用。
其中,PaddleOCR承担了文档智能体的“视觉入口”角色。开发者可在ClawMaster中启用paddleocr-doc-parsing,并通过星河社区-PaddleOCR官网API接入PaddleOCR文档解析能力。只需将图片、截图或扫描件放入工作区,并通过自然语言下达任务,Agent就能自动从技能目录中调用PaddleOCR,完成版面分析、文字识别、表格/公式/图表等元素解析,并输出结构化Markdown。

ClawMaster实现将文档智能从单点OCR调用升级为连续工作流。例如,在发票处理场景中,开发者可以通过Agent自动识别发票图片,提取金额、日期、税号并汇总成表格;在论文截图和公式解析场景中,PaddleOCR支持将公式、图表和正文解析为结构化Markdown,Agent进一步完成公式解释和内容问答;在会议白板场景中,OCR结果还可以被Agent提取为Action Items,并写入PowerMem记忆库,在后续会议前自动召回历史待办。
从能力链路来看,ClawMaster将文档智能体拆解为三个关键环节:PaddleOCR负责看懂文档,OpenClaw负责组织任务,PowerMem负责沉淀记忆。由此,OCR结果不再是一次性输出,而是进一步进入“识别—理解—执行—记忆”的智能体闭环,真正成为可调用、可追问、可复用的数据。
星河社区一键调用模型
让Agent从“能用”走向“好用”
ClawMaster支持对OpenClaw的配置、监控、记忆与技能管理进行可视化封装,帮助开发者更快完成文档智能体应用的搭建、调试与运行管理。
能力接入方面,借助PaddleOCR Skills,开发者无需从零部署模型或编写复杂调用逻辑,即可将发票、会议纪要、论文截图、表格、票据等内容解析为结构化Markdown,为后续大模型理解、信息抽取和业务问答提供稳定输入。同时,ClawMaster进一步接入ERNIE-Image等文心大模型能力,让应用从文档解析拓展到生成式配图、内容生成与多模态探索,形成由文心大模型、飞桨星河社区、PaddleOCR、OpenClaw共同支撑的AI应用开发链路。
PaddleOCR官网
👉https://aistudio.baidu.com/paddleocr
ERNIE-Image体验地址
👉https://aistudio.baidu.com/ernieimage


工程体验方面,ClawMaster将原本复杂的OpenClaw JSON配置转化为向导式操作,并提供Token消耗、费用估算、Gateway状态、响应延迟等可观测能力。结合PowerMem,OCR结果与对话上下文还可自动写入、检索和召回,使文档处理从“单次任务”走向“持续业务记忆”。此外,ClawMaster通过Cron定时任务探索Agent自动运维能力,可用于成本日报、下载量追踪、监控数据分析等场景,进一步拓展了PaddleOCR+Agent工作流的应用边界。
除了文档处理,ClawMaster还进一步探索了Agent自动运维能力。通过内置Cron定时任务,开发者可以让OpenClaw Agent定期生成成本日报、追踪npm/PyPI包下载量、读取监控数据并写入PowerMem。下一次任务运行时,Agent可以先检索历史基线,再完成更新与分析。基于此,Agent不仅可以处理文档,也可以参与开发者日常运维、数据追踪和自动化管理流程。
相关任务地址:
clawmaster-workshop/math-quiz-vision-webui
clawmaster-workshop/cron-cost-digest
clawmaster-workshop/cron-package-downloads-tracker
10分钟跑通PaddleOCR+OpenClaw
为帮助更多开发者快速体验,ClawMaster提供了桌面应用、CLI和源码三种使用方式。
开发者可通过GitHub Releases下载对应平台安装包,支持macOS、Windows和Linux。安装后跟随设置向导,即可在本地快速跑通PaddleOCR+OpenClaw文档智能体工作流。
同时支持通过CLI轻量启动:
npm i -g clawmasterclawmaster doctorclawmaster serve
在浏览器打开:
http://localhost:16223
输入终端token后即可进入管理面板。
开发者也可从源码启动:
git clone https://github.com/openmaster-ai/clawmaster.gitcd clawmaster && npm installnpm run dev:webnpm run tauri:dev
PaddleOCR相关代码已合并:
https://github.com/openmaster-ai/clawmaster/pull/125
项目地址:
https://github.com/openmaster-ai/clawmaster
PowerMem插件:
https://github.com/ob-labs/memory-powermem
欢迎更多开发者体验和测试ClawMaster,在GitHub提交Issue、参与Discussion,或贡献新的文档智能体模板。
百度文心飞桨将持续携手OpenClaw、LangChain、OceanBase、Dify、RAGFlow等开源社区与开发者伙伴,围绕文档智能、Agent工作流、多模态理解、企业知识资产化等方向深化共建,推动PaddleOCR从“看得见”进一步走向“看得懂、用得上、跑得通”。
我们期待开发者基于文心飞桨与主流开源脚手架集成持续应用实践,构建更多面向真实场景的AI应用产品。让我们一起开源协作,共同探索大模型时代的文档智能新范式。
*本文系Langchain社区官方大使张海立供稿。

关注【飞桨PaddlePaddle】公众号
获取更多技术内容~
更多推荐






所有评论(0)