PDF 发票提取技能包：MinerU + Agent Skill，零模型零 GPU 方案

m0_37592900

765人浏览 · 2026-06-03 17:45:00

m0_37592900 · 2026-06-03 17:45:00 发布

起因

财务拿了几十张发票 PDF 过来，让帮忙把发票数据提出来。
在这里插入图片描述

想着 Agent 干这事还不是分分钟——结果试了一圈傻眼了。pymupdf 提取出来排版全乱，表格散了；marker-pdf 装完 3-5GB 模型 Windows 上还跑不起来。折腾半天，不如手动复制粘贴。

这才发现 Agent Skill 生态里 PDF 这块的货基本都是教 AI 怎么调 PyMuPDF、怎么拼 pandoc 命令——面向的是"开发者写代码时操作 PDF"，不是"帮我把发票数据提出来"。发票提取、合同解析、财报转表格这些国内办公刚需，反而没什么现成的 skill 能直接用。

所以就想，有没有一个方案——不装模型、不配 GPU、中文 PDF 解析效果好、还能直接给 Agent 读？调研了一圈：

pymupdf：轻但中文排版乱，表格基本白给
marker-pdf：效果好但装完 3-5GB 模型，Windows 折腾半天
MinerU：66k⭐，国产，中文解析业内公认最强，但本地装也要 20GB

最后发现 MinerU 有云 API，免费 1 万页/天，不需要 Token 就能用。测了一张增值税发票，效果比预期的好——表格转 HTML、金额大小写完整提取。于是就有了 pdf-mineru 这个 skill。

一个 Hermes skill，不用 GPU 不用模型

pdf-mineru 是一个 Hermes skill，背后接 MinerU 云 API。MinerU 是上海 AI 实验室的项目（66k⭐），中文文档解析是它最强的点。

用起来很简单：

# 装 CLI
npm install -g mineru-open-api-win32-x64

# 解析发票
mineru-open-api flash-extract invoice.pdf

然后 Agent 就能拿到完整的结构化 Markdown。

不需要 API Key，不需要本地模型，不需要 GPU。 免费额度每天 1 万页。

实测效果

拿一张增值税电子发票测试，关键字段全部正确提取：

字段	提取结果
发票号码	✅ 完整识别
开票日期	✅ 完整识别
购买方 / 销售方	✅ 完整识别
金额 / 税额 / 价税合计	✅ 数字 + 中文大写
商品明细	✅ 表格转 HTML，多级表头保留

表格转成了 HTML，合并单元格没丢，金额大小写都拿到了。这个效果 pymupdf 做不到，marker-pdf 得折腾半天。

支持什么

输入： PDF、DOCX、PPTX、XLSX、图片（PNG/JPG/WebP）
输出： 结构化 Markdown（表格→HTML，公式→LaTeX，图片带说明）
语言： 109 种，中文最优
扫描件： 自动 OCR

什么场景能用

场景	输入	Agent 提取什么
发票报销	电子发票 PDF	发票号、日期、金额、买卖方
合同审查	合同 PDF/DOCX	条款、有效期、金额、违约条款
财报分析	上市公司财报 PDF	利润表、资产负债表
简历筛选	候选人简历 PDF	工作经历、技能、学历
批量转档	Office 文档批量	全转 Markdown 喂给 LLM

PDF 解析方案对比

Feature	pymupdf	marker-pdf	pdf-mineru
中文排版	★★	★★★	★★★★★
表格提取	纯文本	较准确	HTML 还原，最佳
公式 LaTeX	❌	✅	✅ 最强
扫描件 OCR	❌	✅	✅ 自动
安装体积	~25MB	~3-5GB	0MB（云 API）
免费额度	无限	无限	1 万页/天

怎么装

# 1. 装 CLI
npm install -g mineru-open-api-win32-x64

# 2. 装 skill
cp -r pdf-mineru $HERMES_HOME/skills/productivity/pdf-mineru

# 3. 用
mineru-open-api flash-extract invoice.pdf

不需要 API Key。超过 10MB 或 20 页的大文件，去 mineru.net 免费注册 Token 后用 extract 模式。

注意事项

文档上传到 mineru.net 解析，完成后不留存
敏感文档请自行部署 MinerU 本地版（GitHub 开源）
CLI 进度输出到 stderr，内容到 stdout，Agent 可以直接读

安全审查报告

╔══════════════════════════════════════════════╗
║           SKILL VETTING REPORT              ║
╠══════════════════════════════════════════════╣
║ Skill:      pdf-mineru                       ║
║ Source:     GitHub (xing006/pdf-mineru)      ║
║ Author:     xing006 (Hermes Community)       ║
║ License:    MIT                              ║
╠══════════════════════════════════════════════╣
║ RED FLAGS:  无                               ║
║ Hermes:     无                               ║
╠══════════════════════════════════════════════╣
║ PERMISSIONS NEEDED:                          ║
║   Files:    读取目标 PDF/DOCX/PPTX/XLSX      ║
║   Network:  mineru.net API（数据上云）       ║
║   Commands: mineru-open-api CLI              ║
╠══════════════════════════════════════════════╣
║ RISK LEVEL: 🟢 LOW                          ║
║ VERDICT:    ✅ SAFE                          ║
╚══════════════════════════════════════════════╝

NOTES:
- 纯 Markdown skill，无混淆代码
- CLI 来自 MinerU 官方 npm 包，MIT 协议
- 文档上传 mineru.net 不留存，也有自部署开源方案
- 无 config.yaml 写入、无 plugin 修改、无凭据窃取风险

项目地址：https://github.com/xing006/pdf-mineru

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

适配双系统 OpenClaw 2.7.9 教程，安全拦截与路径规范详解

龙虾开发者社区

AI Agent记忆系统深度解析：从短期上下文到长期知识库的架构设计

分层组织文档解析图谱更新记忆检索器。

龙虾开发者社区

2026 年 AI 前沿技术深度解析：Agent、多模态与工程化落地

2026 年 AI 前沿技术深度解析：Agent、多模态与工程化落地一、引言 2026 年，人工智能领域正经历从「模型能力竞赛」到「系统级智能落地」的关键转折。大语言模型不再是孤立的对话工具，而是演变为具备自主决策能力、多感官感知能力和工程化交付能力的智能体系统。本文将深入解析 AI Agent、多模态模型和 AI 工程化三大前沿方向的核心进展与实践洞察。 --- 二、AI...