起因

财务拿了几十张发票 PDF 过来,让帮忙把发票数据提出来。
在这里插入图片描述

想着 Agent 干这事还不是分分钟——结果试了一圈傻眼了。pymupdf 提取出来排版全乱,表格散了;marker-pdf 装完 3-5GB 模型 Windows 上还跑不起来。折腾半天,不如手动复制粘贴。

这才发现 Agent Skill 生态里 PDF 这块的货基本都是教 AI 怎么调 PyMuPDF、怎么拼 pandoc 命令——面向的是"开发者写代码时操作 PDF",不是"帮我把发票数据提出来"。发票提取、合同解析、财报转表格这些国内办公刚需,反而没什么现成的 skill 能直接用。

所以就想,有没有一个方案——不装模型、不配 GPU、中文 PDF 解析效果好、还能直接给 Agent 读?调研了一圈:

  • pymupdf:轻但中文排版乱,表格基本白给
  • marker-pdf:效果好但装完 3-5GB 模型,Windows 折腾半天
  • MinerU:66k⭐,国产,中文解析业内公认最强,但本地装也要 20GB

最后发现 MinerU 有云 API,免费 1 万页/天,不需要 Token 就能用。测了一张增值税发票,效果比预期的好——表格转 HTML、金额大小写完整提取。于是就有了 pdf-mineru 这个 skill。

一个 Hermes skill,不用 GPU 不用模型

pdf-mineru 是一个 Hermes skill,背后接 MinerU 云 API。MinerU 是上海 AI 实验室的项目(66k⭐),中文文档解析是它最强的点。

用起来很简单:

# 装 CLI
npm install -g mineru-open-api-win32-x64

# 解析发票
mineru-open-api flash-extract invoice.pdf

然后 Agent 就能拿到完整的结构化 Markdown。

不需要 API Key,不需要本地模型,不需要 GPU。 免费额度每天 1 万页。

实测效果

拿一张增值税电子发票测试,关键字段全部正确提取:

字段 提取结果
发票号码 ✅ 完整识别
开票日期 ✅ 完整识别
购买方 / 销售方 ✅ 完整识别
金额 / 税额 / 价税合计 ✅ 数字 + 中文大写
商品明细 ✅ 表格转 HTML,多级表头保留

表格转成了 HTML,合并单元格没丢,金额大小写都拿到了。这个效果 pymupdf 做不到,marker-pdf 得折腾半天。

支持什么

  • 输入: PDF、DOCX、PPTX、XLSX、图片(PNG/JPG/WebP)
  • 输出: 结构化 Markdown(表格→HTML,公式→LaTeX,图片带说明)
  • 语言: 109 种,中文最优
  • 扫描件: 自动 OCR

什么场景能用

场景 输入 Agent 提取什么
发票报销 电子发票 PDF 发票号、日期、金额、买卖方
合同审查 合同 PDF/DOCX 条款、有效期、金额、违约条款
财报分析 上市公司财报 PDF 利润表、资产负债表
简历筛选 候选人简历 PDF 工作经历、技能、学历
批量转档 Office 文档批量 全转 Markdown 喂给 LLM

PDF 解析方案对比

Feature pymupdf marker-pdf pdf-mineru
中文排版 ★★ ★★★ ★★★★★
表格提取 纯文本 较准确 HTML 还原,最佳
公式 LaTeX ✅ 最强
扫描件 OCR ✅ 自动
安装体积 ~25MB ~3-5GB 0MB(云 API)
免费额度 无限 无限 1 万页/天

怎么装

# 1. 装 CLI
npm install -g mineru-open-api-win32-x64

# 2. 装 skill
cp -r pdf-mineru $HERMES_HOME/skills/productivity/pdf-mineru

# 3. 用
mineru-open-api flash-extract invoice.pdf

不需要 API Key。超过 10MB 或 20 页的大文件,去 mineru.net 免费注册 Token 后用 extract 模式。

注意事项

  • 文档上传到 mineru.net 解析,完成后不留存
  • 敏感文档请自行部署 MinerU 本地版(GitHub 开源)
  • CLI 进度输出到 stderr,内容到 stdout,Agent 可以直接读

安全审查报告

╔══════════════════════════════════════════════╗
║           SKILL VETTING REPORT              ║
╠══════════════════════════════════════════════╣
║ Skill:      pdf-mineru                       ║
║ Source:     GitHub (xing006/pdf-mineru)      ║
║ Author:     xing006 (Hermes Community)       ║
║ License:    MIT                              ║
╠══════════════════════════════════════════════╣
║ RED FLAGS:  无                               ║
║ Hermes:     无                               ║
╠══════════════════════════════════════════════╣
║ PERMISSIONS NEEDED:                          ║
║   Files:    读取目标 PDF/DOCX/PPTX/XLSX      ║
║   Network:  mineru.net API(数据上云)       ║
║   Commands: mineru-open-api CLI              ║
╠══════════════════════════════════════════════╣
║ RISK LEVEL: 🟢 LOW                          ║
║ VERDICT:    ✅ SAFE                          ║
╚══════════════════════════════════════════════╝

NOTES:
- 纯 Markdown skill,无混淆代码
- CLI 来自 MinerU 官方 npm 包,MIT 协议
- 文档上传 mineru.net 不留存,也有自部署开源方案
- 无 config.yaml 写入、无 plugin 修改、无凭据窃取风险

项目地址:https://github.com/xing006/pdf-mineru

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐