【无标题】
我用 Python 写了一个 Skill,自动把 300 张截图变成知识文档
手机截图占满了相册,想找的时候却翻半天?我开发了一个 AI 工具,能把截图自动分类、识别文字、生成 Word/Markdown 文档,全程不用动手整理。
为什么写这个工具?
我是一个重度「截图收藏」用户:
- 小红书看到养生干货 → 截图
- 微信读书读到金句 → 截图
- 朋友发来的旅游攻略 → 截图
几个月下来,相册里有 几百张截图,但真到需要查的时候,翻半天也找不到。更痛苦的是,截图里的文字没法搜索,图片又占手机空间。
我一直想要一个工具,能帮我:
- 自动识别截图里的文字
- 理解内容,知道这是关于历史、健康还是旅游
- 整理成文档,按主题归类,方便以后搜索和阅读
- 自动归档图片,不用手动整理
市面上的工具要么只能做 OCR(识别文字),要么只能简单分类,没有一个能把「截图 → 结构化知识库」这条链路打通。
所以我决定自己写一个。
核心功能
1. 多引擎 OCR,识别率 95%+
工具支持 3 种 OCR 引擎,自动降级:
- 腾讯云 OCR(推荐):中文识别率 95%+,每月 1000 次免费
- 百度云 OCR:每天 5 万次免费,适合大量处理
- 本地 Tesseract:完全免费,无需联网,作为兜底
# OCR 自动降级逻辑
def recognize(image):
for engine in [tencent, baidu, tesseract]:
result = engine.recognize(image)
if result.confidence > 0.8:
return result
return None
2. AI 智能分类,不用手动打标签
这是我最骄傲的功能。工具不依赖关键词匹配,而是用 LLM 理解内容:
- 截图内容是「钱谦益的生平事迹」→ 分类为
历史文化 - 截图内容是「抗炎食物推荐」→ 分类为
营养健康 - 截图内容是「杭州旅游攻略」→ 分类为
旅游攻略
更厉害的是,当内容不属于预设分类时,AI 会 自动创建新分类 并自由命名:
- 截图内容是「摄影构图技巧」→ 自动创建
摄影技巧分类 - 截图内容是「Python 爬虫教程」→ 自动创建
编程学习分类
3. 同主题自动合并,避免重复文档
很多人有这个问题:同一个历史人物,截了 5 张不同角度的截图,最后生成了 5 个文档。
我的工具用 实体匹配算法 解决这个问题:
def should_merge(doc1, doc2):
# 提取核心实体(人名、地名等)
entity1 = extract_core_entity(doc1.title)
entity2 = extract_core_entity(doc2.title)
# 如果核心实体相同(如都是「钱谦益」),合并
if entity1 == entity2:
return True
# 如果内容相似度 > 0.8,也合并
if similarity(doc1.content, doc2.content) > 0.8:
return True
return False
实际效果:处理 11 张历史类截图,其中 2 张关于「钱谦益」的内容被自动合并到同一文档。
4. 生成结构化文档(Word + Markdown)
处理完成后,每个主题生成两份文档:
处理结果/
├── 历史文化-钱谦益传.docx ← Word 格式,可编辑
├── 历史文化-钱谦益传.md ← Markdown 格式,纯文本
├── 历史文化-南宋历史概述.docx
├── 历史文化-南宋历史概述.md
└── ...
文档内容不是简单的文字堆砌,而是 结构化整理:
# 历史文化-钱谦益传
## 一、生平简介
(OCR 识别内容,AI 自动分段排版)
## 二、主要成就
(结构化整理)
## 三、历史评价
(自动分类归档)
5. IMA 同步,一键上云
处理完的文档可以 自动同步到 IMA 笔记(腾讯知识库),支持增量更新:
- 新内容追加到已有文档
- 重复内容自动跳过
- 手机上随时查看整理好的知识库
技术架构
处理流程
图片文件夹
↓
OCR 识别(多引擎自动降级)
↓
AI 分析(提取分类、主题、摘要)
↓
重复检测(Hash + 主题相似度)
↓
文档合并(同主题合并)
↓
生成 Markdown + Word 文档
↓
图片归档(按分类整理)
↓
IMA 同步(可选)
技术栈
| 技术 | 用途 | 选择理由 |
|---|---|---|
| 腾讯云 OCR | 文字识别 | 中文识别率最高 |
| 百度云 OCR | 文字识别 | 免费额度最大 |
| Tesseract | 本地 OCR | 完全免费,无需联网 |
| Hunyuan Lite / Kimi / Doubao | AI 分析 | 多模型兜底,降低失败率 |
| python-docx | Word 生成 | 标准 Python 库 |
| IMA OpenAPI | 云端同步 | 腾讯知识库生态 |
使用方式(超级简单)
方式一:WorkBuddy Skill(推荐)
- 下载 Release 中的
image-knowledge-converter_v1.1.0_skill.zip - 打开 WorkBuddy → 头像 → Skills 管理 → 导入
- 对 WorkBuddy 说:
第一次使用 - 跟着向导完成配置(2 分钟)
- 之后每次说:
处理新图片
全程不用写一行代码,小白也能用。
方式二:本地运行
# 克隆仓库
git clone https://github.com/haoyiyong985/image-knowledge-converter.git
cd image-knowledge-converter
# 安装依赖
pip install -r requirements.txt
# 启动向导(首次使用)
python setup_wizard.py
# 放入图片后运行
python auto_process_all_v9_4.py
实际处理效果
我用这个工具处理了 300+ 张截图,效果如下:
分类统计
| 分类 | 文档数 | 示例 |
|---|---|---|
| 历史文化 | 13 | 钱谦益传、南宋历史、北宋历史 |
| 营养健康 | 8 | 抗炎饮食、肠道健康、蛋白质摄入 |
| 生活方式 | 5 | 运动建议、睡眠改善 |
| 旅游攻略 | 3 | 杭州景点、中国必去 50 个地方 |
处理速度
- 单张图片:3-5 秒(含 OCR + AI 分析 + 文档生成)
- 100 张图片:约 8-10 分钟
- 支持 分批处理 和 断点续传,不怕中断
踩过的坑(血泪经验)
1. JSON 截断导致内容丢失
最初用 LLM 返回 JSON 格式,但 OCR 内容里经常包含未转义的双引号(如「阉党」),直接破坏 JSON 结构。
解决:拆分成两次调用:
- 第一次:获取标题、分类、摘要(短 JSON)
- 第二次:获取正文内容(纯 Markdown)
2. 同名文档分散存储
不同分类下出现同名文档(如两个不同分类都有「历史」相关内容),导致内容分散。
解决:跨分类检测同名文档,用 核心实体匹配 判断是否应该合并。
3. 分类体系混乱
最初有 category 和 theme 两套分类体系,导致分类不一致。
解决:统一为 一级分类 体系,预设 5 个分类 + AI 动态新建。
开源地址
GitHub: https://github.com/haoyiyong985/image-knowledge-converter
已发布到 ClawHub: https://clawhub.ai/skills/image-knowledge-converter
总结
如果你也有「截图太多、整理困难」的问题,这个工具可以帮你:
- ✅ 自动识别截图文字
- ✅ AI 理解内容并分类
- ✅ 同主题自动合并
- ✅ 生成结构化文档
- ✅ 一键同步云端
最重要的是,全程不用动手整理,只需说一句话:“处理新图片”。
如果你对这个工具感兴趣,欢迎去 GitHub 给个 ⭐,或者留言交流!
作者:haoyiyong985
工具版本:v1.2.7
发布时间:2026 年 7 月
更多推荐


所有评论(0)