我用 Python 写了一个 Skill,自动把 300 张截图变成知识文档

手机截图占满了相册,想找的时候却翻半天?我开发了一个 AI 工具,能把截图自动分类、识别文字、生成 Word/Markdown 文档,全程不用动手整理。


为什么写这个工具?

我是一个重度「截图收藏」用户:

  • 小红书看到养生干货 → 截图
  • 微信读书读到金句 → 截图
  • 朋友发来的旅游攻略 → 截图

几个月下来,相册里有 几百张截图,但真到需要查的时候,翻半天也找不到。更痛苦的是,截图里的文字没法搜索,图片又占手机空间。

我一直想要一个工具,能帮我:

  1. 自动识别截图里的文字
  2. 理解内容,知道这是关于历史、健康还是旅游
  3. 整理成文档,按主题归类,方便以后搜索和阅读
  4. 自动归档图片,不用手动整理

市面上的工具要么只能做 OCR(识别文字),要么只能简单分类,没有一个能把「截图 → 结构化知识库」这条链路打通。

所以我决定自己写一个。


核心功能

1. 多引擎 OCR,识别率 95%+

工具支持 3 种 OCR 引擎,自动降级:

  • 腾讯云 OCR(推荐):中文识别率 95%+,每月 1000 次免费
  • 百度云 OCR:每天 5 万次免费,适合大量处理
  • 本地 Tesseract:完全免费,无需联网,作为兜底
# OCR 自动降级逻辑
def recognize(image):
    for engine in [tencent, baidu, tesseract]:
        result = engine.recognize(image)
        if result.confidence > 0.8:
            return result
    return None

2. AI 智能分类,不用手动打标签

这是我最骄傲的功能。工具不依赖关键词匹配,而是用 LLM 理解内容

  • 截图内容是「钱谦益的生平事迹」→ 分类为 历史文化
  • 截图内容是「抗炎食物推荐」→ 分类为 营养健康
  • 截图内容是「杭州旅游攻略」→ 分类为 旅游攻略

更厉害的是,当内容不属于预设分类时,AI 会 自动创建新分类 并自由命名:

  • 截图内容是「摄影构图技巧」→ 自动创建 摄影技巧 分类
  • 截图内容是「Python 爬虫教程」→ 自动创建 编程学习 分类

3. 同主题自动合并,避免重复文档

很多人有这个问题:同一个历史人物,截了 5 张不同角度的截图,最后生成了 5 个文档。

我的工具用 实体匹配算法 解决这个问题:

def should_merge(doc1, doc2):
    # 提取核心实体(人名、地名等)
    entity1 = extract_core_entity(doc1.title)
    entity2 = extract_core_entity(doc2.title)
    
    # 如果核心实体相同(如都是「钱谦益」),合并
    if entity1 == entity2:
        return True
    
    # 如果内容相似度 > 0.8,也合并
    if similarity(doc1.content, doc2.content) > 0.8:
        return True
    
    return False

实际效果:处理 11 张历史类截图,其中 2 张关于「钱谦益」的内容被自动合并到同一文档。

4. 生成结构化文档(Word + Markdown)

处理完成后,每个主题生成两份文档:

处理结果/
├── 历史文化-钱谦益传.docx          ← Word 格式,可编辑
├── 历史文化-钱谦益传.md            ← Markdown 格式,纯文本
├── 历史文化-南宋历史概述.docx
├── 历史文化-南宋历史概述.md
└── ...

文档内容不是简单的文字堆砌,而是 结构化整理

# 历史文化-钱谦益传

## 一、生平简介
(OCR 识别内容,AI 自动分段排版)

## 二、主要成就
(结构化整理)

## 三、历史评价
(自动分类归档)

5. IMA 同步,一键上云

处理完的文档可以 自动同步到 IMA 笔记(腾讯知识库),支持增量更新:

  • 新内容追加到已有文档
  • 重复内容自动跳过
  • 手机上随时查看整理好的知识库

技术架构

处理流程

图片文件夹
    ↓
OCR 识别(多引擎自动降级)
    ↓
AI 分析(提取分类、主题、摘要)
    ↓
重复检测(Hash + 主题相似度)
    ↓
文档合并(同主题合并)
    ↓
生成 Markdown + Word 文档
    ↓
图片归档(按分类整理)
    ↓
IMA 同步(可选)

技术栈

技术 用途 选择理由
腾讯云 OCR 文字识别 中文识别率最高
百度云 OCR 文字识别 免费额度最大
Tesseract 本地 OCR 完全免费,无需联网
Hunyuan Lite / Kimi / Doubao AI 分析 多模型兜底,降低失败率
python-docx Word 生成 标准 Python 库
IMA OpenAPI 云端同步 腾讯知识库生态

使用方式(超级简单)

方式一:WorkBuddy Skill(推荐)

  1. 下载 Release 中的 image-knowledge-converter_v1.1.0_skill.zip
  2. 打开 WorkBuddy → 头像 → Skills 管理 → 导入
  3. 对 WorkBuddy 说:第一次使用
  4. 跟着向导完成配置(2 分钟)
  5. 之后每次说:处理新图片

全程不用写一行代码,小白也能用。

方式二:本地运行

# 克隆仓库
git clone https://github.com/haoyiyong985/image-knowledge-converter.git
cd image-knowledge-converter

# 安装依赖
pip install -r requirements.txt

# 启动向导(首次使用)
python setup_wizard.py

# 放入图片后运行
python auto_process_all_v9_4.py

实际处理效果

我用这个工具处理了 300+ 张截图,效果如下:

分类统计

分类 文档数 示例
历史文化 13 钱谦益传、南宋历史、北宋历史
营养健康 8 抗炎饮食、肠道健康、蛋白质摄入
生活方式 5 运动建议、睡眠改善
旅游攻略 3 杭州景点、中国必去 50 个地方

处理速度

  • 单张图片:3-5 秒(含 OCR + AI 分析 + 文档生成)
  • 100 张图片:约 8-10 分钟
  • 支持 分批处理断点续传,不怕中断

踩过的坑(血泪经验)

1. JSON 截断导致内容丢失

最初用 LLM 返回 JSON 格式,但 OCR 内容里经常包含未转义的双引号(如「阉党」),直接破坏 JSON 结构。

解决:拆分成两次调用:

  • 第一次:获取标题、分类、摘要(短 JSON)
  • 第二次:获取正文内容(纯 Markdown)

2. 同名文档分散存储

不同分类下出现同名文档(如两个不同分类都有「历史」相关内容),导致内容分散。

解决:跨分类检测同名文档,用 核心实体匹配 判断是否应该合并。

3. 分类体系混乱

最初有 categorytheme 两套分类体系,导致分类不一致。

解决:统一为 一级分类 体系,预设 5 个分类 + AI 动态新建。


开源地址

GitHub: https://github.com/haoyiyong985/image-knowledge-converter

已发布到 ClawHub: https://clawhub.ai/skills/image-knowledge-converter


总结

如果你也有「截图太多、整理困难」的问题,这个工具可以帮你:

  • ✅ 自动识别截图文字
  • ✅ AI 理解内容并分类
  • ✅ 同主题自动合并
  • ✅ 生成结构化文档
  • ✅ 一键同步云端

最重要的是,全程不用动手整理,只需说一句话:“处理新图片”。

如果你对这个工具感兴趣,欢迎去 GitHub 给个 ⭐,或者留言交流!


作者:haoyiyong985
工具版本:v1.2.7
发布时间:2026 年 7 月

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐