【无标题】

bingcha1021

44人浏览 · 2026-07-04 19:10:39

bingcha1021 · 2026-07-04 19:10:39 发布

我用 Python 写了一个 Skill，自动把 300 张截图变成知识文档

手机截图占满了相册，想找的时候却翻半天？我开发了一个 AI 工具，能把截图自动分类、识别文字、生成 Word/Markdown 文档，全程不用动手整理。

为什么写这个工具？

我是一个重度「截图收藏」用户：

小红书看到养生干货 → 截图
微信读书读到金句 → 截图
朋友发来的旅游攻略 → 截图

几个月下来，相册里有 几百张截图，但真到需要查的时候，翻半天也找不到。更痛苦的是，截图里的文字没法搜索，图片又占手机空间。

我一直想要一个工具，能帮我：

自动识别截图里的文字
理解内容，知道这是关于历史、健康还是旅游
整理成文档，按主题归类，方便以后搜索和阅读
自动归档图片，不用手动整理

市面上的工具要么只能做 OCR（识别文字），要么只能简单分类，没有一个能把「截图 → 结构化知识库」这条链路打通。

所以我决定自己写一个。

核心功能

1. 多引擎 OCR，识别率 95%+

工具支持 3 种 OCR 引擎，自动降级：

腾讯云 OCR（推荐）：中文识别率 95%+，每月 1000 次免费
百度云 OCR：每天 5 万次免费，适合大量处理
本地 Tesseract：完全免费，无需联网，作为兜底

# OCR 自动降级逻辑
def recognize(image):
    for engine in [tencent, baidu, tesseract]:
        result = engine.recognize(image)
        if result.confidence > 0.8:
            return result
    return None

2. AI 智能分类，不用手动打标签

这是我最骄傲的功能。工具不依赖关键词匹配，而是用 LLM 理解内容：

截图内容是「钱谦益的生平事迹」→ 分类为 历史文化
截图内容是「抗炎食物推荐」→ 分类为 营养健康
截图内容是「杭州旅游攻略」→ 分类为 旅游攻略

更厉害的是，当内容不属于预设分类时，AI 会 自动创建新分类 并自由命名：

截图内容是「摄影构图技巧」→ 自动创建 摄影技巧 分类
截图内容是「Python 爬虫教程」→ 自动创建 编程学习 分类

3. 同主题自动合并，避免重复文档

很多人有这个问题：同一个历史人物，截了 5 张不同角度的截图，最后生成了 5 个文档。

我的工具用 实体匹配算法 解决这个问题：

def should_merge(doc1, doc2):
    # 提取核心实体（人名、地名等）
    entity1 = extract_core_entity(doc1.title)
    entity2 = extract_core_entity(doc2.title)
    
    # 如果核心实体相同（如都是「钱谦益」），合并
    if entity1 == entity2:
        return True
    
    # 如果内容相似度 > 0.8，也合并
    if similarity(doc1.content, doc2.content) > 0.8:
        return True
    
    return False

实际效果：处理 11 张历史类截图，其中 2 张关于「钱谦益」的内容被自动合并到同一文档。

4. 生成结构化文档（Word + Markdown）

处理完成后，每个主题生成两份文档：

处理结果/
├── 历史文化-钱谦益传.docx          ← Word 格式，可编辑
├── 历史文化-钱谦益传.md            ← Markdown 格式，纯文本
├── 历史文化-南宋历史概述.docx
├── 历史文化-南宋历史概述.md
└── ...

文档内容不是简单的文字堆砌，而是 结构化整理：

# 历史文化-钱谦益传

## 一、生平简介
（OCR 识别内容，AI 自动分段排版）

## 二、主要成就
（结构化整理）

## 三、历史评价
（自动分类归档）

5. IMA 同步，一键上云

处理完的文档可以 自动同步到 IMA 笔记（腾讯知识库），支持增量更新：

新内容追加到已有文档
重复内容自动跳过
手机上随时查看整理好的知识库

技术架构

处理流程

图片文件夹
    ↓
OCR 识别（多引擎自动降级）
    ↓
AI 分析（提取分类、主题、摘要）
    ↓
重复检测（Hash + 主题相似度）
    ↓
文档合并（同主题合并）
    ↓
生成 Markdown + Word 文档
    ↓
图片归档（按分类整理）
    ↓
IMA 同步（可选）

技术栈

技术	用途	选择理由
腾讯云 OCR	文字识别	中文识别率最高
百度云 OCR	文字识别	免费额度最大
Tesseract	本地 OCR	完全免费，无需联网
Hunyuan Lite / Kimi / Doubao	AI 分析	多模型兜底，降低失败率
python-docx	Word 生成	标准 Python 库
IMA OpenAPI	云端同步	腾讯知识库生态

使用方式（超级简单）

方式一：WorkBuddy Skill（推荐）

下载 Release 中的 image-knowledge-converter_v1.1.0_skill.zip
打开 WorkBuddy → 头像 → Skills 管理 → 导入
对 WorkBuddy 说：第一次使用
跟着向导完成配置（2 分钟）
之后每次说：处理新图片

全程不用写一行代码，小白也能用。

方式二：本地运行

# 克隆仓库
git clone https://github.com/haoyiyong985/image-knowledge-converter.git
cd image-knowledge-converter

# 安装依赖
pip install -r requirements.txt

# 启动向导（首次使用）
python setup_wizard.py

# 放入图片后运行
python auto_process_all_v9_4.py

实际处理效果

我用这个工具处理了 300+ 张截图，效果如下：

分类统计

分类	文档数	示例
历史文化	13	钱谦益传、南宋历史、北宋历史
营养健康	8	抗炎饮食、肠道健康、蛋白质摄入
生活方式	5	运动建议、睡眠改善
旅游攻略	3	杭州景点、中国必去 50 个地方

处理速度

单张图片：3-5 秒（含 OCR + AI 分析 + 文档生成）
100 张图片：约 8-10 分钟
支持 分批处理 和 断点续传，不怕中断

踩过的坑（血泪经验）

1. JSON 截断导致内容丢失

最初用 LLM 返回 JSON 格式，但 OCR 内容里经常包含未转义的双引号（如「阉党」），直接破坏 JSON 结构。

解决：拆分成两次调用：

第一次：获取标题、分类、摘要（短 JSON）
第二次：获取正文内容（纯 Markdown）

2. 同名文档分散存储

不同分类下出现同名文档（如两个不同分类都有「历史」相关内容），导致内容分散。

解决：跨分类检测同名文档，用 核心实体匹配 判断是否应该合并。

3. 分类体系混乱

最初有 category 和 theme 两套分类体系，导致分类不一致。

解决：统一为 一级分类 体系，预设 5 个分类 + AI 动态新建。

开源地址

GitHub: https://github.com/haoyiyong985/image-knowledge-converter

已发布到 ClawHub: https://clawhub.ai/skills/image-knowledge-converter

总结

如果你也有「截图太多、整理困难」的问题，这个工具可以帮你：

✅ 自动识别截图文字
✅ AI 理解内容并分类
✅ 同主题自动合并
✅ 生成结构化文档
✅ 一键同步云端

最重要的是，全程不用动手整理，只需说一句话：“处理新图片”。

如果你对这个工具感兴趣，欢迎去 GitHub 给个 ⭐，或者留言交流！

作者：haoyiyong985
工具版本：v1.2.7
发布时间：2026 年 7 月

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

AI Agent 入门与实战：从对话到干活，理解下一代AI工作方式

你告诉Agent一个目标，它会自己拆解成步骤，调用工具（文件操作、命令行、API接口），逐步执行，遇到问题会自己尝试修复，最后给你交付结果。第一，Agent写的代码不是100%可靠的。对于一个已经在写代码的开发者来说，现在最重要的事情不是"学什么新语言或新框架"，而是学会怎么让Agent帮你干活、提高你不可替代的那部分能力——业务理解、架构设计、技术判断。用Agent的做法是：你告诉它需求，它自己

龙虾开发者社区

OpenClaw 2.7.9 搭建实操，桌面自动化工具避坑完整流程

龙虾开发者社区

有一个很好的思路记录一下，创建一个辅助学习的skill

感觉，完全可以使用提示词，研究一套快速学习技术栈机制的的skill如果可以的话主要把握三个领域的知识1.业务需求背景知识2.知识体系知识3.工程化落地知识让ai提出一个复杂的需求demo让claw创建出一个工程截图把一个技术的所有细节截图做完这个demo，然后复盘这个技术栈提供了什么机制这是一个极具工程思维的想法。将“快速学习”本身封装成一套，本质上是在构建一个**“技术栈逆向工程器”**。既然你