OpenClaw 额外配置 OCR 能力的免费可行方案
需求推荐方案纯文字识别(免费)ocr-local 技能图片理解分析(免费额度)高精度印刷体完全本地隐私希望这篇方案能帮到你!
·
OpenClaw 额外配置 OCR 能力:免费可行方案详解
很多小伙伴配置好 OpenClaw 后,发现默认的大模型不具备图像分析能力,无法识别图片中的文字或内容。今天就给大家分享几个免费且可行的解决方案!
📋 问题现状
OpenClaw 默认配置的大模型(如 GPT-4o、Claude 等)如果你的 API 版本不支持 vision,或者模型本身不具备多模态能力,就无法分析图片。
常见场景:
- ❌ 无法识别截图中的文字
- ❌ 无法分析上传的图片内容
- ❌ 无法读取证件、文档照片
✅ 解决方案一:使用 ocr-local 技能(推荐)
推荐理由: 100% 本地运行,完全免费,无需 API Key,支持中文和英文!
安装步骤
# 安装 tesseract.js
npm install tesseract.js
# 或者使用 OpenClaw 技能市场安装
openclaw skills install ocr-local
使用方法
# 识别中文截图
node scripts/ocr.js screenshot.png
# 识别英文文档
node scripts/ocr.js document.jpg --lang eng
# 混合中英文
node scripts/ocr.js mixed.png --lang chi_sim+eng
# JSON 格式输出
node scripts/ocr.js image.jpg --json
支持语言
| 代码 | 语言 |
|---|---|
chi_sim |
简体中文 |
chi_tra |
繁体中文 |
eng |
英文 |
优缺点
- ✅ 完全免费
- ✅ 本地运行,隐私安全
- ✅ 无需 API Key
- ⚠️ 首次运行需下载语言包(~20MB)
- ⚠️ 手写体识别效果一般
✅ 解决方案二:使用免费的多模态模型
如果你需要识别图片内容(而不仅是文字),可以配置支持 Vision 的免费模型:
方案 A:使用 Ollama 本地模型
# 安装 Ollama
# 下载地址:https://ollama.com
# 拉取支持 vision 的模型
ollama pull llava
ollama pull moondream
配置文件:
{
env: {
OLLAMA_BASE_URL: "http://localhost:11434"
},
agents: {
defaults: {
model: {
primary: "ollama/llava"
}
}
}
}
方案 B:使用免费的 API 服务
1. GLM-4V-Flash(推荐)
{
env: {
ZHIPU_API_KEY: "你的API Key"
},
agents: {
defaults: {
model: {
primary: "zhipu/glm-4v-flash"
}
}
}
}
📌 GLM-4V-Flash 每月有免费额度,足够个人使用!
2. Moonshot AI (Kimi)
{
env: {
MOONSHOT_API_KEY: "你的API Key"
},
agents: {
defaults: {
model: {
primary: "moonshot/kimivl-v1.8k-vision"
}
}
}
}
3. MiniMax Vision
{
env: {
MINIMAX_API_KEY: "你的API Key"
},
agents: {
defaults: {
model: {
primary: "minimax/abab6.5s-chat"
}
}
}
}
✅ 解决方案三:ecloud-paper-grading 技能(高级 OCR)
如果你是教育行业或者需要高精度的印刷体 OCR,推荐使用 ecloud-paper-grading 技能:
核心能力
- ✅ PaddleOCR - 印刷体识别效果领先,中文识别准确率高
- ✅ 多模态大模型 - 手写体识别(需配置 API Key)
- ✅ 全学科支持 - 语文/数学/英语/物理/化学等
安装
openclaw skills install ecloud-paper-grading
环境要求
- Python 3.11+
- Visual C++ 运行库(Windows 必装)
- 首次运行自动安装 PaddleOCR
手动安装命令
# 安装 Visual C++ 运行库
# 下载: https://aka.ms/vs/17/release/vc_redist.x64.exe
# 安装 Python 依赖
pip install numpy==1.26.4
pip install protobuf==3.20.2
pip install paddlepaddle==2.6.2
pip install paddleocr==2.8.1
# 国内镜像
pip install numpy==1.26.4 protobuf==3.20.2 paddlepaddle==2.6.2 paddleocr==2.8.1 -i https://pypi.tuna.tsinghua.edu.cn/simple
📊 方案对比
| 方案 | 费用 | 隐私 | 难度 | 适用场景 |
|---|---|---|---|---|
| ocr-local | ✅ 免费 | ✅ 本地 | ⭐ 简单 | 文字识别、中英文 |
| Ollama 本地 | ✅ 免费 | ✅ 本地 | ⭐⭐ 中等 | 需要本地部署 |
| GLM-4V-Flash | ✅ 免费额度 | ❌ 云端 | ⭐ 简单 | 图片分析+理解 |
| Moonshot/Kimi | ❌ 付费 | ❌ 云端 | ⭐ 简单 | 图片分析+理解 |
| PaddleOCR | ✅ 免费 | ✅ 本地 | ⭐⭐⭐ 较复杂 | 高精度印刷体 |
🚀 快速上手推荐
场景 1:只需要识别图片文字
# 安装 ocr-local 技能
openclaw skills install ocr-local
# 使用
node scripts/ocr.js your_image.png
场景 2:需要分析图片内容
// 在配置文件中添加
{
env: {
ZHIPU_API_KEY: "你的免费API Key"
},
agents: {
defaults: {
model: {
primary: "zhipu/glm-4v-flash"
}
}
}
}
场景 3:教育行业高精度 OCR
# 安装 ecloud-paper-grading 技能
openclaw skills install ecloud-paper-grading
💡 常见问题
Q1:为什么模型不能识别图片?
检查配置文件中模型是否支持 vision,如
glm-4v-flash、moondream等。
Q2:OCR 识别结果不准确怎么办?
- 确保图片清晰度高
- 选择合适的语言参数(chi_sim/eng)
- 对于手写体,建议使用多模态大模型方案
Q3:API Key 哪里获取?
- 智谱 AI:https://open.bigmodel.cn
- Moonshot:https://platform.moonshot.cn
- MiniMax:https://platform.minimax.io
📝 总结
| 需求 | 推荐方案 |
|---|---|
| 纯文字识别(免费) | ocr-local 技能 |
| 图片理解分析(免费额度) | GLM-4V-Flash |
| 高精度印刷体 | PaddleOCR (ecloud-paper-grading) |
| 完全本地隐私 | Ollama + llava |
希望这篇方案能帮到你!如果觉得有用,欢迎收藏转发~有任何问题评论区见!
更多推荐




所有评论(0)