OpenClaw 额外配置 OCR 能力的免费可行方案

需求推荐方案纯文字识别（免费）ocr-local 技能图片理解分析（免费额度）高精度印刷体完全本地隐私希望这篇方案能帮到你！

hermes_han

455人浏览 · 2026-04-29 16:48:14

hermes_han · 2026-04-29 16:48:14 发布

OpenClaw 额外配置 OCR 能力：免费可行方案详解

很多小伙伴配置好 OpenClaw 后，发现默认的大模型不具备图像分析能力，无法识别图片中的文字或内容。今天就给大家分享几个免费且可行的解决方案！

📋 问题现状

OpenClaw 默认配置的大模型（如 GPT-4o、Claude 等）如果你的 API 版本不支持 vision，或者模型本身不具备多模态能力，就无法分析图片。

常见场景：

❌ 无法识别截图中的文字
❌ 无法分析上传的图片内容
❌ 无法读取证件、文档照片

✅ 解决方案一：使用 ocr-local 技能（推荐）

推荐理由： 100% 本地运行，完全免费，无需 API Key，支持中文和英文！

安装步骤

# 安装 tesseract.js
npm install tesseract.js

# 或者使用 OpenClaw 技能市场安装
openclaw skills install ocr-local

使用方法

# 识别中文截图
node scripts/ocr.js screenshot.png

# 识别英文文档
node scripts/ocr.js document.jpg --lang eng

# 混合中英文
node scripts/ocr.js mixed.png --lang chi_sim+eng

# JSON 格式输出
node scripts/ocr.js image.jpg --json

支持语言

代码	语言
`chi_sim`	简体中文
`chi_tra`	繁体中文
`eng`	英文

优缺点

✅ 完全免费
✅ 本地运行，隐私安全
✅ 无需 API Key
⚠️ 首次运行需下载语言包（~20MB）
⚠️ 手写体识别效果一般

✅ 解决方案二：使用免费的多模态模型

如果你需要识别图片内容（而不仅是文字），可以配置支持 Vision 的免费模型：

方案 A：使用 Ollama 本地模型

# 安装 Ollama
# 下载地址：https://ollama.com

# 拉取支持 vision 的模型
ollama pull llava
ollama pull moondream

配置文件：

{
  env: { 
    OLLAMA_BASE_URL: "http://localhost:11434" 
  },
  agents: { 
    defaults: { 
      model: { 
        primary: "ollama/llava" 
      } 
    } 
  }
}

方案 B：使用免费的 API 服务

1. GLM-4V-Flash（推荐）

{
  env: { 
    ZHIPU_API_KEY: "你的API Key" 
  },
  agents: { 
    defaults: { 
      model: { 
        primary: "zhipu/glm-4v-flash" 
      } 
    } 
  }
}

📌 GLM-4V-Flash 每月有免费额度，足够个人使用！

2. Moonshot AI (Kimi)

{
  env: { 
    MOONSHOT_API_KEY: "你的API Key" 
  },
  agents: { 
    defaults: { 
      model: { 
        primary: "moonshot/kimivl-v1.8k-vision" 
      } 
    } 
  }
}

3. MiniMax Vision

{
  env: { 
    MINIMAX_API_KEY: "你的API Key" 
  },
  agents: { 
    defaults: { 
      model: { 
        primary: "minimax/abab6.5s-chat" 
      } 
    } 
  }
}

✅ 解决方案三：ecloud-paper-grading 技能（高级 OCR）

如果你是教育行业或者需要高精度的印刷体 OCR，推荐使用 ecloud-paper-grading 技能：

核心能力

✅ PaddleOCR - 印刷体识别效果领先，中文识别准确率高
✅ 多模态大模型 - 手写体识别（需配置 API Key）
✅ 全学科支持 - 语文/数学/英语/物理/化学等

安装

openclaw skills install ecloud-paper-grading

环境要求

Python 3.11+
Visual C++ 运行库（Windows 必装）
首次运行自动安装 PaddleOCR

手动安装命令

# 安装 Visual C++ 运行库
# 下载: https://aka.ms/vs/17/release/vc_redist.x64.exe

# 安装 Python 依赖
pip install numpy==1.26.4
pip install protobuf==3.20.2
pip install paddlepaddle==2.6.2
pip install paddleocr==2.8.1

# 国内镜像
pip install numpy==1.26.4 protobuf==3.20.2 paddlepaddle==2.6.2 paddleocr==2.8.1 -i https://pypi.tuna.tsinghua.edu.cn/simple

📊 方案对比

方案	费用	隐私	难度	适用场景
ocr-local	✅ 免费	✅ 本地	⭐ 简单	文字识别、中英文
Ollama 本地	✅ 免费	✅ 本地	⭐⭐ 中等	需要本地部署
GLM-4V-Flash	✅ 免费额度	❌ 云端	⭐ 简单	图片分析+理解
Moonshot/Kimi	❌ 付费	❌ 云端	⭐ 简单	图片分析+理解
PaddleOCR	✅ 免费	✅ 本地	⭐⭐⭐ 较复杂	高精度印刷体

🚀 快速上手推荐

场景 1：只需要识别图片文字

# 安装 ocr-local 技能
openclaw skills install ocr-local

# 使用
node scripts/ocr.js your_image.png

场景 2：需要分析图片内容

// 在配置文件中添加
{
  env: { 
    ZHIPU_API_KEY: "你的免费API Key" 
  },
  agents: { 
    defaults: { 
      model: { 
        primary: "zhipu/glm-4v-flash" 
      } 
    } 
  }
}

场景 3：教育行业高精度 OCR

# 安装 ecloud-paper-grading 技能
openclaw skills install ecloud-paper-grading

💡 常见问题

Q1：为什么模型不能识别图片？

检查配置文件中模型是否支持 vision，如 glm-4v-flash、moondream 等。

Q2：OCR 识别结果不准确怎么办？

确保图片清晰度高

选择合适的语言参数（chi_sim/eng）

对于手写体，建议使用多模态大模型方案

Q3：API Key 哪里获取？

智谱 AI：https://open.bigmodel.cn

Moonshot：https://platform.moonshot.cn

MiniMax：https://platform.minimax.io

📝 总结

需求	推荐方案
纯文字识别（免费）	ocr-local 技能
图片理解分析（免费额度）	GLM-4V-Flash
高精度印刷体	PaddleOCR (ecloud-paper-grading)
完全本地隐私	Ollama + llava

希望这篇方案能帮到你！如果觉得有用，欢迎收藏转发～有任何问题评论区见！

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

cover

Shell自动化中的沙箱边界设计：路径白名单与凭据不落盘实践

龙虾开发者社区

cover

ClawOS immutable root 下 Agent 文件外泄防护：沙箱与 /var 可变区的实战边界

龙虾开发者社区

cover

ArkClaw WASM 插件沙箱：内存上限与宿主 syscall 的白名单谁说了算？

龙虾开发者社区

所有评论(0)

查看更多评论

hermes_han

已为社区贡献5条内容