问题现象

图片发送给龙虾,要么一直说没收到图片,要么提示不支持,要么提示安装OCR工具,要么就是识别出来的完全牛头不对马嘴。

解决方案

这里面涉及三个因素:

  1. 模型是否支撑图片识别
  2. 配置中的input是否配置了image
  3. 聊天渠道是否支持图片通传

在明确这三个问题前不要安装什么OCR工具。纯属多余。(当然,你要是觉得本地工具可以减少token的消耗也行)

模型是否支撑图片识别

这个自行在对应模型后台查看,其实很多常用模型都是支持的

配置中的input是否配置了image

这个是重中之重,如果没有配置。龙虾可能都不知道你发了图片。
怎么查看配置?
配置分两处,分别是:

  • 工程配置文件/root/.openclaw/openclaw.json 用户自定义。优先取这个。
  • 系统默认内置 /root/.openclaw/agents/main/agent/models.json 这部分修改后重启会被还原。

因为系统内置了大多数的厂商,所以可能就在系统内置文件里。
在这里插入图片描述
我们找到自己生效的模型,如果input里没有image的话,则是无法使用图片识别的。
修改方法:

  1. 如果是在/root/.openclaw/openclaw.json里,直接修改input就好,加上image。
  2. 如果是在内置文件 /root/.openclaw/agents/main/agent/models.json里,则需要将其拷贝到上述配置文件中,然后修改input,加上image。
    在这里插入图片描述

渠道是否图片能力

同一只虾,分别飞书和钉钉,看两个例子:
飞书:支持图片+文字消息,能够正常识别图片
在这里插入图片描述
钉钉:不支持图片+文字消息,表现为没收到。单图消息可收到,但无法识别。
在这里插入图片描述

实测能够发送图片的渠道。

渠道 单图 图+文
飞书 支持,能传送给大模型做内容识别 支持,能传送给大模型做内容识别
钉钉 能接收,只能本地处理,无法给模型做内容识别 有富文本输入框,但接收不到
QQ 能接收,只能本地处理,无法给模型做内容识别 没有富文本输入框
tui 纯命令行,肯定不支持 纯命令行,肯定不支持
webui 支持,能传送给大模型做内容识别 支持,能传送给大模型做内容识别

本地工具比如安装OCR工具

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐