ClawdBot高清演示:多模态输入(语音/图/文本)统一vLLM后端处理

1. ClawdBot 是什么:你的本地多模态AI中枢

ClawdBot 不是一个云端调用的网页工具,也不是需要注册账号的SaaS服务。它是一个真正意义上“装在你设备里的AI大脑”——你可以把它部署在自己的笔记本、台式机,甚至树莓派上,全程离线运行,所有数据都不出你的设备。

它的核心定位很清晰:统一调度多模态输入,交由高性能vLLM后端完成语义理解与生成。这意味着,无论你发来一段语音、一张截图、还是一段文字提问,ClawdBot 都会把它们“翻译”成模型能理解的结构化指令,再交给底层的 vLLM 实例去推理,最后把结果组织成自然语言、可执行操作或结构化数据返回给你。

这背后不是简单的API转发。它有一套轻量但完整的中间件层:语音走 Whisper 本地转写流水线,图片走 PaddleOCR 文字提取+上下文增强,纯文本则直接注入提示工程模板。三路输入最终汇入同一个 vLLM 推理池——这种设计既保证了体验一致性,又避免了为每种模态单独部署模型带来的资源浪费和维护成本。

更关键的是,它不依赖任何外部大模型API。你看到的每一次回答、每一张OCR识别结果、每一句语音转文字,都发生在你自己的机器上。没有调用计费,没有网络延迟,也没有隐私泄露风险。对开发者、技术爱好者、小团队甚至教育场景来说,这是一种久违的“掌控感”。

2. 和 MoltBot 的关系:同源能力,不同形态

你可能注意到了文档里反复出现的 MoltBot ——它不是 ClawdBot 的竞品,而是同一技术栈在不同场景下的“孪生兄弟”。

MoltBot 是面向 Telegram 用户的开箱即用型翻译机器人,主打“零配置、多语言、全模态”。它把 ClawdBot 的核心能力做了极简封装:语音消息自动转文字再翻译、图片自动OCR再翻译、群聊中@就能触发、查天气汇率维基全靠 / 命令。所有功能打包进一个 300MB 的 Docker 镜像,树莓派4都能跑满15人并发。

而 ClawdBot 是 MoltBot 的“开发者版”和“能力底座”。它把 MoltBot 隐藏在背后的调度逻辑、模型接入协议、多模态预处理链路全部暴露出来,让你可以:

  • 自定义语音识别模型(换 tiny/medium/base 版本 Whisper)
  • 替换 OCR 引擎(PaddleOCR → EasyOCR 或自研模块)
  • 切换后端大模型(Qwen3-4B → Yi-1.5-6B → DeepSeek-V3)
  • 编排工作流(比如:收到图片 → OCR → 提取关键词 → 搜索维基 → 生成摘要 → 语音播报)

你可以把 MoltBot 理解成“ClawdBot 的 Telegram 皮肤”,而 ClawdBot 本身是一个可插拔、可编排、可嵌入的本地AI运行时。它们共享同一套模型抽象层、同一套多模态路由协议、同一套 vLLM 对接标准。学懂一个,就等于掌握了整条技术链路。

3. 快速启动:从命令行到可视化控制台

ClawdBot 的安装不是点下一步的图形向导,而是几条干净利落的命令。它默认采用容器化部署,但所有操作都围绕 CLI 展开,没有黑盒配置。

3.1 启动服务与设备配对

首次运行后,ClawdBot 会启动一个本地 Web 控制台,但不会直接开放给浏览器访问——它采用设备信任机制,确保只有你授权的终端才能连接。

先查看待批准的设备请求:

clawdbot devices list

你会看到类似这样的输出:

ID         Status     Created At           Last Seen
d8a2f...   pending    2026-01-24 14:22:18  -

状态为 pending 表示你的浏览器已发起连接请求,但尚未被主机认可。执行批准命令:

clawdbot devices approve d8a2f...

批准后,刷新页面即可进入控制台。如果仍无法访问,别急着重装,直接运行:

clawdbot dashboard

它会输出一个带 token 的本地链接,例如:

Dashboard URL: http://127.0.0.1:7860/?token=23588143fd1588692851f6cbe9218ec6b874bb859e775762

复制链接,在本机浏览器打开即可。这个 token 是单次有效的,每次 dashboard 命令都会生成新链接,兼顾安全与便利。

小贴士:如果你在远程服务器(如云主机或树莓派)上运行,需加一条 SSH 端口转发:

ssh -N -L 7860:127.0.0.1:7860 user@your-server-ip

然后在自己电脑浏览器访问 http://localhost:7860 即可。

3.2 配置文件结构说明

所有设置都集中在一个 JSON 文件中:/app/clawdbot.json(容器内路径)或 ~/.clawdbot/clawdbot.json(宿主机路径)。它不是密密麻麻的YAML,而是分块清晰、注释友好的结构:

  • agents:定义AI助手的行为策略(默认模型、工作区路径、并发数)
  • models:声明模型提供方(vLLM / Ollama / OpenAI 兼容接口)、基础URL、支持的模型列表
  • channels:配置通信渠道(Telegram / Discord / Web UI / CLI)
  • plugins:启用扩展功能(汇率 / 天气 / 维基 / 代码解释器等)

修改配置后无需重启服务——ClawdBot 支持热重载。你改完保存,几秒内新配置就会生效。

4. 模型替换实战:从 Qwen3-4B 到任意 vLLM 模型

ClawdBot 默认使用 vllm/Qwen3-4B-Instruct-2507,这是一个经过指令微调、上下文达195K的中文强模型。但它的价值不在于“开箱即用”,而在于“随时可换”。

4.1 修改配置文件(推荐方式)

打开 /app/clawdbot.json,找到 models.providers.vllm 区块。这里有两个关键字段:

  • "baseUrl":指向你本地运行的 vLLM 服务地址(默认 http://localhost:8000/v1
  • "models":一个数组,列出当前可用的模型ID和名称

假设你想换成 Yi-1.5-6B-Chat,只需将 models 数组改为:

"models": [
  {
    "id": "Yi-1.5-6B-Chat",
    "name": "Yi-1.5-6B-Chat"
  }
]

然后确保你的 vLLM 服务已用该模型启动:

python -m vllm.entrypoints.openai.api_server \
  --model xlangai/Yi-1.5-6B-Chat \
  --tensor-parallel-size 1 \
  --port 8000

保存配置,ClawdBot 会自动发现新模型。

4.2 通过UI界面切换(零代码)

进入控制台 → 左侧导航栏点击 Config → Models → Providers,你会看到一个表格,列出所有已注册的模型提供方。点击 vllm 行右侧的编辑图标,直接在表单中增删模型条目,提交即生效。

4.3 验证模型是否就位

运行以下命令确认模型已加载成功:

clawdbot models list

正常输出应包含你刚添加的模型:

Model                                      Input      Ctx      Local Auth  Tags
vllm/Yi-1.5-6B-Chat                        text       32k      yes   yes   default

如果只显示 Qwen3-4B,说明 vLLM 服务未正确加载新模型,或 baseUrl 地址不通。此时可检查 vLLM 日志,或用 curl 手动测试:

curl http://localhost:8000/v1/models

返回 JSON 中应包含 Yi-1.5-6B-Chat 的信息。

5. 多模态输入实测:语音、图片、文本如何被统一处理

ClawdBot 的“多模态”不是噱头,而是贯穿整个交互链路的真实能力。我们用三个真实场景来演示它如何工作。

5.1 语音输入:一句话问天气

你说:“今天北京天气怎么样?”

ClawdBot 后台执行流程:

  1. 接收 .wav.mp3 语音文件
  2. 调用本地 Whisper tiny 模型转写为文字:“今天北京天气怎么样?”
  3. 将文字送入 vLLM,结合内置插件系统识别出意图是“查天气”
  4. 调用 weather 插件,传入“北京”参数
  5. 获取实时天气数据(温度、湿度、空气质量)
  6. 由 vLLM 生成自然语言回复:“北京今天晴,气温 -2℃ ~ 6℃,空气质量良,适合户外活动。”

整个过程平均耗时 1.2 秒,全程离线,无任何云端语音识别环节。

5.2 图片输入:截图查汇率

你发送一张含“USD 100 = ? CNY”文字的手机截图。

ClawdBot 后台执行流程:

  1. 接收 PNG/JPEG 图片
  2. 调用 PaddleOCR 轻量模型识别出文字:“USD 100 = ? CNY”
  3. 解析出关键实体:货币对(USD/CNY)、金额(100)
  4. 调用 fx 插件获取实时汇率(如 1 USD = 7.23 CNY)
  5. 计算结果:100 × 7.23 = 723.00
  6. 生成回复:“100 美元 ≈ 723.00 人民币(实时汇率)”

OCR 识别准确率在清晰截图下达 98%+,即使手写体或轻微倾斜也能应对。

5.3 文本输入:复杂指令链式执行

你输入:“总结这篇PDF的核心观点,并用表格对比三个方案的优缺点。”

ClawdBot 不会报错说“不支持PDF”,而是:

  • 自动检测到“PDF”关键词 → 触发文件解析插件
  • 调用本地 PyMuPDF 提取文本(不上传、不联网)
  • 将长文本分块送入 vLLM 进行摘要生成
  • 再次调用 vLLM,按指定格式(Markdown 表格)组织输出
  • 最终返回结构化结果,含标题、要点、对比表格

这就是“统一后端”的威力:输入形式千变万化,但推理引擎始终是同一个,响应逻辑始终可预测、可调试、可审计。

6. 高级玩法:自定义插件与工作流编排

ClawdBot 的 plugins 目录是它的“能力扩展中心”。它不像传统机器人那样把功能硬编码进主程序,而是通过标准接口加载 Python 模块。

6.1 写一个自己的插件(以“股票查询”为例)

~/.clawdbot/plugins/ 下新建 stock.py

# ~/.clawdbot/plugins/stock.py
import yfinance as yf

def execute(query: str) -> str:
    """支持 'AAPL 股价'、'腾讯控股 HK' 等格式"""
    symbol = query.strip().split()[0]
    try:
        ticker = yf.Ticker(symbol)
        data = ticker.history(period="1d")
        price = data['Close'].iloc[-1]
        return f"{symbol} 当前股价:${price:.2f}"
    except Exception as e:
        return f"查询失败:{str(e)}"

然后在 clawdbot.json 中启用:

"plugins": {
  "stock": {
    "enabled": true,
    "module": "stock"
  }
}

重启或热重载后,你就可以直接问:“AAPL 股价”,ClawdBot 会调用你写的代码返回结果。

6.2 工作流编排:让多个插件串联

ClawdBot 支持 YAML 格式的工作流定义。例如创建 ~/.clawdbot/workflows/news_summary.yaml

name: "每日新闻摘要"
steps:
  - plugin: "rss"
    config: { url: "https://example.com/rss" }
  - plugin: "summarize"
    config: { max_length: 300 }
  - plugin: "translate"
    config: { target_lang: "zh" }

之后只需说:“运行每日新闻摘要”,ClawdBot 就会自动拉取RSS、摘要、翻译三步走,全程无人工干预。

这种能力让 ClawdBot 超越了“聊天机器人”的范畴,成为你个人知识工作流的自动化引擎。

7. 总结:为什么你需要一个本地多模态AI中枢

ClawdBot 的价值,不在于它比某个大模型“更强”,而在于它把原本分散在不同平台、不同API、不同客户端的能力,收束到一个你完全可控的本地环境里。

  • 隐私不妥协:语音、图片、文档,所有原始数据永不离开你的设备。
  • 体验不割裂:语音提问、截图翻译、文字写作,用同一套逻辑响应,没有“这个能做,那个不支持”的挫败感。
  • 成本不浮动:一次部署,永久免费。不用为每千次调用付费,也不用担心API限流。
  • 能力不封闭:模型可换、插件可写、工作流可编排,它不是一个终点,而是一个起点。

它不是要取代 ChatGPT 或 Kimi,而是给你一个“私有化AI基础设施”的选项——就像你不会把所有文档都存在网盘,也不会把所有代码都托管在别人服务器上。AI 能力,同样值得被本地化、被自主化、被真正拥有。

如果你已经厌倦了登录、订阅、额度、审查、延迟和不确定性,那么 ClawdBot 提供的,正是一种久违的技术尊严:我的数据,我的模型,我的规则,我的AI。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐