ClawdBot从零开始:vLLM模型切换、OCR语音翻译集成、隐私模式设置

ClawdBot 是一个真正属于你自己的个人 AI 助手——它不依赖云端 API,不上传你的对话,所有推理和处理都在你本地设备上完成。你可以把它理解成一个“装进你电脑里的智能中枢”,既能理解文字、分析图片、转录语音,又能连接 Telegram 实时响应群聊消息。而它的能力底座,正是以高性能著称的 vLLM 推理引擎。

不同于市面上大多数开箱即用但黑盒封闭的 AI 工具,ClawdBot 的设计哲学是:可控、可查、可换、可审计。你不仅知道它在做什么,还能随时更换底层模型、接入多模态能力、甚至决定每一条消息是否留存。本文将带你从零开始,亲手完成三项关键配置:
切换并验证 vLLM 后端模型(告别默认小模型,启用 Qwen3-4B-Instruct)
集成 OCR 与语音翻译能力(让 ClawdBot 看得懂图、听得懂话)
开启并理解隐私模式(真正实现“阅后即焚”,不留痕、不外传)

整个过程无需编译、不改源码、不碰 Dockerfile,全部通过配置文件与命令行完成。哪怕你只用过 ChatGPT,也能照着一步步走通。

1. 环境准备与首次访问:让 ClawdBot “活”起来

ClawdBot 不是网页应用,也不是手机 App,而是一个运行在你本地机器上的服务程序。它默认不开放 Web 界面,需要你主动“握手认证”才能进入控制台。这一步看似繁琐,实则是它隐私优先设计的第一道防线。

1.1 启动服务并获取设备授权

假设你已通过 docker rundocker-compose up 成功启动了 ClawdBot 容器(镜像名通常为 clawdbot/clawdbot:latest),接下来要做的不是打开浏览器,而是先确认服务状态:

clawdbot devices list

你会看到类似这样的输出:

ID                                    Status    Created At             Last Seen
a1b2c3d4-e5f6-7890-g1h2-i3j4k5l6m7n8  pending   2026-01-24T10:22:15Z   -

这个 pending 状态表示:ClawdBot 已运行,但尚未信任你当前这台设备。它把每一次新设备接入都当作一次安全事件来对待——没有自动放行,只有人工确认。

执行批准命令(将 ID 替换为你实际看到的值):

clawdbot devices approve a1b2c3d4-e5f6-7890-g1h2-i3j4k5l6m7n8

批准后,再次运行 clawdbot devices list,状态会变为 active

1.2 获取 Dashboard 访问链接

此时仍不能直接访问 http://localhost:7860。因为 ClawdBot 默认采用 token 鉴权机制,防止未授权访问。运行:

clawdbot dashboard

终端会输出一段包含 token 的完整 URL,例如:

Dashboard URL: http://127.0.0.1:7860/?token=23588143fd1588692851f6cbe9218ec6b874bb859e775762

注意:这个 token 是一次性、有时效性的,且仅对当前会话有效。如果你在远程服务器上运行,需配合 SSH 端口转发:

ssh -N -L 7860:127.0.0.1:7860 user@your-server-ip

然后在本地浏览器打开 http://localhost:7860/?token=... 即可进入图形化控制台。

为什么这么麻烦?
这不是为了增加使用门槛,而是为了杜绝“本地运行却意外暴露在公网”的风险。ClawdBot 的 UI 本质是一个管理终端,就像你不会把路由器后台密码设为 admin/admin 一样,它默认拒绝一切未经显式授权的访问。

2. 模型切换实战:用 vLLM 跑起 Qwen3-4B-Instruct

ClawdBot 默认可能使用轻量级模型(如 Phi-3-mini)作为演示,但它的真正实力,在于无缝对接 vLLM 这类工业级推理框架。vLLM 的核心优势是:高吞吐、低延迟、显存利用率高——特别适合在消费级显卡(如 RTX 4090/3090)上部署中等规模模型。

本节将带你把后端模型从默认切换为 Qwen3-4B-Instruct-2507,这是通义千问最新发布的 4B 级别指令微调模型,中文理解强、响应快、支持 192K 上下文,在本地部署场景中属于“性能与能力平衡点”的优选。

2.1 修改配置文件:指向本地 vLLM 服务

ClawdBot 的模型配置集中在 ~/.clawdbot/clawdbot.json(容器内路径为 /app/clawdbot.json)。你需要编辑该文件,重点修改两处:

  • agents.defaults.model.primary:指定默认调用的模型 ID
  • models.providers.vllm.baseUrl:告诉 ClawdBot,vLLM 服务跑在哪

假设你已在同一台机器上用以下命令启动了 vLLM(推荐使用官方镜像):

docker run --gpus all -p 8000:8000 \
  --shm-size=1g --ulimit memlock=-1 --ulimit stack=67108864 \
  -v /path/to/Qwen3-4B-Instruct-2507:/models \
  ghcr.io/vllm-project/vllm-cpu:latest \
  --model /models --dtype auto --trust-remote-code \
  --served-model-name Qwen3-4B-Instruct-2507

那么你的 clawdbot.json 中对应部分应为:

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "vllm/Qwen3-4B-Instruct-2507"
      }
    }
  },
  "models": {
    "providers": {
      "vllm": {
        "baseUrl": "http://localhost:8000/v1",
        "apiKey": "sk-local",
        "api": "openai-responses",
        "models": [
          {
            "id": "Qwen3-4B-Instruct-2507",
            "name": "Qwen3-4B-Instruct-2507"
          }
        ]
      }
    }
  }
}

关键说明:

  • baseUrl 必须是容器内部可访问的地址。若 vLLM 和 ClawdBot 在不同容器中,需用 Docker 网络别名(如 vllm-service:8000)替代 localhost
  • apiKey 只是占位符,vLLM 本地部署默认不鉴权,填任意非空字符串即可
  • api: "openai-responses" 表示 ClawdBot 将按 OpenAI 兼容 API 格式与 vLLM 通信(这是标准做法)

2.2 验证模型是否就绪

保存配置后,重启 ClawdBot 容器(或执行 clawdbot reload,若支持热重载)。然后运行:

clawdbot models list

你将看到类似输出:

Model                                      Input      Ctx      Local Auth  Tags
vllm/Qwen3-4B-Instruct-2507                text       195k     yes   yes   default

出现 vllm/Qwen3-4B-Instruct-2507Ctx 显示 195k,说明:

  • ClawdBot 已成功连接 vLLM 服务
  • 模型已注册并可被调用
  • 上下文长度识别正确(Qwen3 支持超长文本)

此时你可以在 Web 控制台的聊天窗口中输入:“用三句话解释量子纠缠”,观察响应速度与语言质量——你会发现,相比默认小模型,它更严谨、更少幻觉、能处理更复杂的逻辑链。

3. 多模态能力集成:让 ClawdBot “看图说话”“听音识义”

ClawdBot 本身不内置 OCR 或语音识别模型,但它预留了清晰的扩展接口,可与 MoltBot 的多模态能力无缝协同。MoltBot 是一个专为 Telegram 设计的开源翻译机器人,其核心亮点在于:所有多模态处理均离线完成——语音用 Whisper tiny 本地转写,图片用 PaddleOCR 轻量版识别,全程不调用任何第三方云 API。

这意味着:你不需要额外部署一套 OCR 服务,只需复用 MoltBot 的已有能力模块,就能让 ClawdBot 具备“看图翻译”“听音翻译”功能。

3.1 理解 MoltBot 的多模态工作流

MoltBot 的处理链路非常干净:

用户发送图片 → ClawdBot 接收 → 转发给 MoltBot OCR 模块 → PaddleOCR 识别文字 → 返回原文 → ClawdBot 调用 vLLM 翻译 → 返回译文

语音同理:

用户发送语音 → ClawdBot 接收 → 转发给 MoltBot ASR 模块 → Whisper tiny 转写为文字 → 返回原文 → ClawdBot 翻译 → 返回译文

关键在于:MoltBot 提供了 HTTP 接口,ClawdBot 只需按约定格式发起请求即可。你不需要运行整个 MoltBot 机器人,只需启动它的 OCR 和 ASR 子服务。

3.2 启动 MoltBot 的离线处理服务

MoltBot 的 Docker 镜像已预装所需模型。启动 OCR 服务(监听端口 8081):

docker run -d -p 8081:8081 \
  -v ~/.moltbot/models:/app/models \
  moltbot/moltbot:latest \
  ocr --host 0.0.0.0:8081

启动 ASR 服务(监听端口 8082):

docker run -d -p 8082:8082 \
  -v ~/.moltbot/models:/app/models \
  moltbot/moltbot:latest \
  asr --host 0.0.0.0:8082

验证服务可用性:
curl http://localhost:8081/health 应返回 {"status":"ok"}
curl http://localhost:8082/health 同理

3.3 在 ClawdBot 中配置多模态处理器

编辑 clawdbot.json,在 agents.defaults 下新增 processors 字段:

"agents": {
  "defaults": {
    "model": { "primary": "vllm/Qwen3-4B-Instruct-2507" },
    "processors": {
      "ocr": {
        "url": "http://localhost:8081/recognize",
        "timeout": 30
      },
      "asr": {
        "url": "http://localhost:8082/transcribe",
        "timeout": 60,
        "whisper_model": "tiny"
      }
    }
  }
}

注意:

  • 若 ClawdBot 与 MoltBot 服务不在同一宿主机,请将 localhost 替换为实际 IP 或 Docker 网络别名
  • whisper_model 字段用于指定 MoltBot 内部加载的模型大小,tiny 是最轻量、最快、最适合本地部署的选择

保存后重启 ClawdBot。现在,当你在 Web 界面中上传一张含中文的菜单图片,或发送一段 5 秒的普通话语音,ClawdBot 就会自动调用本地 OCR/ASR 服务提取文字,再交由 Qwen3 模型翻译成英文——整个过程无网络外传,无中间服务商,100% 数据留在你手中。

4. 隐私模式详解:什么是“阅后即焚”,如何真正关闭日志

ClawdBot 的隐私模式不是营销话术,而是一套可验证、可配置、可审计的行为约束机制。它从三个层面保障你的数据主权:

层级 默认行为 如何关闭/开启 影响范围
内存缓存 所有对话临时驻留内存,会话结束后自动释放 无法关闭(设计使然) 无持久化风险
磁盘日志 默认完全禁用,不记录任何用户消息、模型输入/输出 通过 logLevel: "none" 显式确认 最关键防护层
数据库存储 默认不启用 SQLite 或其他持久化存储 配置 database: { enabled: false } 彻底杜绝历史回溯

4.1 确保日志完全关闭

打开 clawdbot.json,检查或添加以下字段:

{
  "logging": {
    "level": "none",
    "file": "",
    "console": false
  }
}
  • "level": "none" 是硬性开关,意味着连 INFO 级别日志都不产生
  • "file": "" 清空日志文件路径,避免误写入
  • "console": false 关闭终端输出,防止调试信息泄露

验证方式:执行任意操作后,检查容器日志 docker logs clawdbot,应仅看到启动信息,无 Received message: ...Sending response: ... 类日志。

4.2 启用“阅后即焚”增强模式

ClawdBot 还提供一个更激进的选项:在每次响应生成后,立即从内存中擦除原始输入与中间结果。这需要在 agents.defaults 中启用:

"agents": {
  "defaults": {
    "compaction": {
      "mode": "safeguard",
      "onResponse": true
    }
  }
}
  • "mode": "safeguard" 表示启用内存清理策略
  • "onResponse": true 表示在每次 AI 响应返回后立即执行清理

注意:此模式会略微增加响应延迟(毫秒级),但换来的是:即使攻击者获得内存快照,也无法从中还原出你的提问内容。

4.3 网络层隐私加固:代理与防火墙

ClawdBot 默认不主动外连,但某些功能(如汇率查询 /fx)需访问公开 API。为彻底隔离,你可配置全局代理:

{
  "network": {
    "proxy": "socks5://127.0.0.1:1080",
    "allowExternal": false
  }
}
  • proxy 指定 SOCKS5 代理地址(可对接 Clash、Surge 等)
  • "allowExternal": false 是终极保险——它会拦截所有未明确允许的出站请求,包括 DNS 查询

小技巧:想确认某项功能是否真的“零外连”?在启动 ClawdBot 前,先运行 sudo ss -tuln | grep :7860 占用端口,再启动。如果 ClawdBot 报错 Address already in use,说明它没尝试连接外部服务;若报错 Connection refused,则证明它试图连接某个外部地址。

5. 总结:你掌控的,不只是一个工具,而是一个可信的 AI 副驾驶

到此为止,你已完成 ClawdBot 的三大核心配置:
🔹 模型升级:用 vLLM 驱动 Qwen3-4B-Instruct,获得专业级中文理解与长文本处理能力;
🔹 多模态扩展:复用 MoltBot 的离线 OCR 与 Whisper tiny,让 ClawdBot 真正“看得见、听得懂”;
🔹 隐私加固:从日志关闭、内存擦除到网络拦截,构建三层可信边界,确保每一字一句只存在于你指定的物理空间内。

这不是一次简单的软件配置,而是一次对 AI 使用范式的重新定义——你不再是一个被动接受服务的用户,而是模型的调度者、能力的组装者、数据的守护者。

ClawdBot 的价值,不在于它能做什么,而在于它允许你决定它能做什么、不能做什么、以及怎么做。当别人还在担心聊天记录被上传、图片被分析、语音被转录时,你已经拥有了一个完全透明、完全可控、完全属于自己的 AI 副驾驶。

下一步,你可以:
→ 尝试在 clawdbot.json 中添加自定义 prompt 模板,让 Qwen3 固定以某种风格回复;
→ 将 OCR 服务换成你训练的专用模型(只需修改 MoltBot 的 --model-path 参数);
→ 用 clawdbot agents create 创建多个角色代理,分别处理客服、写作、编程等任务。

技术的终点,从来不是功能堆砌,而是回归人的自主性。你刚刚迈出的,正是那一步。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐