ClawdBot从零开始：vLLM模型切换、OCR语音翻译集成、隐私模式设置

本文介绍了如何在星图GPU平台上自动化部署ClawdBot镜像，构建本地化、隐私优先的个人AI助手。通过平台一键拉起容器，用户可快速启用vLLM加速的Qwen3模型，并集成OCR与语音翻译能力，典型应用于私密场景下的图片文字识别与实时语音翻译。

黄冈新学爸

162人浏览 · 2026-01-29 01:17:24

黄冈新学爸 · 2026-01-29 01:17:24 发布

ClawdBot从零开始：vLLM模型切换、OCR语音翻译集成、隐私模式设置

ClawdBot 是一个真正属于你自己的个人 AI 助手——它不依赖云端 API，不上传你的对话，所有推理和处理都在你本地设备上完成。你可以把它理解成一个“装进你电脑里的智能中枢”，既能理解文字、分析图片、转录语音，又能连接 Telegram 实时响应群聊消息。而它的能力底座，正是以高性能著称的 vLLM 推理引擎。

不同于市面上大多数开箱即用但黑盒封闭的 AI 工具，ClawdBot 的设计哲学是：可控、可查、可换、可审计。你不仅知道它在做什么，还能随时更换底层模型、接入多模态能力、甚至决定每一条消息是否留存。本文将带你从零开始，亲手完成三项关键配置：
切换并验证 vLLM 后端模型（告别默认小模型，启用 Qwen3-4B-Instruct）
集成 OCR 与语音翻译能力（让 ClawdBot 看得懂图、听得懂话）
开启并理解隐私模式（真正实现“阅后即焚”，不留痕、不外传）

整个过程无需编译、不改源码、不碰 Dockerfile，全部通过配置文件与命令行完成。哪怕你只用过 ChatGPT，也能照着一步步走通。

1. 环境准备与首次访问：让 ClawdBot “活”起来

ClawdBot 不是网页应用，也不是手机 App，而是一个运行在你本地机器上的服务程序。它默认不开放 Web 界面，需要你主动“握手认证”才能进入控制台。这一步看似繁琐，实则是它隐私优先设计的第一道防线。

1.1 启动服务并获取设备授权

假设你已通过 docker run 或 docker-compose up 成功启动了 ClawdBot 容器（镜像名通常为 clawdbot/clawdbot:latest），接下来要做的不是打开浏览器，而是先确认服务状态：

clawdbot devices list

你会看到类似这样的输出：

ID                                    Status    Created At             Last Seen
a1b2c3d4-e5f6-7890-g1h2-i3j4k5l6m7n8  pending   2026-01-24T10:22:15Z   -

这个 pending 状态表示：ClawdBot 已运行，但尚未信任你当前这台设备。它把每一次新设备接入都当作一次安全事件来对待——没有自动放行，只有人工确认。

执行批准命令（将 ID 替换为你实际看到的值）：

clawdbot devices approve a1b2c3d4-e5f6-7890-g1h2-i3j4k5l6m7n8

批准后，再次运行 clawdbot devices list，状态会变为 active。

1.2 获取 Dashboard 访问链接

此时仍不能直接访问 http://localhost:7860。因为 ClawdBot 默认采用 token 鉴权机制，防止未授权访问。运行：

clawdbot dashboard

终端会输出一段包含 token 的完整 URL，例如：

Dashboard URL: http://127.0.0.1:7860/?token=23588143fd1588692851f6cbe9218ec6b874bb859e775762

注意：这个 token 是一次性、有时效性的，且仅对当前会话有效。如果你在远程服务器上运行，需配合 SSH 端口转发：

ssh -N -L 7860:127.0.0.1:7860 user@your-server-ip

然后在本地浏览器打开 http://localhost:7860/?token=... 即可进入图形化控制台。

为什么这么麻烦？
这不是为了增加使用门槛，而是为了杜绝“本地运行却意外暴露在公网”的风险。ClawdBot 的 UI 本质是一个管理终端，就像你不会把路由器后台密码设为 admin/admin 一样，它默认拒绝一切未经显式授权的访问。

2. 模型切换实战：用 vLLM 跑起 Qwen3-4B-Instruct

ClawdBot 默认可能使用轻量级模型（如 Phi-3-mini）作为演示，但它的真正实力，在于无缝对接 vLLM 这类工业级推理框架。vLLM 的核心优势是：高吞吐、低延迟、显存利用率高——特别适合在消费级显卡（如 RTX 4090/3090）上部署中等规模模型。

本节将带你把后端模型从默认切换为 Qwen3-4B-Instruct-2507，这是通义千问最新发布的 4B 级别指令微调模型，中文理解强、响应快、支持 192K 上下文，在本地部署场景中属于“性能与能力平衡点”的优选。

2.1 修改配置文件：指向本地 vLLM 服务

ClawdBot 的模型配置集中在 ~/.clawdbot/clawdbot.json（容器内路径为 /app/clawdbot.json）。你需要编辑该文件，重点修改两处：

agents.defaults.model.primary：指定默认调用的模型 ID
models.providers.vllm.baseUrl：告诉 ClawdBot，vLLM 服务跑在哪

假设你已在同一台机器上用以下命令启动了 vLLM（推荐使用官方镜像）：

docker run --gpus all -p 8000:8000 \
  --shm-size=1g --ulimit memlock=-1 --ulimit stack=67108864 \
  -v /path/to/Qwen3-4B-Instruct-2507:/models \
  ghcr.io/vllm-project/vllm-cpu:latest \
  --model /models --dtype auto --trust-remote-code \
  --served-model-name Qwen3-4B-Instruct-2507

那么你的 clawdbot.json 中对应部分应为：

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "vllm/Qwen3-4B-Instruct-2507"
      }
    }
  },
  "models": {
    "providers": {
      "vllm": {
        "baseUrl": "http://localhost:8000/v1",
        "apiKey": "sk-local",
        "api": "openai-responses",
        "models": [
          {
            "id": "Qwen3-4B-Instruct-2507",
            "name": "Qwen3-4B-Instruct-2507"
          }
        ]
      }
    }
  }
}

关键说明：

baseUrl 必须是容器内部可访问的地址。若 vLLM 和 ClawdBot 在不同容器中，需用 Docker 网络别名（如 vllm-service:8000）替代 localhost
apiKey 只是占位符，vLLM 本地部署默认不鉴权，填任意非空字符串即可
api: "openai-responses" 表示 ClawdBot 将按 OpenAI 兼容 API 格式与 vLLM 通信（这是标准做法）

2.2 验证模型是否就绪

保存配置后，重启 ClawdBot 容器（或执行 clawdbot reload，若支持热重载）。然后运行：

clawdbot models list

你将看到类似输出：

Model                                      Input      Ctx      Local Auth  Tags
vllm/Qwen3-4B-Instruct-2507                text       195k     yes   yes   default

出现 vllm/Qwen3-4B-Instruct-2507 且 Ctx 显示 195k，说明：

ClawdBot 已成功连接 vLLM 服务
模型已注册并可被调用
上下文长度识别正确（Qwen3 支持超长文本）

此时你可以在 Web 控制台的聊天窗口中输入：“用三句话解释量子纠缠”，观察响应速度与语言质量——你会发现，相比默认小模型，它更严谨、更少幻觉、能处理更复杂的逻辑链。

3. 多模态能力集成：让 ClawdBot “看图说话”“听音识义”

ClawdBot 本身不内置 OCR 或语音识别模型，但它预留了清晰的扩展接口，可与 MoltBot 的多模态能力无缝协同。MoltBot 是一个专为 Telegram 设计的开源翻译机器人，其核心亮点在于：所有多模态处理均离线完成——语音用 Whisper tiny 本地转写，图片用 PaddleOCR 轻量版识别，全程不调用任何第三方云 API。

这意味着：你不需要额外部署一套 OCR 服务，只需复用 MoltBot 的已有能力模块，就能让 ClawdBot 具备“看图翻译”“听音翻译”功能。

3.1 理解 MoltBot 的多模态工作流

MoltBot 的处理链路非常干净：

用户发送图片 → ClawdBot 接收 → 转发给 MoltBot OCR 模块 → PaddleOCR 识别文字 → 返回原文 → ClawdBot 调用 vLLM 翻译 → 返回译文

语音同理：

用户发送语音 → ClawdBot 接收 → 转发给 MoltBot ASR 模块 → Whisper tiny 转写为文字 → 返回原文 → ClawdBot 翻译 → 返回译文

关键在于：MoltBot 提供了 HTTP 接口，ClawdBot 只需按约定格式发起请求即可。你不需要运行整个 MoltBot 机器人，只需启动它的 OCR 和 ASR 子服务。

3.2 启动 MoltBot 的离线处理服务

MoltBot 的 Docker 镜像已预装所需模型。启动 OCR 服务（监听端口 8081）：

docker run -d -p 8081:8081 \
  -v ~/.moltbot/models:/app/models \
  moltbot/moltbot:latest \
  ocr --host 0.0.0.0:8081

启动 ASR 服务（监听端口 8082）：

docker run -d -p 8082:8082 \
  -v ~/.moltbot/models:/app/models \
  moltbot/moltbot:latest \
  asr --host 0.0.0.0:8082

验证服务可用性：
curl http://localhost:8081/health 应返回 {"status":"ok"}
curl http://localhost:8082/health 同理

3.3 在 ClawdBot 中配置多模态处理器

编辑 clawdbot.json，在 agents.defaults 下新增 processors 字段：

"agents": {
  "defaults": {
    "model": { "primary": "vllm/Qwen3-4B-Instruct-2507" },
    "processors": {
      "ocr": {
        "url": "http://localhost:8081/recognize",
        "timeout": 30
      },
      "asr": {
        "url": "http://localhost:8082/transcribe",
        "timeout": 60,
        "whisper_model": "tiny"
      }
    }
  }
}

注意：

若 ClawdBot 与 MoltBot 服务不在同一宿主机，请将 localhost 替换为实际 IP 或 Docker 网络别名
whisper_model 字段用于指定 MoltBot 内部加载的模型大小，tiny 是最轻量、最快、最适合本地部署的选择

保存后重启 ClawdBot。现在，当你在 Web 界面中上传一张含中文的菜单图片，或发送一段 5 秒的普通话语音，ClawdBot 就会自动调用本地 OCR/ASR 服务提取文字，再交由 Qwen3 模型翻译成英文——整个过程无网络外传，无中间服务商，100% 数据留在你手中。

4. 隐私模式详解：什么是“阅后即焚”，如何真正关闭日志

ClawdBot 的隐私模式不是营销话术，而是一套可验证、可配置、可审计的行为约束机制。它从三个层面保障你的数据主权：

层级	默认行为	如何关闭/开启	影响范围
内存缓存	所有对话临时驻留内存，会话结束后自动释放	无法关闭（设计使然）	无持久化风险
磁盘日志	默认完全禁用，不记录任何用户消息、模型输入/输出	通过 `logLevel: "none"` 显式确认	最关键防护层
数据库存储	默认不启用 SQLite 或其他持久化存储	配置 `database: { enabled: false }`	彻底杜绝历史回溯

4.1 确保日志完全关闭

打开 clawdbot.json，检查或添加以下字段：

{
  "logging": {
    "level": "none",
    "file": "",
    "console": false
  }
}

"level": "none" 是硬性开关，意味着连 INFO 级别日志都不产生
"file": "" 清空日志文件路径，避免误写入
"console": false 关闭终端输出，防止调试信息泄露

验证方式：执行任意操作后，检查容器日志 docker logs clawdbot，应仅看到启动信息，无 Received message: ... 或 Sending response: ... 类日志。

4.2 启用“阅后即焚”增强模式

ClawdBot 还提供一个更激进的选项：在每次响应生成后，立即从内存中擦除原始输入与中间结果。这需要在 agents.defaults 中启用：

"agents": {
  "defaults": {
    "compaction": {
      "mode": "safeguard",
      "onResponse": true
    }
  }
}

"mode": "safeguard" 表示启用内存清理策略
"onResponse": true 表示在每次 AI 响应返回后立即执行清理

注意：此模式会略微增加响应延迟（毫秒级），但换来的是：即使攻击者获得内存快照，也无法从中还原出你的提问内容。

4.3 网络层隐私加固：代理与防火墙

ClawdBot 默认不主动外连，但某些功能（如汇率查询 /fx）需访问公开 API。为彻底隔离，你可配置全局代理：

{
  "network": {
    "proxy": "socks5://127.0.0.1:1080",
    "allowExternal": false
  }
}

proxy 指定 SOCKS5 代理地址（可对接 Clash、Surge 等）
"allowExternal": false 是终极保险——它会拦截所有未明确允许的出站请求，包括 DNS 查询

小技巧：想确认某项功能是否真的“零外连”？在启动 ClawdBot 前，先运行 sudo ss -tuln | grep :7860 占用端口，再启动。如果 ClawdBot 报错 Address already in use，说明它没尝试连接外部服务；若报错 Connection refused，则证明它试图连接某个外部地址。

5. 总结：你掌控的，不只是一个工具，而是一个可信的 AI 副驾驶

到此为止，你已完成 ClawdBot 的三大核心配置：
🔹 模型升级：用 vLLM 驱动 Qwen3-4B-Instruct，获得专业级中文理解与长文本处理能力；
🔹 多模态扩展：复用 MoltBot 的离线 OCR 与 Whisper tiny，让 ClawdBot 真正“看得见、听得懂”；
🔹 隐私加固：从日志关闭、内存擦除到网络拦截，构建三层可信边界，确保每一字一句只存在于你指定的物理空间内。

这不是一次简单的软件配置，而是一次对 AI 使用范式的重新定义——你不再是一个被动接受服务的用户，而是模型的调度者、能力的组装者、数据的守护者。

ClawdBot 的价值，不在于它能做什么，而在于它允许你决定它能做什么、不能做什么、以及怎么做。当别人还在担心聊天记录被上传、图片被分析、语音被转录时，你已经拥有了一个完全透明、完全可控、完全属于自己的 AI 副驾驶。

下一步，你可以：
→ 尝试在 clawdbot.json 中添加自定义 prompt 模板，让 Qwen3 固定以某种风格回复；
→ 将 OCR 服务换成你训练的专用模型（只需修改 MoltBot 的 --model-path 参数）；
→ 用 clawdbot agents create 创建多个角色代理，分别处理客服、写作、编程等任务。

技术的终点，从来不是功能堆砌，而是回归人的自主性。你刚刚迈出的，正是那一步。