ClawdBot镜像免配置：docker-compose一键拉起，含Whisper tiny+PaddleOCR

本文介绍了如何在星图GPU平台上自动化部署ClawdBot镜像，集成Whisper tiny语音转写与PaddleOCR图文识别能力，实现本地化多模态AI助手的一键启用。典型应用场景包括上传英文说明书截图后自动OCR识别、翻译为中文并结构化提炼关键操作步骤，全程离线、隐私安全、无需手动配置。

十除以十等于一

124人浏览 · 2026-01-30 02:29:21

十除以十等于一 · 2026-01-30 02:29:21 发布

ClawdBot镜像免配置：docker-compose一键拉起，含Whisper tiny+PaddleOCR

你有没有试过想搭一个真正属于自己的AI助手，却卡在环境配置、模型下载、API密钥、端口冲突这些琐事上？不是报错就是超时，不是缺依赖就是显存炸了——最后连首页都打不开，更别说让它听懂你说的话、看懂你发的图。

ClawdBot 就是为解决这个问题而生的。它不是一个需要你手动编译、反复调试、查文档到凌晨三点的“实验性项目”，而是一个开箱即用、部署即对话、语音图片文字全通吃的本地AI助手系统。它不依赖云服务，不上传隐私数据，也不要求你有GPU服务器——一台树莓派4、一台旧笔记本、甚至一台2核4G的轻量云主机，就能跑起来。

更关键的是：它把最麻烦的多模态能力，悄悄打包进了一个 docker-compose.yml 里。

1. 为什么说ClawdBot是“真·免配置”？

1.1 不是“简化配置”，而是“默认就对”

很多所谓“一键部署”的AI项目，点开文档第一行就是：“请先安装Python 3.11+、CUDA 12.1、vLLM 0.6.3.post1……”
ClawdBot 不这样。它的镜像里已经预装了：

vLLM 运行时（支持Qwen3-4B等主流推理模型）
Whisper tiny（本地语音转写，无需联网调用OpenAI API）
PaddleOCR v2.7（中英文混合识别准确率高，离线运行）
FastAPI + WebUI 前端（Gradio风格控制台，带Token鉴权）
内置模型路由与Agent调度器（自动分发语音→Whisper→翻译，图片→OCR→理解→响应）

所有组件版本已验证兼容，模型权重随镜像分发，不需要你单独git clone、pip install或huggingface-cli download。你唯一要做的，就是复制粘贴一条命令。

1.2 docker-compose.yml 里藏了什么？

这是它真正的“免配置”核心。我们来看实际内容（已精简注释）：

# docker-compose.yml
version: '3.8'
services:
  clawdbot:
    image: ghcr.io/clawd-bot/clawdbot:2026.1.24
    ports:
      - "7860:7860"   # WebUI
      - "18780:18780" # Gateway WebSocket
    volumes:
      - ./workspace:/app/workspace
      - ./clawdbot.json:/app/clawdbot.json
      - ~/.clawdbot:/root/.clawdbot
    environment:
      - CLAWDBOT_ENV=prod
      - TZ=Asia/Shanghai
    restart: unless-stopped

注意三个关键设计：

./clawdbot.json 映射为只读配置：首次启动会自动生成最小可用配置，你只需改几处字段（比如模型ID），不用从零写JSON
~/.clawdbot 挂载到容器内：所有设备配对记录、会话历史、模型缓存都落盘在宿主机，重启不丢数据
端口明确分离：7860给浏览器访问UI，18780留给Telegram等渠道接入，互不干扰

没有 .env 文件要填，没有 --gpus all 要加，没有 --shm-size=2g 要记。就连 docker-compose up -d 之后，它自己会检测缺失模型并静默拉取——你只需要等90秒，然后打开 http://localhost:7860。

1.3 零信任设备配对：比扫码还简单

ClawdBot 的WebUI默认不直接开放，这是出于安全考虑——但它的配对流程反而比微信扫码更轻量：

启动后执行 clawdbot devices list，你会看到类似这样的待处理请求：

ID       Status     Created              Device Name
abc123   pending    2026-01-24 14:22:05  Chrome on MacBook Pro

复制ID，执行 clawdbot devices approve abc123
刷新页面，立刻进入控制台

整个过程不需要生成二维码、不需要手机APP、不需要登录第三方账号。它用的是本地WebSocket心跳+一次性Token校验，所有通信走localhost，连HTTPS证书都不用配。

小技巧：如果你在远程服务器上部署，终端执行 clawdbot dashboard 会输出带Token的本地转发链接，配合一句 ssh -L 7860:localhost:7860 user@server，就能在本地浏览器直连，完全避开Nginx反代和SSL配置。

2. 多模态能力怎么“塞进300MB镜像”？

2.1 Whisper tiny：12MB模型，1秒内出字幕

很多人以为语音转写必须用Whisper base或large——其实tiny版在中文日常对话场景下，准确率并不低。ClawdBot选它，不是妥协，而是精准取舍：

参数仅14M，加载快（树莓派4上冷启动<3秒）
支持实时流式输入（不是等整段说完才出结果）
自动检测语言（中/英/日/韩/法/西…共99种）
❌ 不追求学术级ASR精度，但足够支撑“语音提问→转文字→喂给大模型→返回答案”闭环

实测一段15秒的带口音普通话录音（“帮我查一下今天北京天气，再翻译成英文”），Whisper tiny平均耗时0.87秒，文字输出完整无漏字，标点基本合理。

你不需要调任何参数。只要在UI里上传音频文件，或点击麦克风按钮说话，背后自动触发：

audio.wav → whisper-tiny → text → /v1/chat/completions → response

2.2 PaddleOCR：不靠GPU也能看清发票和截图

PaddleOCR 的轻量版（PP-OCRv4）在CPU上推理速度可达12 FPS（1080p截图），ClawdBot内置的就是这个优化分支。它能做什么？

识别手机截图里的微信聊天记录（含emoji位置保留）
提取PDF扫描件中的表格文字（自动分行分列）
读取商品包装上的中英文混排成分表
支持竖排文本（古籍、日文漫画对话框）

重点在于：识别完不是结束，而是开始。ClawdBot会把OCR结果自动拼成提示词，喂给Qwen3模型，实现“看图问答”：

你上传一张餐厅菜单截图 → OCR提取出“宫保鸡丁 ¥38 | 麻婆豆腐 ¥28 | 冰镇酸梅汤 ¥15” → 模型理解后回答：“推荐点宫保鸡丁和酸梅汤，一共53元，适合两人用餐。”

整个链路全部离线，不调用任何外部OCR API，不传图到云端，不产生额外费用。

2.3 模型热切换：改个ID，秒换大脑

ClawdBot 的模型管理不是“换镜像”，而是“换配置”。你不需要重拉镜像、不用删容器、不用清缓存。

只需修改 clawdbot.json 中这一段：

"models": {
  "mode": "merge",
  "providers": {
    "vllm": {
      "baseUrl": "http://localhost:8000/v1",
      "models": [
        {
          "id": "Qwen3-4B-Instruct-2507",
          "name": "Qwen3-4B-Instruct-2507"
        }
      ]
    }
  }
}

把 "id" 改成 "Qwen2.5-7B-Instruct" 或 "Phi-3-mini-4k-instruct"，保存后执行：

clawdbot models reload

几秒钟后，clawdbot models list 就会显示新模型已就绪。整个过程不影响正在运行的对话，老会话继续用旧模型，新会话自动切到新模型。

真实体验：我们在一台16GB内存的MacBook Pro上，同时加载了Qwen3-4B和Phi-3-mini两个模型，vLLM自动分配显存，响应延迟稳定在350ms以内。你甚至可以在UI里给不同Agent指定不同模型——比如“语音转写用Phi-3，复杂推理用Qwen3”。

3. 和MoltBot对比：它们解决的是同一类问题，但路径不同

看到这里你可能会问：这不就是MoltBot干的事吗？都是Telegram机器人，都做语音+OCR+翻译。

没错，但ClawdBot和MoltBot的定位差异，就像“瑞士军刀”和“专业手术刀”：

维度	MoltBot	ClawdBot
核心目标	快速上线一个功能完整的Telegram机器人	构建一个可扩展、可定制的本地AI中枢
部署粒度	单容器，all-in-one，开箱即用	模块化设计，支持独立启停vLLM/Whisper/OCR服务
交互入口	Telegram聊天界面（用户无感知后端）	WebUI + CLI + 可选Telegram/Slack/Discord插件
定制深度	配置文件改语言列表、开关功能模块	可替换模型、重写Agent逻辑、接入自定义工具函数
适用人群	想5分钟让群友用上翻译机器人的运营者	想基于本地AI构建工作流、自动化、私有知识库的开发者

举个例子：

如果你只想在Telegram群里让大家发张图自动翻译，MoltBot一行docker run搞定；
但如果你想把OCR识别结果自动存入Notion、把语音会议纪要生成待办清单、把客户咨询分类后推送到飞书多维表格——ClawdBot的Agent系统和WebUI工具链，才是更自然的选择。

它们不是竞争关系，而是互补。事实上，ClawdBot官方文档里就有一节《How to use MoltBot as a ClawdBot channel》，教你把MoltBot作为ClawdBot的一个消息通道来用——一个管“接入”，一个管“思考”。

4. 实战：三步完成你的第一个多模态任务

别光看原理，我们来动手。假设你想实现这样一个需求：

“把手机拍的一张英文说明书照片，翻译成中文，并总结三个关键操作步骤。”

4.1 第一步：上传图片，触发OCR

打开 http://localhost:7860 → 左侧菜单点 Files → 点击“Upload Image” → 选择你的英文说明书截图。

几秒后，右侧会显示OCR识别出的纯文本，类似：

1. Press and hold the POWER button for 3 seconds to turn on.
2. Connect to Wi-Fi: Settings > Network > Wi-Fi > Select your SSID.
3. Open the companion app and scan the QR code on the device label.

4.2 第二步：用自然语言发起指令

在聊天框输入（不用写prompt工程）：

“把上面识别的文字翻译成中文，并用三点式列出关键操作步骤。”

ClawdBot会自动将OCR文本作为上下文，调用Qwen3模型生成：

1. 长按电源键3秒开机。  
2. 连接Wi-Fi：设置 > 网络 > Wi-Fi > 选择你的网络名称。  
3. 打开配套App，扫描设备标签上的二维码。

整个过程无需切换窗口、无需复制粘贴、无需记住特殊指令格式。就像跟一个懂技术的朋友对话。

4.3 第三步：保存结果，或导出为Markdown

点击每条消息右上角的「⋯」→ 选择“Export as Markdown”，即可生成带时间戳、来源标注的文档，直接发给同事或存入Obsidian。

你甚至可以设置“自动归档”规则：所有含“说明书”关键词的对话，自动保存到/workspace/manuals/目录下，按日期建子文件夹。

这才是本地AI助手该有的样子——不炫技，不堆参数，只解决你手边真实存在的问题。

5. 常见问题与避坑指南

5.1 为什么第一次访问页面是空白或404？

这不是程序错误，而是设备未授权。ClawdBot默认启用设备白名单机制，防止未授权访问。
正确做法：按本文第二部分操作 clawdbot devices list → approve，不要尝试改Nginx配置或删Token。

5.2 Whisper转写总是慢半拍，或识别不准？

检查两点：

你的音频是否为单声道、16kHz采样率（ClawdBot对MP3/WAV/OGG均支持，但高采样率WAV需转码）
容器是否被限制CPU资源？docker stats 查看clawdbot进程CPU使用率，若长期>95%，请在compose中添加：
```
deploy:
  resources:
    limits:
      cpus: '2.0'
```