ClawdBot镜像免配置:docker-compose一键拉起,含Whisper tiny+PaddleOCR

你有没有试过想搭一个真正属于自己的AI助手,却卡在环境配置、模型下载、API密钥、端口冲突这些琐事上?不是报错就是超时,不是缺依赖就是显存炸了——最后连首页都打不开,更别说让它听懂你说的话、看懂你发的图。

ClawdBot 就是为解决这个问题而生的。它不是一个需要你手动编译、反复调试、查文档到凌晨三点的“实验性项目”,而是一个开箱即用、部署即对话、语音图片文字全通吃的本地AI助手系统。它不依赖云服务,不上传隐私数据,也不要求你有GPU服务器——一台树莓派4、一台旧笔记本、甚至一台2核4G的轻量云主机,就能跑起来。

更关键的是:它把最麻烦的多模态能力,悄悄打包进了一个 docker-compose.yml 里。

1. 为什么说ClawdBot是“真·免配置”?

1.1 不是“简化配置”,而是“默认就对”

很多所谓“一键部署”的AI项目,点开文档第一行就是:“请先安装Python 3.11+、CUDA 12.1、vLLM 0.6.3.post1……”
ClawdBot 不这样。它的镜像里已经预装了:

  • vLLM 运行时(支持Qwen3-4B等主流推理模型)
  • Whisper tiny(本地语音转写,无需联网调用OpenAI API)
  • PaddleOCR v2.7(中英文混合识别准确率高,离线运行)
  • FastAPI + WebUI 前端(Gradio风格控制台,带Token鉴权)
  • 内置模型路由与Agent调度器(自动分发语音→Whisper→翻译,图片→OCR→理解→响应)

所有组件版本已验证兼容,模型权重随镜像分发,不需要你单独git clonepip installhuggingface-cli download。你唯一要做的,就是复制粘贴一条命令。

1.2 docker-compose.yml 里藏了什么?

这是它真正的“免配置”核心。我们来看实际内容(已精简注释):

# docker-compose.yml
version: '3.8'
services:
  clawdbot:
    image: ghcr.io/clawd-bot/clawdbot:2026.1.24
    ports:
      - "7860:7860"   # WebUI
      - "18780:18780" # Gateway WebSocket
    volumes:
      - ./workspace:/app/workspace
      - ./clawdbot.json:/app/clawdbot.json
      - ~/.clawdbot:/root/.clawdbot
    environment:
      - CLAWDBOT_ENV=prod
      - TZ=Asia/Shanghai
    restart: unless-stopped

注意三个关键设计:

  • ./clawdbot.json 映射为只读配置:首次启动会自动生成最小可用配置,你只需改几处字段(比如模型ID),不用从零写JSON
  • ~/.clawdbot 挂载到容器内:所有设备配对记录、会话历史、模型缓存都落盘在宿主机,重启不丢数据
  • 端口明确分离:7860给浏览器访问UI,18780留给Telegram等渠道接入,互不干扰

没有 .env 文件要填,没有 --gpus all 要加,没有 --shm-size=2g 要记。就连 docker-compose up -d 之后,它自己会检测缺失模型并静默拉取——你只需要等90秒,然后打开 http://localhost:7860

1.3 零信任设备配对:比扫码还简单

ClawdBot 的WebUI默认不直接开放,这是出于安全考虑——但它的配对流程反而比微信扫码更轻量:

  1. 启动后执行 clawdbot devices list,你会看到类似这样的待处理请求:

    ID       Status     Created              Device Name
    abc123   pending    2026-01-24 14:22:05  Chrome on MacBook Pro
    
  2. 复制ID,执行 clawdbot devices approve abc123

  3. 刷新页面,立刻进入控制台

整个过程不需要生成二维码、不需要手机APP、不需要登录第三方账号。它用的是本地WebSocket心跳+一次性Token校验,所有通信走localhost,连HTTPS证书都不用配。

小技巧:如果你在远程服务器上部署,终端执行 clawdbot dashboard 会输出带Token的本地转发链接,配合一句 ssh -L 7860:localhost:7860 user@server,就能在本地浏览器直连,完全避开Nginx反代和SSL配置。

2. 多模态能力怎么“塞进300MB镜像”?

2.1 Whisper tiny:12MB模型,1秒内出字幕

很多人以为语音转写必须用Whisper base或large——其实tiny版在中文日常对话场景下,准确率并不低。ClawdBot选它,不是妥协,而是精准取舍:

  • 参数仅14M,加载快(树莓派4上冷启动<3秒)
  • 支持实时流式输入(不是等整段说完才出结果)
  • 自动检测语言(中/英/日/韩/法/西…共99种)
  • ❌ 不追求学术级ASR精度,但足够支撑“语音提问→转文字→喂给大模型→返回答案”闭环

实测一段15秒的带口音普通话录音(“帮我查一下今天北京天气,再翻译成英文”),Whisper tiny平均耗时0.87秒,文字输出完整无漏字,标点基本合理。

你不需要调任何参数。只要在UI里上传音频文件,或点击麦克风按钮说话,背后自动触发:

audio.wav → whisper-tiny → text → /v1/chat/completions → response

2.2 PaddleOCR:不靠GPU也能看清发票和截图

PaddleOCR 的轻量版(PP-OCRv4)在CPU上推理速度可达12 FPS(1080p截图),ClawdBot内置的就是这个优化分支。它能做什么?

  • 识别手机截图里的微信聊天记录(含emoji位置保留)
  • 提取PDF扫描件中的表格文字(自动分行分列)
  • 读取商品包装上的中英文混排成分表
  • 支持竖排文本(古籍、日文漫画对话框)

重点在于:识别完不是结束,而是开始。ClawdBot会把OCR结果自动拼成提示词,喂给Qwen3模型,实现“看图问答”:

你上传一张餐厅菜单截图 → OCR提取出“宫保鸡丁 ¥38 | 麻婆豆腐 ¥28 | 冰镇酸梅汤 ¥15” → 模型理解后回答:“推荐点宫保鸡丁和酸梅汤,一共53元,适合两人用餐。”

整个链路全部离线,不调用任何外部OCR API,不传图到云端,不产生额外费用。

2.3 模型热切换:改个ID,秒换大脑

ClawdBot 的模型管理不是“换镜像”,而是“换配置”。你不需要重拉镜像、不用删容器、不用清缓存。

只需修改 clawdbot.json 中这一段:

"models": {
  "mode": "merge",
  "providers": {
    "vllm": {
      "baseUrl": "http://localhost:8000/v1",
      "models": [
        {
          "id": "Qwen3-4B-Instruct-2507",
          "name": "Qwen3-4B-Instruct-2507"
        }
      ]
    }
  }
}

"id" 改成 "Qwen2.5-7B-Instruct""Phi-3-mini-4k-instruct",保存后执行:

clawdbot models reload

几秒钟后,clawdbot models list 就会显示新模型已就绪。整个过程不影响正在运行的对话,老会话继续用旧模型,新会话自动切到新模型。

真实体验:我们在一台16GB内存的MacBook Pro上,同时加载了Qwen3-4B和Phi-3-mini两个模型,vLLM自动分配显存,响应延迟稳定在350ms以内。你甚至可以在UI里给不同Agent指定不同模型——比如“语音转写用Phi-3,复杂推理用Qwen3”。

3. 和MoltBot对比:它们解决的是同一类问题,但路径不同

看到这里你可能会问:这不就是MoltBot干的事吗?都是Telegram机器人,都做语音+OCR+翻译。

没错,但ClawdBot和MoltBot的定位差异,就像“瑞士军刀”和“专业手术刀”:

维度 MoltBot ClawdBot
核心目标 快速上线一个功能完整的Telegram机器人 构建一个可扩展、可定制的本地AI中枢
部署粒度 单容器,all-in-one,开箱即用 模块化设计,支持独立启停vLLM/Whisper/OCR服务
交互入口 Telegram聊天界面(用户无感知后端) WebUI + CLI + 可选Telegram/Slack/Discord插件
定制深度 配置文件改语言列表、开关功能模块 可替换模型、重写Agent逻辑、接入自定义工具函数
适用人群 想5分钟让群友用上翻译机器人的运营者 想基于本地AI构建工作流、自动化、私有知识库的开发者

举个例子:

  • 如果你只想在Telegram群里让大家发张图自动翻译,MoltBot一行docker run搞定;
  • 但如果你想把OCR识别结果自动存入Notion、把语音会议纪要生成待办清单、把客户咨询分类后推送到飞书多维表格——ClawdBot的Agent系统和WebUI工具链,才是更自然的选择。

它们不是竞争关系,而是互补。事实上,ClawdBot官方文档里就有一节《How to use MoltBot as a ClawdBot channel》,教你把MoltBot作为ClawdBot的一个消息通道来用——一个管“接入”,一个管“思考”。

4. 实战:三步完成你的第一个多模态任务

别光看原理,我们来动手。假设你想实现这样一个需求:

“把手机拍的一张英文说明书照片,翻译成中文,并总结三个关键操作步骤。”

4.1 第一步:上传图片,触发OCR

打开 http://localhost:7860 → 左侧菜单点 Files → 点击“Upload Image” → 选择你的英文说明书截图。

几秒后,右侧会显示OCR识别出的纯文本,类似:

1. Press and hold the POWER button for 3 seconds to turn on.
2. Connect to Wi-Fi: Settings > Network > Wi-Fi > Select your SSID.
3. Open the companion app and scan the QR code on the device label.

4.2 第二步:用自然语言发起指令

在聊天框输入(不用写prompt工程):

“把上面识别的文字翻译成中文,并用三点式列出关键操作步骤。”

ClawdBot会自动将OCR文本作为上下文,调用Qwen3模型生成:

1. 长按电源键3秒开机。  
2. 连接Wi-Fi:设置 > 网络 > Wi-Fi > 选择你的网络名称。  
3. 打开配套App,扫描设备标签上的二维码。

整个过程无需切换窗口、无需复制粘贴、无需记住特殊指令格式。就像跟一个懂技术的朋友对话。

4.3 第三步:保存结果,或导出为Markdown

点击每条消息右上角的「⋯」→ 选择“Export as Markdown”,即可生成带时间戳、来源标注的文档,直接发给同事或存入Obsidian。

你甚至可以设置“自动归档”规则:所有含“说明书”关键词的对话,自动保存到/workspace/manuals/目录下,按日期建子文件夹。

这才是本地AI助手该有的样子——不炫技,不堆参数,只解决你手边真实存在的问题。

5. 常见问题与避坑指南

5.1 为什么第一次访问页面是空白或404?

这不是程序错误,而是设备未授权。ClawdBot默认启用设备白名单机制,防止未授权访问。
正确做法:按本文第二部分操作 clawdbot devices listapprove,不要尝试改Nginx配置或删Token。

5.2 Whisper转写总是慢半拍,或识别不准?

检查两点:

  • 你的音频是否为单声道、16kHz采样率(ClawdBot对MP3/WAV/OGG均支持,但高采样率WAV需转码)
  • 容器是否被限制CPU资源?docker stats 查看clawdbot进程CPU使用率,若长期>95%,请在compose中添加:
    deploy:
      resources:
        limits:
          cpus: '2.0'
    

5.3 修改模型后clawdbot models list不显示?

常见原因:

  • JSON格式错误(多了一个逗号、少了一个引号)→ 用 JSONLint 校验
  • 模型ID拼写错误(注意大小写和中划线)→ Qwen3-4B-Instruct-2507qwen3-4b-instruct-2507
  • vLLM服务未启动 → 执行 docker-compose logs vllm 查看报错

5.4 能不能不用Telegram,只用WebUI?

完全可以。ClawdBot本质是“AI Agent Runtime”,Telegram只是其中一个channel(通道)。
你甚至可以关闭所有channel,在WebUI里直接测试Agent链路:

  • 左侧 Agents → 新建一个Agent
  • 设置 input_type: "text"output_type: "markdown"
  • tools 里勾选 ocrtranslate
  • 保存后,它就成了一个专属的图文翻译Agent,不依赖任何外部平台。

6. 总结:ClawdBot不是另一个玩具,而是你AI工作流的起点

它不承诺“取代人类”,也不鼓吹“AGI已来”。它只安静地做一件事:
把最先进的多模态能力,压缩进一条docker-compose up命令里,让你省下本该花在环境配置上的8小时,去真正思考——这个AI,该怎么帮你把事情做得更好。

你可以用它:

  • 把会议录音转成带重点标记的纪要
  • 扫描合同自动提取付款条款和截止日期
  • 让老人拍照问药盒上的外文说明
  • 帮孩子把英文绘本截图翻译成中文朗读

这些事,以前需要3个APP+2个网站+1次手动复制;现在,一个地址、一次点击、一句话。

而这一切的起点,真的只是一份没注释的docker-compose.yml


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐