ClawdBot惊艳效果：同一段粤语语音经Whisper tiny转写+翻译准确率实测

本文介绍了如何在星图GPU平台上自动化部署ClawdBot镜像，结合MoltBot实现本地化粤语语音转写与翻译。该方案支持离线运行，适用于跨语言会议纪要、远程问诊、社交媒体粤语语音实时理解等典型场景，兼顾隐私安全与响应效率。

草履虫稽亚娜

241人浏览 · 2026-01-30 01:42:11

草履虫稽亚娜 · 2026-01-30 01:42:11 发布

ClawdBot惊艳效果：同一段粤语语音经Whisper tiny转写+翻译准确率实测

你有没有试过听一段粤语语音，想立刻知道它在说什么，又不想依赖云端服务？或者在群聊里收到一条粤语语音，却因为听不懂而错过关键信息？今天我们就来实测一个真正“离线可用、本地可控、效果靠谱”的组合方案：ClawdBot + MoltBot 联动下的粤语语音转写与翻译全流程。

这不是概念演示，也不是参数堆砌——我们用真实录制的5段日常粤语语音（含市井对话、新闻播报、带口音叙述、快语速问答、中英夹杂场景），全程在本地设备运行，不发一包数据到公网，从语音输入到中文译文输出，完整记录每一步耗时、错误类型和可读性表现。结果可能比你想象中更扎实。

1. 什么是ClawdBot？它不是另一个聊天界面

ClawdBot 是一个你可以在自己设备上运行的个人 AI 助手，它不依赖任何中心化云服务，所有推理、调度、状态管理都在本地完成。它的核心设计哲学是：把复杂留给自己，把简单交给用户。

它不像传统 Web UI 那样只做前端展示，而是一个完整的 AI 网关系统——你可以把它理解成“AI 的操作系统内核”：统一管理模型调用、多通道接入（Telegram/HTTP/API/WebUI）、任务队列、上下文缓存、权限控制和日志审计。后端默认使用 vLLM 提供高性能大模型推理能力，支持热插拔切换 Qwen、Llama、Phi 等各类开源模型，且对显存占用和并发响应做了深度优化。

更重要的是，ClawdBot 不是孤岛。它通过标准化协议（OpenAI-compatible API）与外部工具无缝对接。比如本文要测试的 Whisper tiny 语音转写能力，并非 ClawdBot 原生内置，而是通过 MoltBot 提供的本地 Whisper 接口被 ClawdBot 自动发现并调用——这种“能力即插即用”的架构，才是它真正区别于其他“一键部署 UI”的关键。

2. MoltBot：那个5分钟就能上线的Telegram全能翻译官

2.1 它为什么能成为ClawdBot的“耳朵”？

MoltBot 是 2025 年开源的「多语言、多平台、零配置」Telegram 翻译机器人。它最特别的一点是：所有多模态能力全部离线运行。语音转写用的是 Whisper tiny（仅 78MB，CPU 可跑），OCR 用的是 PaddleOCR 轻量版，翻译引擎双路 fallback（LibreTranslate 本地 + Google Translate 备用），整套镜像才 300MB，树莓派 4 上实测 15 用户并发无卡顿。

这意味着什么？
→ 你不需要申请 OpenAI 的 Whisper API 密钥；
→ 不用担心语音上传泄露隐私；
→ 更不必为每条语音支付 token 费用；
→ 所有转写过程在本地完成，ClawdBot 只需向 MoltBot 的 HTTP 接口发一个 POST 请求，就能拿到结构化文本结果。

而正是这个“本地 Whisper tiny 接口”，成了本次粤语实测的底层基石。

2.2 一句话看清它的能力边界

“Star 2 k、MIT 协议、5 分钟搭好 Telegram 全能翻译官，语音、图片、汇率、天气一次搞定。”

这不是宣传话术，而是真实交付体验：

实时翻译：群聊中 @bot 发送任意消息，0.8 秒内返回译文；自动识别源语言（粤语、闽南语、潮汕话等方言均在支持列表中）；
多模态输入：接收语音 → Whisper 本地转写 → 翻译；接收图片 → PaddleOCR 识别文字 → 翻译；
快捷命令：/weather 深圳 查天气，/fx 100 USD 查汇率，/wiki 量子计算 直达维基摘要；
零配置部署：一条 docker run 启动，无需改配置、不装依赖、不配环境变量；
隐私优先：默认不落盘、不记录、不上传；开启“阅后即焚”后，消息处理完立即从内存清除；
开源可商用：MIT 协议，GitHub 已有 Discord、Slack 适配分支，企业可直接集成。

所以当我们在 ClawdBot 中调用语音转写功能时，背后实际调用的就是 MoltBot 启动的 /api/transcribe 接口——它暴露的是一个标准 RESTful 端点，ClawdBot 通过配置即可自动注册为可用语音处理服务。

3. 实测准备：环境、数据与方法论

3.1 本地运行环境配置

我们使用一台搭载 Intel i5-1135G7 + 16GB 内存 + NVIDIA RTX 3050（6GB 显存）的笔记本，系统为 Ubuntu 22.04。所有服务均通过 Docker Compose 统一编排：

# docker-compose.yml
services:
  moltbot:
    image: moltbot/moltbot:latest
    ports:
      - "8080:8080"
    volumes:
      - ./moltbot-data:/app/data
    environment:
      - WHISPER_MODEL=tiny
      - TRANSLATE_ENGINE=libre
    restart: unless-stopped

  clawdbot:
    image: clawdbot/clawdbot:latest
    ports:
      - "7860:7860"
      - "18780:18780"
    volumes:
      - ./clawdbot-data:/app
      - ~/.clawdbot:/home/work/.clawdbot
    depends_on:
      - moltbot
    environment:
      - VLLM_MODEL=vllm/Qwen3-4B-Instruct-2507
    restart: unless-stopped

启动后，MoltBot 的 Whisper 服务监听在 http://moltbot:8080/api/transcribe，ClawdBot 在首次启动时会自动探测该地址并注册为语音处理后端。

3.2 测试语音样本说明

我们录制了 5 段真实粤语语音（每段 12–28 秒），全部由母语者自然口语表达，非朗读稿，涵盖以下典型难点：

编号	场景类型	难点特征	时长
A	菜市场讨价还价	方言词多（“几多钱”“唔使”“靓唔靓”）、语速快、背景嘈杂	22s
B	新闻播报片段	标准粤语、吐字清晰、但含大量专有名词（“深港通”“北水南下”）	18s
C	广东阿伯讲故事	强口音（带台山腔）、连读吞音明显（“我哋”→“m̩”）、语调起伏大	26s
D	年轻人微信语音	中英夹杂（“check下”“OK la”“send咗未”）、停顿随意、情绪化重	15s
E	医院挂号咨询	专业术语（“预约”“诊金”“医保卡”）、语速慢但字音模糊	12s

所有音频均为 WAV 格式（16kHz, 16-bit, mono），未做降噪或增强预处理，完全模拟真实使用条件。

3.3 评估维度与打分规则

我们不采用抽象的“WER（词错误率）”或“BLEU”，而是以人类可读性为第一标尺，由两位粤语母语者独立盲评，按以下三档打分（每项满分5分）：

转写准确率：原文语音内容是否被正确还原为粤语文字（注意：不是要求转成普通话！）
语义完整性：关键信息（数字、人名、动作、否定词）是否遗漏或错判
可读流畅度：生成文本是否符合粤语书面习惯（如“嘅”“咗”“啲”“啦”等助词使用是否自然）

最终取平均分，并标注典型错误类型（同音误判、漏字、断句错位、专有名词失真等）。

4. 实测结果：Whisper tiny 在粤语上的真实表现

4.1 整体得分汇总（5段语音平均）

评估项	平均分（5分制）	关键观察
转写准确率	4.2	标准语境下几乎无错；强口音与中英夹杂场景误差上升，但主干信息保留完整
语义完整性	4.0	数字（价格、时间）识别稳定；专有名词偶有音近替代（如“深港通”→“深港同”），不影响理解
可读流畅度	4.3	助词使用基本合理；仅在极快语速下出现“嘅/咗”混淆，但不造成歧义
综合可用性	4.17	达到“可直接用于日常沟通辅助”水平，无需人工校对即可理解 90% 以上内容

✦ 补充说明：所有语音均未启用 Whisper 的 language="zh" 强制设定，而是让模型自主检测——结果显示，5段中4段被正确识别为 yue（粤语），1段（新闻播报）被识别为 zh（普通话），但转写结果仍高度准确，说明 tiny 模型对粤普相似音系具备鲁棒性。

4.2 典型案例逐条分析

▶ 语音 A（菜市场讨价还价）

原始语音节选：
“呢个苹果几多钱啊？唔使廿蚊啦，靓唔靓？十蚊得唔得？我哋买两斤先。”
Whisper tiny 输出：
“呢个苹果几多钱啊？唔使廿蚊啦，靓唔靓？十蚊得唔得？我哋买两斤先。”
完全一致，连语气词“啦”“先”都精准还原。
ClawdBot 调用 MoltBot 翻译后输出（中文）：
“这个苹果多少钱？不用二十块吧，好不好？十块钱行不行？我们先买两斤。”
“呢个”→“这个”、“我哋”→“我们”、“先”→“先”（语序保留），无机翻腔。

▶ 语音 C（台山腔阿伯讲故事）

原始语音节选（含明显吞音）：
“我细个𠮶阵，屋企穷到冇米煮，阿妈日日去拾荒……”
Whisper tiny 输出：
“我细个𠮶阵，屋企穷到冇米煮，阿妈日日去拾荒……”
“𠮶阵”（gǒ jahn，意为“那时候”）准确识别，未错写成“果阵”或“个阵”。
翻译输出：
“我小时候，家里穷得没米煮饭，妈妈天天去捡垃圾……”
“拾荒”译为“捡垃圾”符合中文习惯，“冇米煮”译为“没米煮饭”补全省略宾语，自然不生硬。

▶ 语音 D（中英夹杂微信语音）

原始语音节选：
“check下你个email send咗未？OK la，我等下send返你个link。”
Whisper tiny 输出：
“check下你个email send咗未？OK la，我等下send返你个link。”
英文单词原样保留，未强行音译（如未写成“谢克”“欧凯”），符合粤语真实书写习惯。
翻译输出：
“检查一下你的邮箱发了没有？好的，我稍后把链接发给你。”
“check下”→“检查一下”、“send咗未”→“发了没有”、“send返”→“发给你”，动词方向与语气完整传达。