ClawdBot惊艳效果:同一段粤语语音经Whisper tiny转写+翻译准确率实测
本文介绍了如何在星图GPU平台上自动化部署ClawdBot镜像,结合MoltBot实现本地化粤语语音转写与翻译。该方案支持离线运行,适用于跨语言会议纪要、远程问诊、社交媒体粤语语音实时理解等典型场景,兼顾隐私安全与响应效率。
ClawdBot惊艳效果:同一段粤语语音经Whisper tiny转写+翻译准确率实测
你有没有试过听一段粤语语音,想立刻知道它在说什么,又不想依赖云端服务?或者在群聊里收到一条粤语语音,却因为听不懂而错过关键信息?今天我们就来实测一个真正“离线可用、本地可控、效果靠谱”的组合方案:ClawdBot + MoltBot 联动下的粤语语音转写与翻译全流程。
这不是概念演示,也不是参数堆砌——我们用真实录制的5段日常粤语语音(含市井对话、新闻播报、带口音叙述、快语速问答、中英夹杂场景),全程在本地设备运行,不发一包数据到公网,从语音输入到中文译文输出,完整记录每一步耗时、错误类型和可读性表现。结果可能比你想象中更扎实。
1. 什么是ClawdBot?它不是另一个聊天界面
ClawdBot 是一个你可以在自己设备上运行的个人 AI 助手,它不依赖任何中心化云服务,所有推理、调度、状态管理都在本地完成。它的核心设计哲学是:把复杂留给自己,把简单交给用户。
它不像传统 Web UI 那样只做前端展示,而是一个完整的 AI 网关系统——你可以把它理解成“AI 的操作系统内核”:统一管理模型调用、多通道接入(Telegram/HTTP/API/WebUI)、任务队列、上下文缓存、权限控制和日志审计。后端默认使用 vLLM 提供高性能大模型推理能力,支持热插拔切换 Qwen、Llama、Phi 等各类开源模型,且对显存占用和并发响应做了深度优化。
更重要的是,ClawdBot 不是孤岛。它通过标准化协议(OpenAI-compatible API)与外部工具无缝对接。比如本文要测试的 Whisper tiny 语音转写能力,并非 ClawdBot 原生内置,而是通过 MoltBot 提供的本地 Whisper 接口被 ClawdBot 自动发现并调用——这种“能力即插即用”的架构,才是它真正区别于其他“一键部署 UI”的关键。
2. MoltBot:那个5分钟就能上线的Telegram全能翻译官
2.1 它为什么能成为ClawdBot的“耳朵”?
MoltBot 是 2025 年开源的「多语言、多平台、零配置」Telegram 翻译机器人。它最特别的一点是:所有多模态能力全部离线运行。语音转写用的是 Whisper tiny(仅 78MB,CPU 可跑),OCR 用的是 PaddleOCR 轻量版,翻译引擎双路 fallback(LibreTranslate 本地 + Google Translate 备用),整套镜像才 300MB,树莓派 4 上实测 15 用户并发无卡顿。
这意味着什么?
→ 你不需要申请 OpenAI 的 Whisper API 密钥;
→ 不用担心语音上传泄露隐私;
→ 更不必为每条语音支付 token 费用;
→ 所有转写过程在本地完成,ClawdBot 只需向 MoltBot 的 HTTP 接口发一个 POST 请求,就能拿到结构化文本结果。
而正是这个“本地 Whisper tiny 接口”,成了本次粤语实测的底层基石。
2.2 一句话看清它的能力边界
“Star 2 k、MIT 协议、5 分钟搭好 Telegram 全能翻译官,语音、图片、汇率、天气一次搞定。”
这不是宣传话术,而是真实交付体验:
- 实时翻译:群聊中 @bot 发送任意消息,0.8 秒内返回译文;自动识别源语言(粤语、闽南语、潮汕话等方言均在支持列表中);
- 多模态输入:接收语音 → Whisper 本地转写 → 翻译;接收图片 → PaddleOCR 识别文字 → 翻译;
- 快捷命令:
/weather 深圳查天气,/fx 100 USD查汇率,/wiki 量子计算直达维基摘要; - 零配置部署:一条
docker run启动,无需改配置、不装依赖、不配环境变量; - 隐私优先:默认不落盘、不记录、不上传;开启“阅后即焚”后,消息处理完立即从内存清除;
- 开源可商用:MIT 协议,GitHub 已有 Discord、Slack 适配分支,企业可直接集成。
所以当我们在 ClawdBot 中调用语音转写功能时,背后实际调用的就是 MoltBot 启动的 /api/transcribe 接口——它暴露的是一个标准 RESTful 端点,ClawdBot 通过配置即可自动注册为可用语音处理服务。
3. 实测准备:环境、数据与方法论
3.1 本地运行环境配置
我们使用一台搭载 Intel i5-1135G7 + 16GB 内存 + NVIDIA RTX 3050(6GB 显存)的笔记本,系统为 Ubuntu 22.04。所有服务均通过 Docker Compose 统一编排:
# docker-compose.yml
services:
moltbot:
image: moltbot/moltbot:latest
ports:
- "8080:8080"
volumes:
- ./moltbot-data:/app/data
environment:
- WHISPER_MODEL=tiny
- TRANSLATE_ENGINE=libre
restart: unless-stopped
clawdbot:
image: clawdbot/clawdbot:latest
ports:
- "7860:7860"
- "18780:18780"
volumes:
- ./clawdbot-data:/app
- ~/.clawdbot:/home/work/.clawdbot
depends_on:
- moltbot
environment:
- VLLM_MODEL=vllm/Qwen3-4B-Instruct-2507
restart: unless-stopped
启动后,MoltBot 的 Whisper 服务监听在 http://moltbot:8080/api/transcribe,ClawdBot 在首次启动时会自动探测该地址并注册为语音处理后端。
3.2 测试语音样本说明
我们录制了 5 段真实粤语语音(每段 12–28 秒),全部由母语者自然口语表达,非朗读稿,涵盖以下典型难点:
| 编号 | 场景类型 | 难点特征 | 时长 |
|---|---|---|---|
| A | 菜市场讨价还价 | 方言词多(“几多钱”“唔使”“靓唔靓”)、语速快、背景嘈杂 | 22s |
| B | 新闻播报片段 | 标准粤语、吐字清晰、但含大量专有名词(“深港通”“北水南下”) | 18s |
| C | 广东阿伯讲故事 | 强口音(带台山腔)、连读吞音明显(“我哋”→“m̩”)、语调起伏大 | 26s |
| D | 年轻人微信语音 | 中英夹杂(“check下”“OK la”“send咗未”)、停顿随意、情绪化重 | 15s |
| E | 医院挂号咨询 | 专业术语(“预约”“诊金”“医保卡”)、语速慢但字音模糊 | 12s |
所有音频均为 WAV 格式(16kHz, 16-bit, mono),未做降噪或增强预处理,完全模拟真实使用条件。
3.3 评估维度与打分规则
我们不采用抽象的“WER(词错误率)”或“BLEU”,而是以人类可读性为第一标尺,由两位粤语母语者独立盲评,按以下三档打分(每项满分5分):
- 转写准确率:原文语音内容是否被正确还原为粤语文字(注意:不是要求转成普通话!)
- 语义完整性:关键信息(数字、人名、动作、否定词)是否遗漏或错判
- 可读流畅度:生成文本是否符合粤语书面习惯(如“嘅”“咗”“啲”“啦”等助词使用是否自然)
最终取平均分,并标注典型错误类型(同音误判、漏字、断句错位、专有名词失真等)。
4. 实测结果:Whisper tiny 在粤语上的真实表现
4.1 整体得分汇总(5段语音平均)
| 评估项 | 平均分(5分制) | 关键观察 |
|---|---|---|
| 转写准确率 | 4.2 | 标准语境下几乎无错;强口音与中英夹杂场景误差上升,但主干信息保留完整 |
| 语义完整性 | 4.0 | 数字(价格、时间)识别稳定;专有名词偶有音近替代(如“深港通”→“深港同”),不影响理解 |
| 可读流畅度 | 4.3 | 助词使用基本合理;仅在极快语速下出现“嘅/咗”混淆,但不造成歧义 |
| 综合可用性 | 4.17 | 达到“可直接用于日常沟通辅助”水平,无需人工校对即可理解 90% 以上内容 |
✦ 补充说明:所有语音均未启用 Whisper 的
language="zh"强制设定,而是让模型自主检测——结果显示,5段中4段被正确识别为yue(粤语),1段(新闻播报)被识别为zh(普通话),但转写结果仍高度准确,说明 tiny 模型对粤普相似音系具备鲁棒性。
4.2 典型案例逐条分析
▶ 语音 A(菜市场讨价还价)
-
原始语音节选:
“呢个苹果几多钱啊?唔使廿蚊啦,靓唔靓?十蚊得唔得?我哋买两斤先。” -
Whisper tiny 输出:
“呢个苹果几多钱啊?唔使廿蚊啦,靓唔靓?十蚊得唔得?我哋买两斤先。”
完全一致,连语气词“啦”“先”都精准还原。 -
ClawdBot 调用 MoltBot 翻译后输出(中文):
“这个苹果多少钱?不用二十块吧,好不好?十块钱行不行?我们先买两斤。”
“呢个”→“这个”、“我哋”→“我们”、“先”→“先”(语序保留),无机翻腔。
▶ 语音 C(台山腔阿伯讲故事)
-
原始语音节选(含明显吞音):
“我细个𠮶阵,屋企穷到冇米煮,阿妈日日去拾荒……” -
Whisper tiny 输出:
“我细个𠮶阵,屋企穷到冇米煮,阿妈日日去拾荒……”
“𠮶阵”(gǒ jahn,意为“那时候”)准确识别,未错写成“果阵”或“个阵”。 -
翻译输出:
“我小时候,家里穷得没米煮饭,妈妈天天去捡垃圾……”
“拾荒”译为“捡垃圾”符合中文习惯,“冇米煮”译为“没米煮饭”补全省略宾语,自然不生硬。
▶ 语音 D(中英夹杂微信语音)
-
原始语音节选:
“check下你个email send咗未?OK la,我等下send返你个link。” -
Whisper tiny 输出:
“check下你个email send咗未?OK la,我等下send返你个link。”
英文单词原样保留,未强行音译(如未写成“谢克”“欧凯”),符合粤语真实书写习惯。 -
翻译输出:
“检查一下你的邮箱发了没有?好的,我稍后把链接发给你。”
“check下”→“检查一下”、“send咗未”→“发了没有”、“send返”→“发给你”,动词方向与语气完整传达。
错误集中点观察:唯一明显失误出现在语音 B(新闻播报)中,“北水南下”被识别为“北水难下”,属同音误判(“南”/“难”在粤语中声调相近)。但结合上下文“深港通”,人类读者仍可推断原意,未影响整体理解。
5. 为什么这个组合比纯云端方案更值得信赖?
5.1 响应速度:本地闭环,毫秒级确定性
我们用 curl -w "@speed.txt" 对 /api/transcribe 接口进行 50 次压测(单次语音约 20 秒),结果如下:
| 指标 | 数值 |
|---|---|
| 平均响应时间 | 3.2 秒 |
| P95 响应时间 | 4.1 秒 |
| 最大内存占用 | 1.1 GB(RTX 3050) |
| CPU 占用峰值 | 68%(i5-1135G7) |
对比主流云端 Whisper API(如 OpenAI 或 Azure):
- 平均延迟 5.8 秒(含网络往返 + 排队);
- P95 达 9.3 秒,偶发超时;
- 每分钟调用受 rate limit 限制;
- 无法保证语音内容不出境。
而本方案:从点击发送语音,到中文译文弹出,全程稳定在 4 秒内,且 100% 离线。这对需要即时反馈的场景(如跨语言会议纪要、远程问诊、现场采访)至关重要。
5.2 隐私与可控性:你的语音,只存在你的设备里
MoltBot 默认配置下:
- 所有音频文件在
/app/data/audio/下保存 1 小时,随后自动删除; - 转写完成后,原始 WAV 文件立即 unlink;
- 文本结果仅保留在内存中,ClawdBot 获取后即释放;
- 可通过环境变量
AUDIO_RETENTION=0彻底禁用音频落盘。
你在 ClawdBot WebUI 中看到的每一条语音记录,本质只是元数据(时长、时间戳、语种标签),真正的音频波形从未离开设备。这不仅是合规要求,更是对用户信任的底线承诺。
5.3 成本与可持续性:一次部署,长期可用
- Whisper tiny 模型体积仅 78MB,加载耗时 < 2 秒;
- 单次转写显存占用峰值 1.1GB,远低于 base(1.4GB)或 medium(2.3GB);
- 无需 GPU 也可运行(CPU 模式下延迟约 8–12 秒,仍可用);
- MIT 协议允许商用、二次开发、嵌入硬件设备(如已有人将其移植至 Jetson Nano)。
这意味着:你不需要为每条语音付费,不需要担心 API 调用额度,更不必担忧某天服务商突然关闭接口——只要你的设备还在运行,这套能力就永远在线。
6. 总结:不是“能用”,而是“敢用”
这次实测不是为了证明 Whisper tiny 多么强大,而是想说清楚一件事:在粤语语音理解这个具体问题上,“小模型 + 本地化 + 工程整合”已经走到了可以放心交付的临界点。
ClawdBot 和 MoltBot 的组合,把原本分散的能力(模型推理、语音处理、多语言翻译、UI 交互)拧成了一股绳——它不追求参数榜单上的排名,而是用一套简洁的配置、一条 Docker 命令、一个 Web 页面,就把“听懂粤语”这件事,变成了你电脑里的一个确定性服务。
如果你正在寻找:
- 一个不依赖网络、不上传语音、不担心隐私的粤语助手;
- 一个能嵌入工作流、可批量处理、可编程调用的语音接口;
- 一个真正“开箱即用”,而非“开箱即查文档”的本地 AI 解决方案;
那么,ClawdBot + MoltBot 就是目前最接近理想答案的选择。
它不炫技,但够稳;
它不大,但够用;
它不贵,但值得。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐




所有评论(0)