24.9k Star 开源神器:3 秒克隆任意声音,完全本地跑,可接入 Claude Code!
👉 这是一个或许对你有用的社群
🐱 一对一交流/面试小册/简历优化/求职解惑,欢迎加入「芋道快速开发平台」知识星球。下面是星球提供的部分资料:
-
《项目实战(视频)》:从书中学,往事中“练”
-
《互联网高频面试题》:面朝简历学习,春暖花开
-
《架构 x 系统设计》:摧枯拉朽,掌控面试高频场景题
-
《精进 Java 学习指南》:系统学习,互联网主流技术栈
-
《必读 Java 源码专栏》:知其然,知其所以然

👉这是一个或许对你有用的开源项目
国产Star破10w的开源项目,前端包括管理后台、微信小程序,后端支持单体、微服务架构
RBAC权限、数据权限、SaaS多租户、商城、支付、工作流、大屏报表、ERP、CRM、AI大模型、IoT物联网等功能:
多模块:https://gitee.com/zhijiantianya/ruoyi-vue-pro
微服务:https://gitee.com/zhijiantianya/yudao-cloud
视频教程:https://doc.iocoder.cn
【国内首批】支持 JDK17/21+SpringBoot3、JDK8/11+Spring Boot2双版本
副业做配音的痛点:付费太贵、声音不够独特
最近群里有道友问我:有没有不要钱的 AI 配音工具,能自己克隆声音那种 ?他在做副业——播客配音 + 小说有声书——一个月光 ElevenLabs 的订阅费就要 $22,做了一年下来 200 多刀 。
现在做副业的痛点很具体 :
-
💸 ElevenLabs / WisprFlow 这种主流工具 ——付费门槛 + 按字符计费、做 AI 副业的越用越心疼;
-
🎙️ 预设声音都用烂了 ——B 站 / 抖音上的 AI 配音听过 100 次都是同一个嗓子,做不出独特感 ;
-
🔒 数据隐私 ——给客户做配音的稿子不想传给第三方;
-
📡 离线场景废了 ——飞机上 / 出差弱网根本用不了。
我试了一圈开源工具——直到撞上了 Voicebox ——这个 24.9k Star、最新版 v0.5.0(2026-04-25) 的开源 AI 配音工作室——这些痛点全堵上了 。
关键差异——它是真的本地跑 ——模型下载到你自己机器、音频不经过任何服务器、没有订阅、没有按字符计费 ——一款真良心 的工具。
基于 Spring Boot + MyBatis Plus + Vue & Element 实现的后台管理系统 + 用户小程序,支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能
项目地址:https://github.com/YunaiV/ruoyi-vue-pro
视频教程:https://doc.iocoder.cn/video/
Voicebox 是什么:本地版 ElevenLabs + WisprFlow 二合一
按官方 README,Voicebox 是一个桌面端的 AI 语音工作室 。作者 Jamie Pine 也是开源文件管理工具 Spacedrive 的开发者——GitHub 上的积累让他很清楚研发需要什么 。
官方定位的英文原话 :
"The two cloud incumbents sit on opposite halves of the voice I/O loop—ElevenLabs on output, WisprFlow on input. Voicebox does both."
(两个云端老牌产品各占语音 I/O 半边 ——ElevenLabs 主输出(TTS)、WisprFlow 主输入(语音转文字)。Voicebox 两件事都做 。)
关键卖点 4 个 :
-
完全本地跑 ——音频不出本机、模型下载即用;
-
支持 7 个 TTS 引擎 ——按场景挑(多语种 / 长文本 / 速度 / 情绪表达);
-
3 秒克隆任何声音 ——用最短 3 秒样本就能克隆;
-
跨平台 + 多硬件加速 ——macOS(MLX)/ Windows / Linux / Apple Silicon / NVIDIA / AMD / Intel Arc。
基于 Spring Cloud Alibaba + Gateway + Nacos + RocketMQ + Vue & Element 实现的后台管理系统 + 用户小程序,支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能
项目地址:https://github.com/YunaiV/yudao-cloud
视频教程:https://doc.iocoder.cn/video/
横向对比:和 ElevenLabs / 微软 Azure 差在哪
|
维度 |
Voicebox |
ElevenLabs |
微软 Azure TTS |
|---|---|---|---|
| 数据流向 | 全本地 |
全部上云 |
全部上云 |
| 价格 | 0 元 |
$22/月 + 按字计费 |
按字符计费 |
| TTS 引擎 | 7 个
可切 |
1 个云端 |
1 个云端 |
| 声音克隆 |
✅ 3 秒样本 |
✅(要 Pro 套餐) |
⚠️ 企业级 |
| 语音转文字 |
✅ Whisper |
❌ |
✅ |
| MCP 集成(接 AI Agent) |
✅ 原生 |
❌ |
❌ |
| 离线可用 |
✅ |
❌ |
❌ |
| 致命短板 |
模型要下载、初次跑慢 |
上云、贵 |
上云、企业向 |
真正定位 :给副业 / 自媒体 / 研发的人——一个不上云、不付费、能批量产配音的本地工作室 。
3 秒声音克隆:克隆完用在哪
克隆方式 3 种 :
-
📁 上传音频文件 (WAV、MP3、FLAC、WebM 都行);
-
🎙️ 直接在 App 里录音 (最长 30 秒);
-
📺 录系统正在播放的音频 (B 站视频 / 播客都能直接录)。
最短 3 秒就够 ——样本越长 / 质量越好、效果越准。
克隆完做什么 :生成一个「声音档案 」——之后所有 TTS 都可以用这个档案。
进阶玩法 :
-
一个档案绑多个样本 → 引擎综合提升克隆质量;
-
每个档案可以设置默认后期效果 ——比如这个声音用「广播电台」风格处理;
-
档案可以分享 / 导出 ——团队共享同一个克隆声音很方便。
7 个 TTS 引擎,按场景挑
按 README 完整清单:
|
引擎 |
语言数 |
特点 |
适用场景 |
|---|---|---|---|
| Qwen3-TTS |
10 |
多语言克隆质量高、自然语言控制语速情绪 |
中文 + 多语种配音 |
| Qwen CustomVoice |
10 |
9 个预设、不需参考音频 |
不想克隆的快速产 |
| LuxTTS |
英文 |
极轻量 ~1GB 显存
,48kHz 高质量、CPU 实时 150 倍 |
日常生产力首选 |
| Chatterbox 多语言 |
23 |
覆盖最广(阿语 / 印地 / 斯瓦希里) |
小语种配音 |
| Chatterbox Turbo |
英文 |
支持情绪标签 |
情绪表达需求 |
| TADA (HumeAI) |
10 |
700+ 秒长音频不漂移 |
有声书 / 长播客 |
| Kokoro |
8 |
82MB 小模型
、50 个预设、CPU 实时 |
极低配置机器 |
英文 README 原话总结 :*"High-quality multilingual cloning, delivery instructions"*——多语言 + 自然语言控制语速情绪 ——这是 ElevenLabs 都不一定能 100% 做到的 。
简单决策建议 :
-
📅 日常生产力 → LuxTTS(速度最快);
-
🎭 情绪表达 (笑 / 哭 / 叹气)→ Chatterbox Turbo;
-
🌍 小语种 → Chatterbox 多语言;
-
📚 长文本有声书 → TADA。
长文没有字数上限焦虑 ——Voicebox 自动在句子边界切分、再交叉淡入拼起来——最多支持 50,000 字符一次提交 。
全局听写:让讲话直接打进任何输入框
另一半功能是语音输入 ——这是把 WisprFlow 也吃进去的部分。
|
平台 |
快捷键 |
行为 |
|---|---|---|
| macOS | ⌘⌥ |
按住 + 说话 + 松开 → 自动粘贴到当前输入框 |
| Windows | Ctrl+Alt |
同上 |
背后用 OpenAI Whisper 本地跑 ——离线可用 。
几个细节做得不错 :
-
自动保存剪贴板再恢复 ——不会把你原来复制的内容搞没;
-
快捷键自定义 、支持「按住说 + 松开停」/「点一下开始 + 再点停」两种模式;
-
按住中途按空格切换"持续说"模式 ——长录音不会断;
-
可选 LLM 过滤步骤 ——自动清掉「嗯」「那个」这类口头语;
-
Captures 面板 保留转录记录、随时回放 / 重新识别 / 编辑。
给 AI Agent 接一个声音:研发最爱
这块是研发玩家最该试的 ——Voicebox 内置 MCP 服务器 ——配置好之后 Claude Code、Cursor 这类 AI 编程工具可以直接调用 voicebox.speak ——任务完成时用克隆的声音开口说 。
接入 Claude Code 一行 :
claude mcp add voicebox \
--transport http \
--url http://127.0.0.1:17493/mcp \
--header "X-Voicebox-Client-Id: claude-code"
Cursor 配置 :
{
"mcpServers": {
"voicebox": {
"url": "http://127.0.0.1:17493/mcp",
"headers": { "X-Voicebox-Client-Id": "cursor" }
}
}
}
最爽的玩法 :给每个 AI 客户端绑不同声音档案 :
-
Claude Code 用「Morgan 」(沉稳男声);
-
Cursor 用「Scarlett 」(女声);
-
Codex 用「Trevor 」(年轻男声)。
3 个 Agent 并行干活时 ——声音一响你立刻知道是哪个 Agent 在说 ——不用盯着屏幕看 。
屏幕上有一个悬浮小药丸 显示当前状态:录音中 / 转录中 / 优化中 / 播放中——听写和 Agent 讲话共用同一个界面元素 。
本地 REST API + 本地 LLM:完全可编程
App 启动后会在本地 127.0.0.1:17493 开一个 REST API。没有 API Key、没有调用限制、就是本机的一个地址 ——接进 Stream Deck / Shell 脚本 / 自己做的工具都行。
几个常用端点 :
# 生成语音
curl -X POST http://127.0.0.1:17493/generate \
-H "Content-Type: application/json" \
-d '{"text": "你好世界", "profile_id": "abc123", "language": "zh"}'
# 让 Agent 开口说
curl -X POST http://127.0.0.1:17493/speak \
-H "Content-Type: application/json" \
-d '{"text": "部署完成。", "profile": "Morgan"}'
# 转录音频文件
curl -X POST http://127.0.0.1:17493/transcribe \
-F "audio=@recording.wav" \
-F "model=whisper-turbo"
完整文档 :App 跑起来后打开 http://127.0.0.1:17493/docs 即可。
还有一个进阶玩法——声音人格(Persona) :每个声音档案可以绑定自由文本写的人格描述 ——比如:
1940 年代黑色电影侦探。世故、愤世嫉俗,讲话喜欢用比喻——每件事都和这座城市的阴暗面有关。
两个功能 :
-
Compose ——这个角色即兴生成一句台词;
-
Rewrite ——你写一段文字、系统按这个角色风格重写、再合成语音。
背后跑的是本地 Qwen3 小语言模型(0.6B / 1.7B / 4B 可选) ——和 TTS 引擎共用一个运行时、不用额外下模型。
写手 / 游戏开发者可以用来保持长篇作品里某个角色的一致口吻 ——这是 ElevenLabs 都给不了的能力 。
安装与上手
去官网下:https://voicebox.sh
|
平台 |
下载方式 |
|---|---|
| macOS Apple Silicon |
https://voicebox.sh/download/mac-arm |
| macOS Intel |
https://voicebox.sh/download/mac-intel |
| Windows |
https://voicebox.sh/download/windows |
| Linux |
源码编译 + https://voicebox.sh/linux-install |
| Docker | docker compose up |
第一次用要下载模型 ——大小不一:Kokoro 只有 82MB ,Chatterbox 多语言版要大得多。下完之后离线使用、不再请求外部服务 。
Stories 编辑器 (多人对话 / 多角色播客制作)——多轨时间轴、不同角色台词放不同轨道、拖拽排列、轨道内裁剪 / 拆分——做播客 / 有声书的话,这个太实用了 。
谁该上手、谁先观望
适合现在上手
-
副业做播客 / 有声书 ——想省合成费用;
-
研发玩家 ——想让 Claude Code / Cursor 开口说话;
-
隐私敏感 ——商用配音稿不想传给第三方;
-
就是喜欢折腾 AI ——把语音能力接进自己工具链。
先观望
-
偶尔用一下 / 不想管模型下载 ——ElevenLabs 在线版体感更顺滑;
-
Linux 用户 ——Linux 没预构建包、要自己源码编译。
我的判断
Voicebox 解决的是一个挺具体的问题——让本地 AI 配音从"能用"升到"好用" 。
它最大的价值不是"省钱"——是控制感 :
-
✅ 声音档案在你手里 ——不用担心订阅停了 / 平台跑路;
-
✅ 完全离线可用 ——飞机 / 弱网 / 内网机器都能跑;
-
✅ MCP 接 AI Agent ——把语音能力变成 Agent 工作流的一部分;
-
✅ 24.9k Star + 持续更新 ——v0.5.0 / 路线图清晰、不像那种半死不活的开源项目。
说到底 :做 AI 副业的人,长期看 Voicebox 帮你省下来的钱 + 多出来的控制感——值得花半小时配一次 。如果你是偶尔用一下 ElevenLabs 这种 ,那确实云端 + 订阅更顺手。
要装就装 macOS / Windows 版本 ——Apple Silicon 上的 MLX 加速体验最好 ——3 秒克隆、即克即用 。
仓库:https://github.com/jamiepine/voicebox
官网:https://voicebox.sh
欢迎加入我的知识星球,全面提升技术能力。
👉 加入方式,“长按”或“扫描”下方二维码噢:

星球的内容包括:项目实战、面试招聘、源码解析、学习路线。





文章有帮助的话,在看,转发吧。
谢谢支持哟 (*^__^*)
更多推荐



所有评论(0)