24.9k Star 开源神器：3 秒克隆任意声音，完全本地跑，可接入 Claude Code！

Java基基

420人浏览 · 2026-05-17 16:17:36

Java基基 · 2026-05-17 16:17:36 发布

👉 这是一个或许对你有用的社群

🐱 一对一交流/面试小册/简历优化/求职解惑，欢迎加入「芋道快速开发平台」知识星球。下面是星球提供的部分资料：

《项目实战（视频）》：从书中学，往事中“练”
《互联网高频面试题》：面朝简历学习，春暖花开
《架构 x 系统设计》：摧枯拉朽，掌控面试高频场景题
《精进 Java 学习指南》：系统学习，互联网主流技术栈
《必读 Java 源码专栏》：知其然，知其所以然

👉这是一个或许对你有用的开源项目

国产Star破10w的开源项目，前端包括管理后台、微信小程序，后端支持单体、微服务架构

RBAC权限、数据权限、SaaS多租户、商城、支付、工作流、大屏报表、ERP、CRM、AI大模型、IoT物联网等功能：

多模块：https://gitee.com/zhijiantianya/ruoyi-vue-pro

微服务：https://gitee.com/zhijiantianya/yudao-cloud

视频教程：https://doc.iocoder.cn

【国内首批】支持 JDK17/21+SpringBoot3、JDK8/11+Spring Boot2双版本

副业做配音的痛点：付费太贵、声音不够独特

最近群里有道友问我：有没有不要钱的 AI 配音工具，能自己克隆声音那种 ？他在做副业——播客配音 + 小说有声书——一个月光 ElevenLabs 的订阅费就要 $22，做了一年下来 200 多刀 。

现在做副业的痛点很具体 ：

💸 ElevenLabs / WisprFlow 这种主流工具 ——付费门槛 + 按字符计费、做 AI 副业的越用越心疼；
🎙️ 预设声音都用烂了 ——B 站 / 抖音上的 AI 配音听过 100 次都是同一个嗓子，做不出独特感 ；
🔒 数据隐私 ——给客户做配音的稿子不想传给第三方；
📡 离线场景废了 ——飞机上 / 出差弱网根本用不了。

我试了一圈开源工具——直到撞上了 Voicebox ——这个 24.9k Star、最新版 v0.5.0（2026-04-25） 的开源 AI 配音工作室——这些痛点全堵上了 。

关键差异——它是真的本地跑 ——模型下载到你自己机器、音频不经过任何服务器、没有订阅、没有按字符计费 ——一款真良心 的工具。

基于 Spring Boot + MyBatis Plus + Vue & Element 实现的后台管理系统 + 用户小程序，支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能

项目地址：https://github.com/YunaiV/ruoyi-vue-pro

视频教程：https://doc.iocoder.cn/video/

Voicebox 是什么：本地版 ElevenLabs + WisprFlow 二合一

按官方 README，Voicebox 是一个桌面端的 AI 语音工作室 。作者 Jamie Pine 也是开源文件管理工具 Spacedrive 的开发者——GitHub 上的积累让他很清楚研发需要什么 。

官方定位的英文原话 ：

"The two cloud incumbents sit on opposite halves of the voice I/O loop—ElevenLabs on output, WisprFlow on input. Voicebox does both."

（两个云端老牌产品各占语音 I/O 半边 ——ElevenLabs 主输出（TTS）、WisprFlow 主输入（语音转文字）。Voicebox 两件事都做 。）

关键卖点 4 个 ：

完全本地跑 ——音频不出本机、模型下载即用；
支持 7 个 TTS 引擎 ——按场景挑（多语种 / 长文本 / 速度 / 情绪表达）；
3 秒克隆任何声音 ——用最短 3 秒样本就能克隆；
跨平台 + 多硬件加速 ——macOS（MLX）/ Windows / Linux / Apple Silicon / NVIDIA / AMD / Intel Arc。

基于 Spring Cloud Alibaba + Gateway + Nacos + RocketMQ + Vue & Element 实现的后台管理系统 + 用户小程序，支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能

项目地址：https://github.com/YunaiV/yudao-cloud

视频教程：https://doc.iocoder.cn/video/

横向对比：和 ElevenLabs / 微软 Azure 差在哪

维度	Voicebox	ElevenLabs	微软 Azure TTS
数据流向	全本地	全部上云	全部上云
价格	0 元	$22/月 + 按字计费	按字符计费
TTS 引擎	7 个可切	1 个云端	1 个云端
声音克隆	✅ 3 秒样本	✅（要 Pro 套餐）	⚠️ 企业级
语音转文字	✅ Whisper	❌	✅
MCP 集成（接 AI Agent）	✅ 原生	❌	❌
离线可用	✅	❌	❌
致命短板	模型要下载、初次跑慢	上云、贵	上云、企业向

真正定位 ：给副业 / 自媒体 / 研发的人——一个不上云、不付费、能批量产配音的本地工作室 。

3 秒声音克隆：克隆完用在哪

克隆方式 3 种 ：

📁 上传音频文件 （WAV、MP3、FLAC、WebM 都行）；
🎙️ 直接在 App 里录音 （最长 30 秒）；
📺 录系统正在播放的音频 （B 站视频 / 播客都能直接录）。

最短 3 秒就够 ——样本越长 / 质量越好、效果越准。

克隆完做什么 ：生成一个「声音档案 」——之后所有 TTS 都可以用这个档案。

进阶玩法 ：

一个档案绑多个样本 → 引擎综合提升克隆质量；
每个档案可以设置默认后期效果 ——比如这个声音用「广播电台」风格处理；
档案可以分享 / 导出 ——团队共享同一个克隆声音很方便。

7 个 TTS 引擎，按场景挑

按 README 完整清单：

引擎	语言数	特点	适用场景
Qwen3-TTS	10	多语言克隆质量高、自然语言控制语速情绪	中文 + 多语种配音
Qwen CustomVoice	10	9 个预设、不需参考音频	不想克隆的快速产
LuxTTS	英文	极轻量 ~1GB 显存，48kHz 高质量、CPU 实时 150 倍	日常生产力首选
Chatterbox 多语言	23	覆盖最广（阿语 / 印地 / 斯瓦希里）	小语种配音
Chatterbox Turbo	英文	支持情绪标签 `[laugh]` / `[sigh]`	情绪表达需求
TADA (HumeAI)	10	700+ 秒长音频不漂移	有声书 / 长播客
Kokoro	8	82MB 小模型、50 个预设、CPU 实时	极低配置机器

英文 README 原话总结 ：*"High-quality multilingual cloning, delivery instructions"*——多语言 + 自然语言控制语速情绪 ——这是 ElevenLabs 都不一定能 100% 做到的 。

简单决策建议 ：

📅 日常生产力 → LuxTTS（速度最快）；
🎭 情绪表达 （笑 / 哭 / 叹气）→ Chatterbox Turbo；
🌍 小语种 → Chatterbox 多语言；
📚 长文本有声书 → TADA。

长文没有字数上限焦虑 ——Voicebox 自动在句子边界切分、再交叉淡入拼起来——最多支持 50,000 字符一次提交 。

全局听写：让讲话直接打进任何输入框

另一半功能是语音输入 ——这是把 WisprFlow 也吃进去的部分。

平台	快捷键	行为
macOS	`⌘⌥`	按住 + 说话 + 松开 → 自动粘贴到当前输入框
Windows	`Ctrl+Alt`	同上

背后用 OpenAI Whisper 本地跑 ——离线可用 。

几个细节做得不错 ：

自动保存剪贴板再恢复 ——不会把你原来复制的内容搞没；
快捷键自定义 、支持「按住说 + 松开停」/「点一下开始 + 再点停」两种模式；
按住中途按空格切换"持续说"模式 ——长录音不会断；
可选 LLM 过滤步骤 ——自动清掉「嗯」「那个」这类口头语；
Captures 面板 保留转录记录、随时回放 / 重新识别 / 编辑。

给 AI Agent 接一个声音：研发最爱

这块是研发玩家最该试的 ——Voicebox 内置 MCP 服务器 ——配置好之后 Claude Code、Cursor 这类 AI 编程工具可以直接调用 voicebox.speak ——任务完成时用克隆的声音开口说 。

接入 Claude Code 一行 ：

claude mcp add voicebox \
  --transport http \
  --url http://127.0.0.1:17493/mcp \
  --header "X-Voicebox-Client-Id: claude-code"

Cursor 配置 ：

{
  "mcpServers": {
    "voicebox": {
      "url": "http://127.0.0.1:17493/mcp",
      "headers": { "X-Voicebox-Client-Id": "cursor" }
    }
  }
}

最爽的玩法 ：给每个 AI 客户端绑不同声音档案 ：

Claude Code 用「Morgan 」（沉稳男声）；
Cursor 用「Scarlett 」（女声）；
Codex 用「Trevor 」（年轻男声）。

3 个 Agent 并行干活时 ——声音一响你立刻知道是哪个 Agent 在说 ——不用盯着屏幕看 。

屏幕上有一个悬浮小药丸 显示当前状态：录音中 / 转录中 / 优化中 / 播放中——听写和 Agent 讲话共用同一个界面元素 。

本地 REST API + 本地 LLM：完全可编程

App 启动后会在本地 127.0.0.1:17493 开一个 REST API。没有 API Key、没有调用限制、就是本机的一个地址 ——接进 Stream Deck / Shell 脚本 / 自己做的工具都行。

几个常用端点 ：

# 生成语音
curl -X POST http://127.0.0.1:17493/generate \
  -H "Content-Type: application/json" \
  -d '{"text": "你好世界", "profile_id": "abc123", "language": "zh"}'

# 让 Agent 开口说
curl -X POST http://127.0.0.1:17493/speak \
  -H "Content-Type: application/json" \
  -d '{"text": "部署完成。", "profile": "Morgan"}'

# 转录音频文件
curl -X POST http://127.0.0.1:17493/transcribe \
  -F "audio=@recording.wav" \
  -F "model=whisper-turbo"

完整文档 ：App 跑起来后打开 http://127.0.0.1:17493/docs 即可。

还有一个进阶玩法——声音人格（Persona） ：每个声音档案可以绑定自由文本写的人格描述 ——比如：

1940 年代黑色电影侦探。世故、愤世嫉俗，讲话喜欢用比喻——每件事都和这座城市的阴暗面有关。

两个功能 ：

Compose ——这个角色即兴生成一句台词；
Rewrite ——你写一段文字、系统按这个角色风格重写、再合成语音。

背后跑的是本地 Qwen3 小语言模型（0.6B / 1.7B / 4B 可选） ——和 TTS 引擎共用一个运行时、不用额外下模型。

写手 / 游戏开发者可以用来保持长篇作品里某个角色的一致口吻 ——这是 ElevenLabs 都给不了的能力 。

安装与上手

去官网下：https://voicebox.sh

平台	下载方式
macOS Apple Silicon	https://voicebox.sh/download/mac-arm
macOS Intel	https://voicebox.sh/download/mac-intel
Windows	https://voicebox.sh/download/windows
Linux	源码编译 + https://voicebox.sh/linux-install
Docker	`docker compose up`

第一次用要下载模型 ——大小不一：Kokoro 只有 82MB ，Chatterbox 多语言版要大得多。下完之后离线使用、不再请求外部服务 。

Stories 编辑器 （多人对话 / 多角色播客制作）——多轨时间轴、不同角色台词放不同轨道、拖拽排列、轨道内裁剪 / 拆分——做播客 / 有声书的话，这个太实用了 。

谁该上手、谁先观望

适合现在上手

副业做播客 / 有声书 ——想省合成费用；
研发玩家 ——想让 Claude Code / Cursor 开口说话；
隐私敏感 ——商用配音稿不想传给第三方；
就是喜欢折腾 AI ——把语音能力接进自己工具链。

先观望

偶尔用一下 / 不想管模型下载 ——ElevenLabs 在线版体感更顺滑；
Linux 用户 ——Linux 没预构建包、要自己源码编译。

我的判断

Voicebox 解决的是一个挺具体的问题——让本地 AI 配音从"能用"升到"好用" 。

它最大的价值不是"省钱"——是控制感 ：

✅ 声音档案在你手里 ——不用担心订阅停了 / 平台跑路；
✅ 完全离线可用 ——飞机 / 弱网 / 内网机器都能跑；
✅ MCP 接 AI Agent ——把语音能力变成 Agent 工作流的一部分；
✅ 24.9k Star + 持续更新 ——v0.5.0 / 路线图清晰、不像那种半死不活的开源项目。

说到底 ：做 AI 副业的人，长期看 Voicebox 帮你省下来的钱 + 多出来的控制感——值得花半小时配一次 。如果你是偶尔用一下 ElevenLabs 这种 ，那确实云端 + 订阅更顺手。

要装就装 macOS / Windows 版本 ——Apple Silicon 上的 MLX 加速体验最好 ——3 秒克隆、即克即用 。

仓库：https://github.com/jamiepine/voicebox

官网：https://voicebox.sh

欢迎加入我的知识星球，全面提升技术能力。

👉 加入方式，“长按”或“扫描”下方二维码噢：

星球的内容包括：项目实战、面试招聘、源码解析、学习路线。

文章有帮助的话，在看，转发吧。
谢谢支持哟 (*^__^*）

亚马逊云科技技术品牌专区

更多推荐

2026年AI写作辅助平台推荐：9款高效AI工具终极指南

亚马逊云科技技术品牌专区

TVA对具身智能领域“莫拉维克悖论“的挑战（19）

亚马逊云科技技术品牌专区

WSaiOS认知内核：一种模块化可解释人工智能操作系统核心的设计与实现

亚马逊云科技技术品牌专区

所有评论(0)

查看更多评论

Java基基

@weixin_44421461

已为社区贡献11条内容

24.9k Star 开源神器：3 秒克隆任意声音，完全本地跑，可接入 Claude Code！

所有评论(0)

温馨提示：您尚未绑定手机号