👉 这是一个或许对你有用的社群

🐱 一对一交流/面试小册/简历优化/求职解惑,欢迎加入「芋道快速开发平台」知识星球。下面是星球提供的部分资料: 

👉这是一个或许对你有用的开源项目

国产Star破10w的开源项目,前端包括管理后台、微信小程序,后端支持单体、微服务架构

RBAC权限、数据权限、SaaS多租户、商城、支付、工作流、大屏报表、ERP、CRMAI大模型、IoT物联网等功能:

  • 多模块:https://gitee.com/zhijiantianya/ruoyi-vue-pro

  • 微服务:https://gitee.com/zhijiantianya/yudao-cloud

  • 视频教程:https://doc.iocoder.cn

【国内首批】支持 JDK17/21+SpringBoot3、JDK8/11+Spring Boot2双版本 


副业做配音的痛点:付费太贵、声音不够独特

最近群里有道友问我:有没有不要钱的 AI 配音工具,能自己克隆声音那种 ?他在做副业——播客配音 + 小说有声书——一个月光 ElevenLabs 的订阅费就要 $22,做了一年下来 200 多刀 。

现在做副业的痛点很具体 :

  • 💸 ElevenLabs / WisprFlow 这种主流工具 ——付费门槛 + 按字符计费、做 AI 副业的越用越心疼;

  • 🎙️ 预设声音都用烂了 ——B 站 / 抖音上的 AI 配音听过 100 次都是同一个嗓子,做不出独特感 ;

  • 🔒 数据隐私 ——给客户做配音的稿子不想传给第三方;

  • 📡 离线场景废了 ——飞机上 / 出差弱网根本用不了。

我试了一圈开源工具——直到撞上了 Voicebox ——这个 24.9k Star、最新版 v0.5.0(2026-04-25) 的开源 AI 配音工作室——这些痛点全堵上了 。

关键差异——它是真的本地跑 ——模型下载到你自己机器、音频不经过任何服务器、没有订阅、没有按字符计费 ——一款真良心 的工具。

基于 Spring Boot + MyBatis Plus + Vue & Element 实现的后台管理系统 + 用户小程序,支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能

  • 项目地址:https://github.com/YunaiV/ruoyi-vue-pro

  • 视频教程:https://doc.iocoder.cn/video/

Voicebox 是什么:本地版 ElevenLabs + WisprFlow 二合一

按官方 README,Voicebox 是一个桌面端的 AI 语音工作室 。作者 Jamie Pine 也是开源文件管理工具 Spacedrive 的开发者——GitHub 上的积累让他很清楚研发需要什么 。

官方定位的英文原话 :

"The two cloud incumbents sit on opposite halves of the voice I/O loop—ElevenLabs on output, WisprFlow on input. Voicebox does both."

两个云端老牌产品各占语音 I/O 半边 ——ElevenLabs 主输出(TTS)、WisprFlow 主输入(语音转文字)。Voicebox 两件事都做 。)

关键卖点 4 个 :

  • 完全本地跑 ——音频不出本机、模型下载即用;

  • 支持 7 个 TTS 引擎 ——按场景挑(多语种 / 长文本 / 速度 / 情绪表达);

  • 3 秒克隆任何声音 ——用最短 3 秒样本就能克隆;

  • 跨平台 + 多硬件加速 ——macOS(MLX)/ Windows / Linux / Apple Silicon / NVIDIA / AMD / Intel Arc。

基于 Spring Cloud Alibaba + Gateway + Nacos + RocketMQ + Vue & Element 实现的后台管理系统 + 用户小程序,支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能

  • 项目地址:https://github.com/YunaiV/yudao-cloud

  • 视频教程:https://doc.iocoder.cn/video/

横向对比:和 ElevenLabs / 微软 Azure 差在哪

维度

Voicebox

ElevenLabs

微软 Azure TTS

数据流向 全本地

全部上云

全部上云

价格 0 元

$22/月 + 按字计费

按字符计费

TTS 引擎 7 个

 可切

1 个云端

1 个云端

声音克隆

✅ 3 秒样本

✅(要 Pro 套餐)

⚠️ 企业级

语音转文字

✅ Whisper

MCP 集成(接 AI Agent)

✅ 原生

离线可用

致命短板

模型要下载、初次跑慢

上云、贵

上云、企业向

真正定位 :给副业 / 自媒体 / 研发的人——一个不上云、不付费、能批量产配音的本地工作室 。

3 秒声音克隆:克隆完用在哪

克隆方式 3 种 :

  • 📁 上传音频文件 (WAV、MP3、FLAC、WebM 都行);

  • 🎙️ 直接在 App 里录音 (最长 30 秒);

  • 📺 录系统正在播放的音频 (B 站视频 / 播客都能直接录)。

最短 3 秒就够 ——样本越长 / 质量越好、效果越准。

克隆完做什么 :生成一个「声音档案 」——之后所有 TTS 都可以用这个档案。

进阶玩法 :

  • 一个档案绑多个样本 → 引擎综合提升克隆质量;

  • 每个档案可以设置默认后期效果 ——比如这个声音用「广播电台」风格处理;

  • 档案可以分享 / 导出 ——团队共享同一个克隆声音很方便。

7 个 TTS 引擎,按场景挑

按 README 完整清单:

引擎

语言数

特点

适用场景

Qwen3-TTS

10

多语言克隆质量高、自然语言控制语速情绪

中文 + 多语种配音

Qwen CustomVoice

10

9 个预设、不需参考音频

不想克隆的快速产

LuxTTS

英文

极轻量 ~1GB 显存

 ,48kHz 高质量、CPU 实时 150 倍

日常生产力首选
Chatterbox 多语言

23

覆盖最广(阿语 / 印地 / 斯瓦希里)

小语种配音

Chatterbox Turbo

英文

支持情绪标签 [laugh] / [sigh]

情绪表达需求

TADA (HumeAI)

10

700+ 秒长音频不漂移

有声书 / 长播客

Kokoro

8

82MB 小模型

 、50 个预设、CPU 实时

极低配置机器

英文 README 原话总结 :*"High-quality multilingual cloning, delivery instructions"*——多语言 + 自然语言控制语速情绪 ——这是 ElevenLabs 都不一定能 100% 做到的 。

简单决策建议 :

  • 📅 日常生产力 → LuxTTS(速度最快);

  • 🎭 情绪表达 (笑 / 哭 / 叹气)→ Chatterbox Turbo;

  • 🌍 小语种 → Chatterbox 多语言;

  • 📚 长文本有声书 → TADA。

长文没有字数上限焦虑 ——Voicebox 自动在句子边界切分、再交叉淡入拼起来——最多支持 50,000 字符一次提交 。

全局听写:让讲话直接打进任何输入框

另一半功能是语音输入 ——这是把 WisprFlow 也吃进去的部分。

平台

快捷键

行为

macOS ⌘⌥

按住 + 说话 + 松开 → 自动粘贴到当前输入框

Windows Ctrl+Alt

同上

背后用 OpenAI Whisper 本地跑 ——离线可用 。

几个细节做得不错 :

  • 自动保存剪贴板再恢复 ——不会把你原来复制的内容搞没;

  • 快捷键自定义 、支持「按住说 + 松开停」/「点一下开始 + 再点停」两种模式;

  • 按住中途按空格切换"持续说"模式 ——长录音不会断;

  • 可选 LLM 过滤步骤 ——自动清掉「嗯」「那个」这类口头语;

  • Captures 面板 保留转录记录、随时回放 / 重新识别 / 编辑。

给 AI Agent 接一个声音:研发最爱

这块是研发玩家最该试的 ——Voicebox 内置 MCP 服务器 ——配置好之后 Claude Code、Cursor 这类 AI 编程工具可以直接调用 voicebox.speak ——任务完成时用克隆的声音开口说 。

接入 Claude Code 一行 :

claude mcp add voicebox \
  --transport http \
  --url http://127.0.0.1:17493/mcp \
  --header "X-Voicebox-Client-Id: claude-code"

Cursor 配置 :

{
  "mcpServers": {
    "voicebox": {
      "url": "http://127.0.0.1:17493/mcp",
      "headers": { "X-Voicebox-Client-Id": "cursor" }
    }
  }
}

最爽的玩法 :给每个 AI 客户端绑不同声音档案 :

  • Claude Code 用「Morgan 」(沉稳男声);

  • Cursor 用「Scarlett 」(女声);

  • Codex 用「Trevor 」(年轻男声)。

3 个 Agent 并行干活时 ——声音一响你立刻知道是哪个 Agent 在说 ——不用盯着屏幕看 。

屏幕上有一个悬浮小药丸 显示当前状态:录音中 / 转录中 / 优化中 / 播放中——听写和 Agent 讲话共用同一个界面元素 。

本地 REST API + 本地 LLM:完全可编程

App 启动后会在本地 127.0.0.1:17493 开一个 REST API。没有 API Key、没有调用限制、就是本机的一个地址 ——接进 Stream Deck / Shell 脚本 / 自己做的工具都行。

几个常用端点 :

# 生成语音
curl -X POST http://127.0.0.1:17493/generate \
  -H "Content-Type: application/json" \
  -d '{"text": "你好世界", "profile_id": "abc123", "language": "zh"}'

# 让 Agent 开口说
curl -X POST http://127.0.0.1:17493/speak \
  -H "Content-Type: application/json" \
  -d '{"text": "部署完成。", "profile": "Morgan"}'

# 转录音频文件
curl -X POST http://127.0.0.1:17493/transcribe \
  -F "audio=@recording.wav" \
  -F "model=whisper-turbo"

完整文档 :App 跑起来后打开 http://127.0.0.1:17493/docs 即可。

还有一个进阶玩法——声音人格(Persona) :每个声音档案可以绑定自由文本写的人格描述 ——比如:

1940 年代黑色电影侦探。世故、愤世嫉俗,讲话喜欢用比喻——每件事都和这座城市的阴暗面有关。

两个功能 :

  • Compose ——这个角色即兴生成一句台词;

  • Rewrite ——你写一段文字、系统按这个角色风格重写、再合成语音。

背后跑的是本地 Qwen3 小语言模型(0.6B / 1.7B / 4B 可选) ——和 TTS 引擎共用一个运行时、不用额外下模型。

写手 / 游戏开发者可以用来保持长篇作品里某个角色的一致口吻 ——这是 ElevenLabs 都给不了的能力 。

安装与上手

去官网下:https://voicebox.sh

平台

下载方式

macOS Apple Silicon

https://voicebox.sh/download/mac-arm

macOS Intel

https://voicebox.sh/download/mac-intel

Windows

https://voicebox.sh/download/windows

Linux

源码编译 + https://voicebox.sh/linux-install

Docker docker compose up

第一次用要下载模型 ——大小不一:Kokoro 只有 82MB ,Chatterbox 多语言版要大得多。下完之后离线使用、不再请求外部服务 。

Stories 编辑器 (多人对话 / 多角色播客制作)——多轨时间轴、不同角色台词放不同轨道、拖拽排列、轨道内裁剪 / 拆分——做播客 / 有声书的话,这个太实用了 。

谁该上手、谁先观望

适合现在上手
  • 副业做播客 / 有声书 ——想省合成费用;

  • 研发玩家 ——想让 Claude Code / Cursor 开口说话;

  • 隐私敏感 ——商用配音稿不想传给第三方;

  • 就是喜欢折腾 AI ——把语音能力接进自己工具链。

先观望
  • 偶尔用一下 / 不想管模型下载 ——ElevenLabs 在线版体感更顺滑;

  • Linux 用户 ——Linux 没预构建包、要自己源码编译。

我的判断

Voicebox 解决的是一个挺具体的问题——让本地 AI 配音从"能用"升到"好用" 。

它最大的价值不是"省钱"——是控制感 :

  • ✅ 声音档案在你手里 ——不用担心订阅停了 / 平台跑路;

  • ✅ 完全离线可用 ——飞机 / 弱网 / 内网机器都能跑;

  • ✅ MCP 接 AI Agent ——把语音能力变成 Agent 工作流的一部分;

  • ✅ 24.9k Star + 持续更新 ——v0.5.0 / 路线图清晰、不像那种半死不活的开源项目。

说到底 :做 AI 副业的人,长期看 Voicebox 帮你省下来的钱 + 多出来的控制感——值得花半小时配一次 。如果你是偶尔用一下 ElevenLabs 这种 ,那确实云端 + 订阅更顺手。

要装就装 macOS / Windows 版本 ——Apple Silicon 上的 MLX 加速体验最好 ——3 秒克隆、即克即用 。

仓库:https://github.com/jamiepine/voicebox

官网:https://voicebox.sh


欢迎加入我的知识星球,全面提升技术能力。

👉 加入方式,长按”或“扫描”下方二维码噢

星球的内容包括:项目实战、面试招聘、源码解析、学习路线。

文章有帮助的话,在看,转发吧。
谢谢支持哟 (*^__^*)

更多推荐