[特殊字符]开源界炸了！NeuTTS Air：手机就能跑的超写实TTS，3秒克隆任意声音

摘要：NeuTTS Air开源语音合成模型爆火，仅0.5B参数即可实现媲美商业API的写实语音效果，支持3秒极速声音克隆和本地部署。该模型采用NeuCodec音频编解码器，能模拟人类语气变化，支持全设备运行并内置水印技术。可广泛应用于内容创作、无障碍服务等场景，开发者现可免费使用。项目明确禁止非法用途，多语言适配正在进行中。

M桐M

1360人浏览 · 2025-10-11 13:45:00

M桐M · 2025-10-11 13:45:00 发布

你敢信吗？现在用手机就能克隆出任何人的声音，还能让它说出任意文字——而且全程离线运行，不用怕隐私泄露。

最近Neuphonic团队开源的NeuTTS Air彻底火了。这个被称为"开源界Siri"的语音合成模型，凭借0.5B参数的轻量体型，实现了堪比商业API的超写实语音效果，还支持实时语音克隆和本地部署。

项目地址：https://github.com/neuphonic/neutts-air
体验地址：https://huggingface.co/spaces/neuphonic/neutts-air

欢迎大家关注我的公众号：大模型论文研习社
往期回顾：大模型也会 “脑补” 了！Mirage 框架解锁多模态推理新范式，无需生成像素图性能还暴涨

欢迎大家体验我的小程序：王哥儿LLM刷题宝典，里面有大模型相关面经，正在持续更新中
在这里插入图片描述

🔍它凭什么封神？

NeuTTS Air最让人惊艳的，是把三大黑科技装进了一个轻量级模型里：

超写实语音合成：采用自研NeuCodec音频编解码器，在低比特率下实现接近无损的音质。对比传统TTS的机械音，它能模拟人类说话的抑扬顿挫，甚至呼吸感和语气变化。

3秒极速克隆：只需3-15秒的参考音频，就能精准复刻说话人的声线、语速和情感。实测用一段短视频配音，生成的语音相似度高达90%+。

全设备适配：GGUF格式优化让模型能在手机、树莓派等边缘设备流畅运行，生成速度比实时播放还快2倍，彻底摆脱对云端API的依赖。

更关键的是，所有生成音频都内置Perth水印技术，既保证可追溯性，又不影响听觉体验——这在AI内容监管日益严格的今天，显得尤为重要。
在这里插入图片描述

📱手把手教你玩起来

准备工作

克隆项目仓库

git clone https://github.com/neuphonic/neutts-air.git
cd neutts-air

安装依赖（需Python 3.11+）

# 安装基础依赖
pip install -r requirements.txt

# 如需使用GGUF模型（推荐）
pip install llama-cpp-python

# 如需使用ONNX解码器（低延迟场景）
pip install onnxruntime

安装espeak语音引擎

# Mac用户
brew install espeak

# Ubuntu用户
sudo apt install espeak

快速体验

最简单的方式是直接运行示例脚本：

python -m examples.basic_example \
  --input_text "你好，这是NeuTTS Air生成的语音" \
  --ref_audio samples/dave.wav \
  --ref_text samples/dave.txt

执行后会在当前目录生成output.wav，听听看是不是和参考音频里的Dave声音一模一样？

进阶玩法：克隆自己的声音

准备一段3-15秒的清晰语音（无杂音、单声道、16kHz采样率）
用脚本生成参考编码：

python -m examples.encode_reference \
  --ref_audio 你的声音.wav \
  --output_path my_voice.pt

用自己的声音合成文本：

python -m examples.onnx_example \
  --input_text "大家好，这是我的克隆声音" \
  --ref_codes my_voice.pt \
  --ref_text "参考音频对应的文字内容" \
  --backbone neuphonic/neutts-air-q4-gguf