你敢信吗?现在用手机就能克隆出任何人的声音,还能让它说出任意文字——而且全程离线运行,不用怕隐私泄露。

最近Neuphonic团队开源的NeuTTS Air彻底火了。这个被称为"开源界Siri"的语音合成模型,凭借0.5B参数的轻量体型,实现了堪比商业API的超写实语音效果,还支持实时语音克隆和本地部署。

项目地址:https://github.com/neuphonic/neutts-air
体验地址:https://huggingface.co/spaces/neuphonic/neutts-air

欢迎大家关注我的公众号:大模型论文研习社
往期回顾:大模型也会 “脑补” 了!Mirage 框架解锁多模态推理新范式,无需生成像素图性能还暴涨

欢迎大家体验我的小程序:王哥儿LLM刷题宝典,里面有大模型相关面经,正在持续更新中
在这里插入图片描述

🔍它凭什么封神?

NeuTTS Air最让人惊艳的,是把三大黑科技装进了一个轻量级模型里:

超写实语音合成:采用自研NeuCodec音频编解码器,在低比特率下实现接近无损的音质。对比传统TTS的机械音,它能模拟人类说话的抑扬顿挫,甚至呼吸感和语气变化。

3秒极速克隆:只需3-15秒的参考音频,就能精准复刻说话人的声线、语速和情感。实测用一段短视频配音,生成的语音相似度高达90%+。

全设备适配:GGUF格式优化让模型能在手机、树莓派等边缘设备流畅运行,生成速度比实时播放还快2倍,彻底摆脱对云端API的依赖。

更关键的是,所有生成音频都内置Perth水印技术,既保证可追溯性,又不影响听觉体验——这在AI内容监管日益严格的今天,显得尤为重要。
在这里插入图片描述

📱手把手教你玩起来

准备工作

  1. 克隆项目仓库
git clone https://github.com/neuphonic/neutts-air.git
cd neutts-air
  1. 安装依赖(需Python 3.11+)
# 安装基础依赖
pip install -r requirements.txt

# 如需使用GGUF模型(推荐)
pip install llama-cpp-python

# 如需使用ONNX解码器(低延迟场景)
pip install onnxruntime
  1. 安装espeak语音引擎
# Mac用户
brew install espeak

# Ubuntu用户
sudo apt install espeak

快速体验

最简单的方式是直接运行示例脚本:

python -m examples.basic_example \
  --input_text "你好,这是NeuTTS Air生成的语音" \
  --ref_audio samples/dave.wav \
  --ref_text samples/dave.txt

执行后会在当前目录生成output.wav,听听看是不是和参考音频里的Dave声音一模一样?

进阶玩法:克隆自己的声音

  1. 准备一段3-15秒的清晰语音(无杂音、单声道、16kHz采样率)
  2. 用脚本生成参考编码:
python -m examples.encode_reference \
  --ref_audio 你的声音.wav \
  --output_path my_voice.pt
  1. 用自己的声音合成文本:
python -m examples.onnx_example \
  --input_text "大家好,这是我的克隆声音" \
  --ref_codes my_voice.pt \
  --ref_text "参考音频对应的文字内容" \
  --backbone neuphonic/neutts-air-q4-gguf

低延迟优化技巧

  • 优先使用GGUF格式模型(q4版本仅需2GB内存)
  • 提前编码参考音频(如上述步骤2)
  • 搭配ONNX解码器:--codec_repo neuphonic/neucodec-onnx-decoder

实测在iPhone 14上,优化后首次响应延迟可控制在500ms内,后续生成完全实时。

🚀哪些场景会被颠覆?

这个开源项目的出现,可能会彻底改变语音交互的生态:

  • 开发者:无需高昂API费用,就能给App添加个性化语音
  • 内容创作者:快速生成多角色配音,降低视频制作成本
  • 无障碍工具:为视障用户提供更自然的屏幕阅读器
  • 智能设备:让智能家居拥有用户熟悉的家人声音

当然,技术双刃剑也需要警惕。项目团队在License中明确禁止用于欺诈、伪造等非法用途,内置的水印技术也为内容溯源提供了可能。

💬来聊聊你的想法

目前NeuTTS Air仅支持英语,但社区已经在推进多语言适配。你觉得这个技术最适合用在什么场景?如果支持中文,你会用来做什么?欢迎在留言区分享你的创意

Logo

分享最新、最前沿的AI大模型技术,吸纳国内前几批AI大模型开发者

更多推荐