[特殊字符]开源界炸了!NeuTTS Air:手机就能跑的超写实TTS,3秒克隆任意声音
摘要:NeuTTS Air开源语音合成模型爆火,仅0.5B参数即可实现媲美商业API的写实语音效果,支持3秒极速声音克隆和本地部署。该模型采用NeuCodec音频编解码器,能模拟人类语气变化,支持全设备运行并内置水印技术。可广泛应用于内容创作、无障碍服务等场景,开发者现可免费使用。项目明确禁止非法用途,多语言适配正在进行中。
你敢信吗?现在用手机就能克隆出任何人的声音,还能让它说出任意文字——而且全程离线运行,不用怕隐私泄露。
最近Neuphonic团队开源的NeuTTS Air彻底火了。这个被称为"开源界Siri"的语音合成模型,凭借0.5B参数的轻量体型,实现了堪比商业API的超写实语音效果,还支持实时语音克隆和本地部署。
项目地址:https://github.com/neuphonic/neutts-air
体验地址:https://huggingface.co/spaces/neuphonic/neutts-air
欢迎大家关注我的公众号:大模型论文研习社
往期回顾:大模型也会 “脑补” 了!Mirage 框架解锁多模态推理新范式,无需生成像素图性能还暴涨
欢迎大家体验我的小程序:王哥儿LLM刷题宝典,里面有大模型相关面经,正在持续更新中
🔍它凭什么封神?
NeuTTS Air最让人惊艳的,是把三大黑科技装进了一个轻量级模型里:
超写实语音合成:采用自研NeuCodec音频编解码器,在低比特率下实现接近无损的音质。对比传统TTS的机械音,它能模拟人类说话的抑扬顿挫,甚至呼吸感和语气变化。
3秒极速克隆:只需3-15秒的参考音频,就能精准复刻说话人的声线、语速和情感。实测用一段短视频配音,生成的语音相似度高达90%+。
全设备适配:GGUF格式优化让模型能在手机、树莓派等边缘设备流畅运行,生成速度比实时播放还快2倍,彻底摆脱对云端API的依赖。
更关键的是,所有生成音频都内置Perth水印技术,既保证可追溯性,又不影响听觉体验——这在AI内容监管日益严格的今天,显得尤为重要。
📱手把手教你玩起来
准备工作
- 克隆项目仓库
git clone https://github.com/neuphonic/neutts-air.git
cd neutts-air
- 安装依赖(需Python 3.11+)
# 安装基础依赖
pip install -r requirements.txt
# 如需使用GGUF模型(推荐)
pip install llama-cpp-python
# 如需使用ONNX解码器(低延迟场景)
pip install onnxruntime
- 安装espeak语音引擎
# Mac用户
brew install espeak
# Ubuntu用户
sudo apt install espeak
快速体验
最简单的方式是直接运行示例脚本:
python -m examples.basic_example \
--input_text "你好,这是NeuTTS Air生成的语音" \
--ref_audio samples/dave.wav \
--ref_text samples/dave.txt
执行后会在当前目录生成output.wav,听听看是不是和参考音频里的Dave声音一模一样?
进阶玩法:克隆自己的声音
- 准备一段3-15秒的清晰语音(无杂音、单声道、16kHz采样率)
- 用脚本生成参考编码:
python -m examples.encode_reference \
--ref_audio 你的声音.wav \
--output_path my_voice.pt
- 用自己的声音合成文本:
python -m examples.onnx_example \
--input_text "大家好,这是我的克隆声音" \
--ref_codes my_voice.pt \
--ref_text "参考音频对应的文字内容" \
--backbone neuphonic/neutts-air-q4-gguf
低延迟优化技巧
- 优先使用GGUF格式模型(q4版本仅需2GB内存)
- 提前编码参考音频(如上述步骤2)
- 搭配ONNX解码器:
--codec_repo neuphonic/neucodec-onnx-decoder
实测在iPhone 14上,优化后首次响应延迟可控制在500ms内,后续生成完全实时。
🚀哪些场景会被颠覆?
这个开源项目的出现,可能会彻底改变语音交互的生态:
- 开发者:无需高昂API费用,就能给App添加个性化语音
- 内容创作者:快速生成多角色配音,降低视频制作成本
- 无障碍工具:为视障用户提供更自然的屏幕阅读器
- 智能设备:让智能家居拥有用户熟悉的家人声音
当然,技术双刃剑也需要警惕。项目团队在License中明确禁止用于欺诈、伪造等非法用途,内置的水印技术也为内容溯源提供了可能。
💬来聊聊你的想法
目前NeuTTS Air仅支持英语,但社区已经在推进多语言适配。你觉得这个技术最适合用在什么场景?如果支持中文,你会用来做什么?欢迎在留言区分享你的创意
更多推荐



所有评论(0)