🎙️ VibeVoice: 开源前沿语音AI

VibeVoice Logo

项目概况

VibeVoice是一个开源的前沿语音AI模型家族,包括文本转语音(TTS)和自动语音识别(ASR)模型。VibeVoice的核心创新在于其采用连续语音标记器(声学和语义),以超低的帧率(7.5 Hz)运作,这样不仅有效地保留了音频的保真度,而且显著提高了处理长序列的计算效率。该系统通过大型语言模型(LLM)来理解文本上下文和对话流,并利用扩散头生成高保真的声学细节。

如果您想了解更多信息、演示和示例,请访问我们的项目页面

模型 权重 快速体验
VibeVoice-ASR-7B HF 链接 游乐场
VibeVoice-TTS-1.5B HF 链接 禁用
VibeVoice-Realtime-0.5B HF 链接 Colab

模型详细介绍

1. 📖 VibeVoice-ASR - 长段语音识别

VibeVoice-ASR是一个统一的语音转文本模型,能够处理长达60分钟的语音音频,并生成包括“谁(说话者)、何时(时间戳)、及何事(内容)”的结构化转录,支持用户自定义热词。

  • 🕒 60分钟单次处理:与传统的ASR模型将音频切割成短块不同,VibeVoice ASR可以接受最大60分钟的连续音频输入,从而确保整体说话者追踪和语义连贯。
  • 👤 自定义热词:用户可以提供自定义热词(例如特定名称、术语或背景信息),以指导识别过程,从而显著提高对特定领域内容的准确性。
  • 📝 丰富的转录(谁,何时,什么):该模型结合进行了ASR、说话者识别和时间戳处理,生成指示“谁”在“什么时间”说了“什么”的结构化输出。

📖 文档 | 🤗 Hugging Face | 🎮 游乐场 | 🛠️ 微调

DER
cpWER
tcpWER

2. 🎙️ VibeVoice-TTS - 长段多说话者文本转语音

最佳用途:长段对话音频、播客、多说话者对话。

  • ⏱️ 90分钟长段生成:可以在一次性处理的情况下合成长达90分钟的单一说话者或对话语音,确保说话者一致性和语义连贯性。
  • 👥 多说话者支持:在单一对话中支持最多4位不同说话者,具备自然的轮换和说话者一致性。
  • 🎭 富有表现力的语音:生成富有表现力、自然听起来的声音,捕捉对话的动态和情感细微差别。
  • 🌐 多语言支持:支持英语、中文及其他语言。

📖 文档 | 🤗 Hugging Face | 📊 论文

VibeVoice Results

表现示例

  • 英语外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
  • 中文外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
  • 跨语言外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
  • 自发演唱外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
  • 四人长谈外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3. ⚡ VibeVoice-Streaming - 实时流媒体文本转语音

VibeVoice-Realtime是一个轻量级的实时文本转语音模型,支持流式文本输入和强大的长段语音生成。

  • 参数大小:0.5B(适合部署)
  • 实时TTS(首次可听延迟约300毫秒)
  • 支持流媒体文本输入
  • 稳定的长段语音生成(约10分钟)

📖 文档 | 🤗 Hugging Face | 🚀 Colab

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

⚠️ 风险与限制

尽管我们已通过多种技术进行优化,VibeVoice仍可能生成意外、偏见或不准确的输出。该模型可能继承其基础模型(特别是Qwen2.5 1.5b版本)产生的偏差、错误或遗漏。此外,高质量的合成语音可能被滥用以创建令人信服的虚假音频内容,进行冒充、欺诈或传播虚假信息。用户必须确保转录的可靠性,检查内容的准确性,避免以误导性的方式使用生成的内容。使用者应确保在法律允许的情况下使用生成的内容,并在分享人工智能生成内容时予以披露。

我们不建议在没有进一步测试和开发的情况下,将VibeVoice用于商业或现实场景。该模型旨在用于研究和开发目的,请负责地使用。

同类项目介绍

在语音AI领域,还存在许多同类项目,具有不同的功能和特点。比如:

  1. Google TTS:提供多种语音风格与语调,支持多种语言,适合于简单的文本到语音转换。
  2. Mozilla TTS:开源项目,致力于多种语言和方言的高质量语音合成,适合开发者自定义需求的场景。
  3. IBM Watson Text to Speech:支持多种自然语言的实时转换,具有丰富的API接口,方便集成到各种应用中。

这些项目虽然各有千秋,但VibeVoice的长时间语音处理能力及多说话者支持却使其在许多实际应用中具备独特的优势。

Logo

一座年轻的奋斗人之城,一个温馨的开发者之家。在这里,代码改变人生,开发创造未来!

更多推荐