玩转前沿语音AI，用VibeVoice提升工作效率！

VibeVoice是微软开源的语音AI模型家族，包含ASR语音识别和TTS语音合成两大核心功能。其创新点在于采用7.5Hz超低帧率的连续语音标记器，通过LLM理解文本上下文，结合扩散头生成高保真音频。主要模型包括：支持60分钟长语音识别的ASR-7B、可生成90分钟多说话者对话的TTS-1.5B，以及低延迟的实时流式TTS模型Realtime-0.5B。项目提供Hugging Face模型权重和在

weixin_44626085

685人浏览 · 2026-01-29 11:10:24

weixin_44626085 · 2026-01-29 11:10:24 发布

🎙️ VibeVoice: 开源前沿语音AI

VibeVoice Logo

项目概况

VibeVoice是一个开源的前沿语音AI模型家族，包括文本转语音（TTS）和自动语音识别（ASR）模型。VibeVoice的核心创新在于其采用连续语音标记器（声学和语义），以超低的帧率（7.5 Hz）运作，这样不仅有效地保留了音频的保真度，而且显著提高了处理长序列的计算效率。该系统通过大型语言模型（LLM）来理解文本上下文和对话流，并利用扩散头生成高保真的声学细节。

如果您想了解更多信息、演示和示例，请访问我们的项目页面。

模型	权重	快速体验
VibeVoice-ASR-7B	HF 链接	游乐场
VibeVoice-TTS-1.5B	HF 链接	禁用
VibeVoice-Realtime-0.5B	HF 链接	Colab

模型详细介绍

1. 📖 VibeVoice-ASR - 长段语音识别

VibeVoice-ASR是一个统一的语音转文本模型，能够处理长达60分钟的语音音频，并生成包括“谁（说话者）、何时（时间戳）、及何事（内容）”的结构化转录，支持用户自定义热词。

🕒 60分钟单次处理：与传统的ASR模型将音频切割成短块不同，VibeVoice ASR可以接受最大60分钟的连续音频输入，从而确保整体说话者追踪和语义连贯。
👤 自定义热词：用户可以提供自定义热词（例如特定名称、术语或背景信息），以指导识别过程，从而显著提高对特定领域内容的准确性。
📝 丰富的转录（谁，何时，什么）：该模型结合进行了ASR、说话者识别和时间戳处理，生成指示“谁”在“什么时间”说了“什么”的结构化输出。

📖 文档 | 🤗 Hugging Face | 🎮 游乐场 | 🛠️ 微调

DER
cpWER
tcpWER

2. 🎙️ VibeVoice-TTS - 长段多说话者文本转语音

最佳用途：长段对话音频、播客、多说话者对话。

⏱️ 90分钟长段生成：可以在一次性处理的情况下合成长达90分钟的单一说话者或对话语音，确保说话者一致性和语义连贯性。
👥 多说话者支持：在单一对话中支持最多4位不同说话者，具备自然的轮换和说话者一致性。
🎭 富有表现力的语音：生成富有表现力、自然听起来的声音，捕捉对话的动态和情感细微差别。
🌐 多语言支持：支持英语、中文及其他语言。

📖 文档 | 🤗 Hugging Face | 📊 论文

VibeVoice Results

表现示例：

英语：
中文：
跨语言：
自发演唱：
四人长谈：

3. ⚡ VibeVoice-Streaming - 实时流媒体文本转语音

VibeVoice-Realtime是一个轻量级的实时文本转语音模型，支持流式文本输入和强大的长段语音生成。

参数大小：0.5B（适合部署）
实时TTS（首次可听延迟约300毫秒）
支持流媒体文本输入
稳定的长段语音生成（约10分钟）

📖 文档 | 🤗 Hugging Face | 🚀 Colab

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

⚠️ 风险与限制

尽管我们已通过多种技术进行优化，VibeVoice仍可能生成意外、偏见或不准确的输出。该模型可能继承其基础模型（特别是Qwen2.5 1.5b版本）产生的偏差、错误或遗漏。此外，高质量的合成语音可能被滥用以创建令人信服的虚假音频内容，进行冒充、欺诈或传播虚假信息。用户必须确保转录的可靠性，检查内容的准确性，避免以误导性的方式使用生成的内容。使用者应确保在法律允许的情况下使用生成的内容，并在分享人工智能生成内容时予以披露。

我们不建议在没有进一步测试和开发的情况下，将VibeVoice用于商业或现实场景。该模型旨在用于研究和开发目的，请负责地使用。