OpenAI 开源语音识别 Whisper

Whisper 是一个自动语音识别（ASR，Automatic Speech Recognition）系统，OpenAI 通过从网络上收集了 68 万小时的多语言（98 种语言）和多任务（multitask）监督数据对 Whisper 进行了训练。解码器被训练来预测相应的文本标题，并混合特殊标记，指示单一模型执行诸如语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。是一个通用语音识别模型

ejinxian

3327人浏览 · 2022-09-27 08:16:04

ejinxian · 2022-09-27 08:16:04 发布

Whisper是一个通用语音识别模型。它是在各种音频的大型数据集上训练的，也是一个多任务模型，可以执行多语言语音识别以及语音翻译和语言识别。

人工智能公司 OpenAI 拥有 GTP-3 语言模型，并为 GitHub Copilot 提供技术支持的，宣布开源了Whisper 自动语音识别系统，Open AI 强调 Whisper 的语音识别能力已达到人类水准。

在各种语音处理任务中训练Transformer序列到序列模型，包括多语言语音识别、语音翻译、口语识别和语音活动检测。所有这些任务都被联合表示为由解码器预测的令牌序列，允许单一模型取代传统语音处理管道的许多不同阶段。多任务训练格式使用一组特殊的令牌作为任务说明符或分类目标。

Whisper 是一个自动语音识别（ASR，Automatic Speech Recognition）系统，OpenAI 通过从网络上收集了 68 万小时的多语言（98 种语言）和多任务（multitask）监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集，可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别，Whisper 还能实现多种语言的转录，以及将这些语言翻译成英语。OpenAI 开放模型和推理代码，希望开发者可以将 Whisper 作为建立有用的应用程序和进一步研究语音处理技术的基础