Whisper AI 是一种语音识别和转录软件,它使用人工智能 (AI) 将口头语言转换为书面文本。它旨在通过消除手动转录语音内容的需要来帮助个人和企业节省时间并提高工作效率。在下文中,您将学习如何使用 Whisper AI

该软件能够识别和转录多种语言和口音的语音,并提供标点符号和格式选项等功能,以提高转录的准确性。Whisper AI 由 ChatGPT 的创建者 OpenAI 提供。

您可以在 https://openai.com/blog/whisper/ 找到 Whisper AI 的一般介绍:

可以从 GitHub 检索 Whisper AI,存储库位于 https://github.com/openai/whisper

安装 Whisper AI

可以使用 Python 的包管理器 pip 安装语音转文本 AI

$ pip install git+https://github.com/openai/whisper.git

由于模型很大,我们不会在本地下载和执行 Whisper AI。相反,我们将使用 Google 的 Colaboratory,这是一个可在浏览器中访问的云 Python 开发环境。Colaboratory 可在 https://colab.research.google.com/ 上找到,并且可以使用您的 Google 帐户访问。

创建一个新的 Colab notebook 并将其命名为WhisperAITest.ipynb如何使用个人重命名器高效地批量重命名文件就像您在以下屏幕截图中看到的那样:

从运行时菜单中选择菜单项更改运行时类型,如以下屏幕截图所示:

这会将您带到以下屏幕,您可以在其中更改设置 GPU 的硬件加速器:

通过应用此设置,我们确保您在执行 AI 模型时获得最佳性能。

为了安装 Whisper,我们需要使用以下两个命令,这些命令需要插入到 Colaboratory notebook 的第一个单元格中:

!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg

第一个命令是确保在开发环境中下载并安装了 Whisper AI 包。

通过使用第二个命令,我们安装了 ffmpeg 工具,这是一个完整的跨平台解决方案,用于记录、转换和流式传输音频和视频。Whisper 使用此工具来访问音频/视频文件。

为了执行这两个命令,您需要点击单元格左侧的执行按钮。然后您应该能够看到类似于以下内容的输出:

将音频文件上传到 Colaboratory

接下来,打开 Colaboratory 左侧面板上的文件视图并上传一个包含英语语音音频流的示例 MP3 文件:

运行 Whisper AI

准备就绪后,我们就可以通过以下方式在另一个代码单元中执行 whisper 命令来运行 Whisper:

!whisper "sample.mp3" --model medium.en

我们在此定义应处理先前上传的 sample.mp3 文件,并且我们选择 Whisper 的英语媒介模型。

执行此代码单元时,您首先会注意到正在下载模型。中型模型的总大小为 1.42 GB。下载完成后,将处理音频文件,我们将取回文本转录:

除了代码执行单元格中显示的文本转录输出之外,您还可以看到文件也已添加到项目中:

已添加的文件是:

  • 样本.mp3.json

  • 样本.mp3.srt

  • 样本.mp3.tsv

  • 样本.mp3.txt

  • 样本.mp3.vtt

这些文件包含生成的文本以及不同的格式。例如,文件 sample.mp3.txt 仅包含纯文本,而文件 sample.mp3.vtt 包含的文本格式为另外添加的时间戳信息。

如果您想了解所有 whisper 命令行选项的概览,您可以输入

!whisper -h

然后将为您提供所有可以使用的命令行选项的概述:

选择正确的 Wisper AI 模型

在上一个示例中,我们一直在使用 medium.en 模型。该型号中等尺寸,仅支持英语。

Whisper AI 提供以下模型供您选择:

除了仅支持英语的型号外,还提供多语言型号。模型尺寸从小模型增加到大模型。通过使用更大的模型尺寸,您将获得更好的结果。但是,执行时间也在增加。

如果您不确定将哪种模型用于特定的转录任务,最好先从中等模型开始。

结论

总之,Whisper AI 是一款优秀的自由语音转文本 AI 工具,可以显着提高您的写作效率和生产力。凭借其先进的语音识别和转录技术,Whisper AI 可以准确地将口头内容转换为多种语言和口音的书面文本,使其成为个人和企业的多功能工具。因此,如果您正在寻找可靠且高效的语音转文本工具,请务必尝试使用 Whisper AI 并亲自体验 AI 驱动转录的强大功能!

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐