cover

使用Whisper生成视频字幕

Whisper是openai开源的一个通用的语音识别模型，它在不同音频的大型数据集上训练，也是一个多任务模型，可以执行多语言语音识别、语音翻译。Whisper代码地址Whisper论文地址。

希蒙德

372人浏览 · 2023-07-24 17:40:47

希蒙德 · 2023-07-24 17:40:47 发布

使用Whisper生成视频字幕

Whisper介绍

Whisper是openai开源的一个通用的语音识别模型，它在不同音频的大型数据集上训练，也是一个多任务模型，可以执行多语言语音识别、语音翻译。Whisper代码地址,Whisper论文地址

搭建Whisper运行环境

Whisper使用了pytorch深度学习框架，因此需要先安装pytorch官网，openai将Whisper封装成了python库，我们非常简便的进行安装、使用。

安装pytorch(GPU版本)

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117

安装Whisper库

pip install -U openai-whisper

生成视频的字幕

在生成字幕之前我们需要提取视频文件的音频数据，提取方式详见使用FFMPEG提取音频数据。命令下调用Whisper生成音频的字幕。

whisper output.mp3 --language Chinese --model medium

– language 目标语言的种类
– model 选择模型

目前Whisper提供的模型有如下几种（目前的使用情况medium相比large差别不是很大）：
在这里插入图片描述
Whisper在各语言上的表现（数值越小越好）：

思考

Whisper能不能用来翻译小姐姐的视频呢？翻译的效果何如？

结尾

欢迎加入群聊一起学习、讨论技术！
B站账号：Silver__Wolf_
Q：130856474

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

cover

用 OpenAI Assistants 做大模型应用开发

CSDN学习社区

cover

1 小时解读鸿蒙 10 大热点问题

CSDN学习社区

cover

1 小时解读鸿蒙 10 大热点问题

CSDN学习社区

所有评论(0)

查看更多评论

希蒙德

已为社区贡献1条内容