Wav2Lip
还有一个关于此的教程视频,由 What Make Art 提供。此外,多亏了 Eyal Gruss,Google Colab notebook 更易于使用,具有更多有用的功能。音频源可以是 FFMPEG 支持的任何包含音频数据的文件:*.wav、*.mp3 甚至是视频文件,代码会自动从中提取音频。或者,此处提供了使用 docker 镜像的说明。🔥 🔥 发布了几个新的、可靠的评估基准和指标 [评
自述文件中更新了视觉质量光盘的权重!
以高精度将视频口型同步到任何目标语音 💯。试试我们的交互式演示。
✨ 适用于任何身份、声音和语言。也适用于 CGI 面孔和合成声音。
提供完整的训练代码、推理代码和预训练模型💥
或者,使用 Google Colab Notebook 快速入门:链接。检查点和示例也可在 Google Drive 文件夹中找到。还有一个关于此的教程视频,由 What Make Art 提供。此外,多亏了 Eyal Gruss,Google Colab notebook 更易于使用,具有更多有用的功能。此链接提供了教程协作笔记本。
🔥 🔥 发布了几个新的、可靠的评估基准和指标 [评估/此 repo 的文件夹]。还提供了计算论文中报告的指标的说明。
免责声明
先决条件
Python 3.6
ffmpeg: sudo apt-get 安装 ffmpeg
使用 pip install -r requirements.txt 安装必要的包。或者,此处提供了使用 docker 镜像的说明。如果您遇到任何问题,请查看此评论并评论要点。
人脸检测预训练模型下载到face_detection/detection/sfd/s3fd.pth。如果上述方法不起作用,请使用替代链接。
获取权重
模型描述模型链接
Wav2Lip高精度口型同步链接
Wav2Lip + GANS 口型同步稍差,但视觉质量更好Link
Expert Discriminator专家鉴别器的权重Link
Visual Quality Discriminator 在 GAN setupLink 中训练的视觉光盘的权重
使用预训练模型对口型视频(推理)
您可以将任何视频口型同步到任何音频:
python inference.py --checkpoint_path ckpt --face video.mp4 --audio an-audio-source
结果保存(默认)在 results/result_voice.mp4 中。您可以将其指定为参数,类似于其他几个可用选项。音频源可以是 FFMPEG 支持的任何包含音频数据的文件:*.wav、*.mp3 甚至是视频文件,代码会自动从中提取音频。
获得更好结果的提示:
更多推荐
所有评论(0)