音视频开发之旅个人主页

@u011570979

音视频开发之旅

2023-05-26 11:31:27 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

音视频开发之旅（75）- AI数字人进阶--GeneFace++

目录1.效果展示和玩法场景2.GeneFace++原理学习3.数据集准备以及训练的过程5.遇到的问题与解决方案6.参考资料一、效果展示AI数字人进阶--GeneFace++（1）AI数字人进阶--GeneFace++（2）想象一下，一个专为你打造的AI数字人，不仅可以代表你在屏幕上出现，还能带来实实在在的商业价值。之前。

#人工智能

音视频开发之旅（74）- AI数字人-实现图像无缝融合

通过先下采样再上采样,然后对上采样的,得到拉普拉斯金字塔,然后再和逐级上采样的图片进行相加即可恢复为原图, 即是无损的. 如果我们对图片中变化比较小的低频分量进行剔除,只保留更多细节的高频分量(即边缘轮廓),损失一部分不明显的信息,再进行恢复可以实现图片压缩的效果.泊松融合可以将一个图像区域无缝地融合到另一个图像中，在保持图像渐变的前提下调整图像的像素值，不仅能够保留源图像的细节和结构，又能自然

#音视频 #人工智能

音视频开发之旅（35) -FFmpeg + AudioTrack 实现音频解码和播放

目录音频解码流程解码音频为pcm使用AudioTrack播放音频资料收获上一篇我们了解了FFmpeg解码流程、关键函数和结构体，实现了视频解码器。这篇我们来实现下音频的解码器。解码流程和视频的基本一致。FFmpeg解码的音频裸数据是PCM格式，android上播放PCM音频数据可以通过AudioTrack和OpenSL ES来实现。下面我们下来看下解码的流程一、音频解码流程和上一篇的视频解码流程基

#android

ubuntu git的安装配置使用

GIT 是用于 Linux 内核开发的版本控制工具。与常用的版本控制工具 CVS, svn 等不同，它采用了分布式版本库的方式，不必服务器端软件支持，使源代码的发布和交流极其方便。 Git 的速度很快，这对于诸如 Linux kernelandroid这样的大项目来说自然很重要。 Git 最为出色的是它的合并跟踪（merge tracing）能力。

#git #ubuntu

音视频开发之旅（77）- 训练可泛化AI数字人的中文数据集汇总

1、CMLR2、LRW-10003、其他数据集4、视频收集与处理与训练5、资料Wav2Lip实现的是视频人物根据输入音频生成与语音同步的人物唇形，使得生成的视频人物口型与输入语音同步。不仅可以基于静态图像来输出与目标语音匹配的唇形同步视频，还可以直接将动态的视频进行唇形转换，输出与目标语音匹配的视频。但是预训练模型采用的是LRS2数据集，对于中文唇音同步效果不够真实，开放的或者可申请比较大的中文数

#音视频 #人工智能

音视频开发之旅（80）- AI数字人-腾讯开源AniPortrait-音频驱动的肖像动画

这两天腾讯开源了其音频驱动的肖像视频的项目AniPortrait，它也实现了类似功能：音频驱动、参考视频表情动作驱动，或者通过预先生成的pose关键点视频来驱动。Reference Pose Image: 参考图像中人物姿势的一个标准表示，用于帮助系统理解参考帧中的人物姿势。在第二阶段，这些关键点将被用于生成最终的视频。7. Project: 将复杂的3D面部数据转换为2D平面上的点集，为下一步的

#音视频 #人工智能 #开源

移动端深度学习开源框架调研

支持卷积神经网络，支持多输入和多分支结构，可计算部分分支无任何第三方库依赖，不依赖 BLAS/NNPACK 等计算框架纯C++实现，跨平台，支持 android ios 等ARM NEON 汇编级良心优化，计算速度极快精细的内存管理和数据结构设计，内存占用极低支持多核并行计算加速，ARM big.LITTLE cpu 调度优化支持基于全新低消耗的 vulkan api GPU 加速整体库体积小于

一、基本使用与常用指令。

音视频开发之旅（80）- AI数字人-腾讯开源AniPortrait-音频驱动的肖像动画

#音视频 #人工智能 #开源

共 20 条

请选择