简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
前段时间开源了CogVideoX-Fun,学习了很多CogVideoX的代码与思想理念,发现EasyAnimate之前的版本存在非常多不合理的地方,比如说embedding的添加方式、模型规模等。在这个基础上我们开发了EasyAnimateV5,提升了EasyAnimate系列的模型生成能力。另外,筛选了一大批不同控制条件的视频,训练了带有不同控制能力的EasyAnimateV5模型。
在视觉方向的AIGC领域,AI写真是一个靠谱且经过验证的落地方案,随着StableDiffusion领域开源社区的快速发展,社区也涌现了类似 FaceChain 这样基于 Modelscope开源社区结合 diffusers 的开源项目,用于指导用户快速开发个人写真。然而对于大量使用SDWebUI的 AIGC 同学们,短时间内却没有一个效果足够好的开源插件,去适配真人写真这一功能。对于AI写真而言
前段时间开源了CogVideoX-Fun,学习了很多CogVideoX的代码与思想理念,发现EasyAnimate之前的版本存在非常多不合理的地方,比如说embedding的添加方式、模型规模等。在这个基础上我们开发了EasyAnimateV5,提升了EasyAnimate系列的模型生成能力。另外,筛选了一大批不同控制条件的视频,训练了带有不同控制能力的EasyAnimateV5模型。
学了一些多模态的知识,CLIP算是其中最重要也是最通用的一环,一起来看一下吧。CLIP的全称是Contrastive Language-Image Pre-Training,中文是对比语言-图像预训练,是一个预训练模型,简称为CLIP。该模型是 OpenAI 在 2021 年发布的,最初用于匹配图像和文本的预训练神经网络模型,这个任务在多模态领域比较常见,可以用于文本图像检索,CLIP是近年来在多
前段时间开源了CogVideoX-Fun,发现第一版有些时候图生视频不太动,观察了原版的SVD和原版的CogVideoX-I2V,应该要给参考图片添加一些Noise会更好。并且重构了动作更大的数据集,目标动的也就越开心。另外,筛选了一批带有Pose的视频,训练了带有控制的CogVideoX-Fun模型。https://github.com/aigc-apps/CogVideoX-Funhttps:
这段时间正在训练EasyAnimateV4.5,发现总有一些问题解决不了,开始怀疑是自己的训练框架有问题。恰逢清华开源了CogVideoX,这是个很优秀的文生视频模型,可惜没有图生视频,还固定了分辨率,于是试着将CogVideo修改到我们的框架中,发现其实效果还不错。
工作了一段时间,感觉Docker真的是一个很方便的工具,无论复现代码还是部署服务器,不用特别担心环境的错误。
神经网络学习小记录3——利用tensorflow构建长短时记忆网络(LSTM)学习前言LSTM简介1、RNN的梯度消失问题2、LSTM的结构3、LSTM独特的门结构tensorflow中RNN的相关函数tf.contrib.rnn.BasicLSTMCelltf.nn.dynamic_rnn全部代码学习前言又出去快乐的玩耍了,但是不要忘了学习噢。LSTM简介1、RNN的梯度消失问题在过...
神经网络学习小记录42——windows下的tensorflow-gpu=1.13.2环境配置学习前言环境内容Anaconda安装下载Cudnn和CUDA配置tensorflow环境安装VSCODE学习前言好多人问环境怎么配置,还是出个教程吧。环境内容tensorflow-gpu:1.13.2keras:2.1.5numpy:1.17.4Anaconda安装取网上搜索Anacon...
神经网络学习小记录4——利用tensorflow进行自编码学习前言antoencoder简介1、为什么要降维2、antoencoder的原理3、python中encode的实现全部代码学习前言当你发现数据的维度太多怎么办!没关系,我们给它降维!当你发现不会降维怎么办!没关系,来这里看看怎么autoencode!antoencoder简介1、为什么要降维随着社会的发展,可以利用人工智能...