
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
效果就不展示了,论文中放出来的肯定都是好的效果。但是这篇论文讨论的原理看起来是非常有道理的。应该可以一定程度上解决长视频生成的问题。
这两年图像生成任务做的越来越好,应该马上就能满足实际需求了,达到普通人难以分辨的程度。随着算力和显存的提升,模型越来越倾向于将所有输入直接token化,然后定制位置编码后直接整个送入transformer。后续视频生成任务估计也会有类似的发展趋势,本文中的VAE用Wan 2.1 估计就是为此铺路的。不过视频消耗的资源还是太多了,何况transformer的复杂度是n的平方,估计一两年内还是做不到像
图割(Graph Cut)是图像处理领域中的一种基本技术,用于分割图像或者其他类型的图形。它的基本思想是将图像表示成一个图(图论中的概念),其中图的节点代表图像中的像素或者其他感兴趣的区域,图的边则代表节点之间的关系。图割的主要应用之一是图像分割,即将图像中的像素分成若干个不同的区域或物体。这在计算机视觉领域中有广泛的应用,比如目标检测、图像编辑、医学图像分析等。图割算法的基本原理是通过在图上定义
多视图几何(Multiple View Geometry)是计算机视觉领域的一个重要概念,它涉及到从多个不同视角(角度)获取的图像中推断出物体的三维结构和相对位置关系。在现实世界中,我们通常通过不同的角度观察物体,然后通过这些不同的视角来理解物体的形状、位置和运动。多视图几何的目标就是从这些多个视图中恢复出物体的几何信息。主要内容有:三维重建、立体视觉、运动估计等。
simswap的安装

所谓三个臭皮匠顶个诸葛亮,类似的思想就是集成学习的核心思想。集成学习是通过将多个弱学习器(Weak Learners)组合在一起,形成一个更强大的学习模型。成学习通过结合多个学习器的预测结果,可以达到比单个学习器更好的性能和泛化能力。
简单介绍了Lora的原理及

pytorch到onnx的转化,以及部分算子对照表







