logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

FreeLong-无需训练即可延长视频生成时长

效果就不展示了,论文中放出来的肯定都是好的效果。但是这篇论文讨论的原理看起来是非常有道理的。应该可以一定程度上解决长视频生成的问题。

#音视频
Qwen-Image网络结构与位置编码解读

这两年图像生成任务做的越来越好,应该马上就能满足实际需求了,达到普通人难以分辨的程度。随着算力和显存的提升,模型越来越倾向于将所有输入直接token化,然后定制位置编码后直接整个送入transformer。后续视频生成任务估计也会有类似的发展趋势,本文中的VAE用Wan 2.1 估计就是为此铺路的。不过视频消耗的资源还是太多了,何况transformer的复杂度是n的平方,估计一两年内还是做不到像

#人工智能
python计算机视觉编程第9章 图像分割

图割(Graph Cut)是图像处理领域中的一种基本技术,用于分割图像或者其他类型的图形。它的基本思想是将图像表示成一个图(图论中的概念),其中图的节点代表图像中的像素或者其他感兴趣的区域,图的边则代表节点之间的关系。图割的主要应用之一是图像分割,即将图像中的像素分成若干个不同的区域或物体。这在计算机视觉领域中有广泛的应用,比如目标检测、图像编辑、医学图像分析等。图割算法的基本原理是通过在图上定义

#计算机视觉#python#人工智能
python计算机视觉编程第五章 多视图几何

多视图几何(Multiple View Geometry)是计算机视觉领域的一个重要概念,它涉及到从多个不同视角(角度)获取的图像中推断出物体的三维结构和相对位置关系。在现实世界中,我们通常通过不同的角度观察物体,然后通过这些不同的视角来理解物体的形状、位置和运动。多视图几何的目标就是从这些多个视图中恢复出物体的几何信息。主要内容有:三维重建、立体视觉、运动估计等。

#python#计算机视觉
机器学习实战第七章 集成学习

所谓三个臭皮匠顶个诸葛亮,类似的思想就是集成学习的核心思想。集成学习是通过将多个弱学习器(Weak Learners)组合在一起,形成一个更强大的学习模型。成学习通过结合多个学习器的预测结果,可以达到比单个学习器更好的性能和泛化能力。

#机器学习#集成学习
Lora原理及实现浅析

简单介绍了Lora的原理及

文章图片
#深度学习#人工智能
pytorch转onnx以及部分算子对照表

pytorch到onnx的转化,以及部分算子对照表

#python
到底了