logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

BLIP,InternVL Series(上)

介绍SimVLM,BLIP,BLIP-2,Intern-1.0论文的动机,方法架构,以及训练思路。

文章图片
#计算机视觉#语言模型#深度学习
Metamorph、LlamaFusion、MetaQuery论文解读

Meta发布的Metamorph、Llamafusion、MetaQuery论文解读

文章图片
#深度学习#人工智能#语言模型 +1
MotionCtrl: A Unified and Flexible Motion Controller for Video Generation 论文解读

MotionCtrl是一个统一和灵活的视频生成运动控制器可以独立控制相机运动和物体运动,解决了以往方法中要么只关注一种类型的运动,要么无法区分两者之间的差异性。MotionCtrl提供了三个优势:(1)它可以有效且独立地控制相机和物体运动,实现细粒度调整和多样化的运动组合(2)它使用相机姿态和轨迹作为运动条件,这不会影响物体的视觉外观(3)它是一个相对通用的模型,可以适应各种相机姿态和轨迹,无需进

文章图片
#视频生成#计算机视觉#人工智能 +1
L4GM: Large 4D Gaussian Reconstruction Model 论文解读

该论文提出了第一个4D大型重建模型L4GM,从单视图视频中生成动画物体的4D模型,并仅需一次前馈传递即可完成,只需要一秒钟。我们直接建立在一个预训练的三维大型重建模型LGM上,L4GM可以从较低fps采样视频帧,得到每一帧的3DGS表示,之后上采样到更高的fps,来保证时间平滑性。L4GM的关键在于设计了一个新的大规模数据集,来自于Objaverse 1.0的包含1200w个视频渲染动画,包含44

文章图片
#3d#人工智能#计算机视觉 +1
VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model 论文解读

该论文介绍了一种新的高质量多视图一致的图像生成方法VideoMV,从现有的视频生成模型中进行微调,来用于多视图的合成。提到预训练的数据和模型决定了学习的特征类型,底层的三维模型决定了是否多视图一致。提出了一种新颖的3D-aware的去噪策略(基于视频的多视图生成的前馈模型),进一步提高生成图像的多视图一致性。实验结果表明,VideoMV在效率和质量上显著优于现有多视图合成方法(MVDream)。

文章图片
#人工智能#深度学习#计算机视觉 +2
ShapeLLM-Omni 论文解读

《ShapeLLM-Omni:面向3D生成与理解的多模态大语言模型》提出了一种支持3D内容原生处理的端到端框架。该模型基于Qwen2.5-VL架构,通过3DVQVAE将OBJ网格离散化为体素token序列,构建了包含712K 3D资产和70K编辑指令的3D-Alpaca数据集。实验表明,

文章图片
#计算机视觉#语言模型#3d +1
CameraCtrl: Enabling Camera Control forText-to-Video Generation 论文解读

该论文介绍了一个即插即用模块,可以在文本到视频生成模型中实现相机视角的精确控制,考虑到无缝集成到T2V模型中,我们研究了如何有效精确控制相机运动。并通过Plucker射线来表示相机姿态,提供对相机参数的全面几何描述。该论文在AnimateDiff上实现了CameraCtrl,并在各种个性化视频生成中实现精确的相机控制,证明了其在各种视频创作环境上的通用性和实用性。

文章图片
#人工智能#3d#计算机视觉 +2
MUSE-VL、TokenFlow、UniToken论文解读

MUSE-VL、TokenFlow、Unitoken语义+像素视觉编码的工作的论文解读

文章图片
#深度学习#人工智能#计算机视觉 +1
HunyuanVideo: A Systematic Framework For LargeVideo Generative Models 论文解读

该论文介绍了HunyuanVideo,一个新颖的最大的开源视频基础模型,并在视频生成方面的性能,优于领先的闭源模型。该框架涵盖了训练基础框架、数据管理、模型架构优化、模型训练等,并提出一种有效的扩展策略,在不降低所需模型性能的情况下,减少5倍的计算资源需求。基于这一扩展方法和基础框架,训练了一个130亿参数的大规模视频模型,并在互联网规模的图像和视频上进行预训练,并经过专门的渐进式微调策略后,在视

文章图片
#视频生成#3d#计算机视觉 +3
Transfusion,Show-o and Show-o2论文解读

Transfusion,show-o和show-o2论文解读,架构,创新点分析

文章图片
#人工智能#深度学习#计算机视觉
    共 64 条
  • 1
  • 2
  • 3
  • 7
  • 请选择