
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Transfusion,show-o和show-o2论文解读,架构,创新点分析

Open-Sora是一个开源的视频生成模型,旨在生成高保真度的视频内容。它支持广泛的视觉生成任务,包括文本到图像、文本到视频和图像到视频的生成。该模型利用先进的深度学习架构和训练/推理技术,能够生成长达15秒、分辨率达720p、任意宽高比的灵活视频。其中的关键创新包括空间-时间扩散变换器(STDiT)和高度压缩的3D自编码器。通过这个项目,研究人员希望促进AI内容创作领域的创新、创造力和包容性。开

Video-R1的论文解读,包括Video-R1数据集和T-GRPO强化学习机制

提出了StyleGaussian,一种新的3D风格化迁移技术,允许每秒10fps的速度,将任何风格即时传输到3D场景中。利用3DGS执行风格迁移,不会影响实时渲染能力和多视图一致性。(1)提出了StyleGaussian,一种新颖的三维风格化迁移手段。(2)设计了一种有效的特征渲染策略,可以在渲染高维特征中,将学习到的特征嵌入到冲减的三维高斯特征中。(3)设计了一个基于KNN的3D CNN,可以在

摘要:BAGEL提出了一种新型多模态理解与生成统一架构,通过Mixture-of-Transformers(MoT)设计解决传统方法中的信息瓶颈问题。该架构采用理解专家和生成专家分离的参数空间,共享自注意力机制,同时支持视觉理解和生成任务。训练过程采用三阶段策略,利用2565M多模态交错数据(5.1T tokens)实现能力涌现。实验表明,BAGEL-1.5B模型在多项基准测试中超越更大规模的对比

SpatialLLM,SpatialLM,SpatialReasoner的论文解读

3D-R1、Scene-R1、SpaceR三个相关GRPO强化学习应用到3D多模态大语言模型新方法的论文解读

LLaVA-3D,Video-3D LLM,VG-LLM,SPAR论文解读

MM-Spatial和Spatial-MLLM论文解读









