logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Transfusion,Show-o and Show-o2论文解读

Transfusion,show-o和show-o2论文解读,架构,创新点分析

文章图片
#人工智能#深度学习#计算机视觉
Open-Sora: Democratizing Efficient Video Production for All 论文解读

Open-Sora是一个开源的视频生成模型,旨在生成高保真度的视频内容。它支持广泛的视觉生成任务,包括文本到图像、文本到视频和图像到视频的生成。该模型利用先进的深度学习架构和训练/推理技术,能够生成长达15秒、分辨率达720p、任意宽高比的灵活视频。其中的关键创新包括空间-时间扩散变换器(STDiT)和高度压缩的3D自编码器。通过这个项目,研究人员希望促进AI内容创作领域的创新、创造力和包容性。开

文章图片
#深度学习#视频生成#transformer +2
Video-R1论文解读

Video-R1的论文解读,包括Video-R1数据集和T-GRPO强化学习机制

文章图片
#人工智能#深度学习#计算机视觉 +1
StyleGaussian: Instant 3D Style Transferwith Gaussian Splatting 论文解读

提出了StyleGaussian,一种新的3D风格化迁移技术,允许每秒10fps的速度,将任何风格即时传输到3D场景中。利用3DGS执行风格迁移,不会影响实时渲染能力和多视图一致性。(1)提出了StyleGaussian,一种新颖的三维风格化迁移手段。(2)设计了一种有效的特征渲染策略,可以在渲染高维特征中,将学习到的特征嵌入到冲减的三维高斯特征中。(3)设计了一个基于KNN的3D CNN,可以在

文章图片
#计算机视觉#视频生成#人工智能 +1
BAGEL:Emerging Properties in Unified Multimodal Pretraining 论文解读

摘要:BAGEL提出了一种新型多模态理解与生成统一架构,通过Mixture-of-Transformers(MoT)设计解决传统方法中的信息瓶颈问题。该架构采用理解专家和生成专家分离的参数空间,共享自注意力机制,同时支持视觉理解和生成任务。训练过程采用三阶段策略,利用2565M多模态交错数据(5.1T tokens)实现能力涌现。实验表明,BAGEL-1.5B模型在多项基准测试中超越更大规模的对比

文章图片
#深度学习#人工智能#transformer +1
3D-R1、Scene-R1、SpaceR论文解读

3D-R1、Scene-R1、SpaceR三个相关GRPO强化学习应用到3D多模态大语言模型新方法的论文解读

文章图片
#人工智能#深度学习#3d +2
LLaVA-3D,Video-3D LLM,VG-LLM,SPAR论文解读

LLaVA-3D,Video-3D LLM,VG-LLM,SPAR论文解读

文章图片
#3d#人工智能#深度学习 +1
人工智能原理(5)

不确定性推理,主观Bayes方法,可信度方法,证据理论,模糊数学

文章图片
#人工智能
    共 71 条
  • 1
  • 2
  • 3
  • 8
  • 请选择