logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CineMaster: 3D感知电影级视频生成框架文献深度阅读分析

现有的大多数文本到视频生成模型主要依赖文本提示(text prompt)作为唯一的控制信号,这种控制方式虽然灵活,但存在明显的局限性:文本描述往往难以精确表达空间布局、物体位置、相机运动等复杂的3D场景信息。CineMaster通过引入真正的3D感知控制,开辟了一个新的研究方向,即如何在保证生成质量的同时,赋予用户对生成内容的精确控制能力。综上所述,CineMaster通过精心设计的两阶段框架、丰

#3d#音视频
More Than Generation: 通过文本到图像扩散模型统一生成与深度估计

这一思想的理论基础在于:预训练T2I模型在大规模图文数据上学习到的视觉表征,天然包含了对三维空间结构的理解,这种理解是深度估计等感知任务所需的核心能力。此外,与基于流匹配的DepthFM和基于注意力机制的GeoWizard等专门化方法相比,MERGE的独特优势在于其“即插即用”的范式——参数高效、无损切换、易于扩展,代表了扩散模型能力扩展的一种新方向。这种能力的丧失不仅令人遗憾,更从根本上限制了模

#深度学习#多模态
DiffusionGS: 将3D高斯溅射嵌入扩散模型的单阶段图像到三维生成

本文提出DiffusionGS,一种将3D高斯溅射嵌入扩散去噪器的单阶段图像到3D生成方法。相比传统两阶段方法,DiffusionGS通过共享3D高斯点云表示确保多视角一致性,支持物体和场景级生成。关键创新包括:像素空间操作保持完整3D表征、场景-物体混合训练策略解决数据不足、参考点Plucker坐标增强空间感知。实验表明,该方法在PSNR和FID指标上显著优于现有技术,256×256分辨率生成仅

#3d#深度学习#计算机视觉
GaussianAnything—— 交互式点云潜在扩散的3D生成

本文提出GaussianAnything,一种基于点云结构化潜在空间的级联潜在扩散模型,用于高质量3D内容生成。该方法通过3D变分自编码器将多视角RGB-D-N渲染图编码为点云结构化的潜在表示,再通过两阶段扩散模型分别生成几何结构和纹理特征,实现几何与纹理解耦。实验表明,该方法在文本和图像条件下的3D生成任务中优于现有技术,尤其在视角一致性和几何准确性方面表现突出。

#3d#深度学习
Latte——视频生成的潜在扩散变换器

Latte论文提出了一种基于Transformer架构的视频生成扩散模型,通过潜在扩散框架有效处理视频数据的高维时空特性。研究设计了四种不同的时空Transformer变体,系统比较了联合注意力与分解注意力等策略,发现空间-时间分解注意力在效率和质量上表现最佳。实验表明该方法在多个基准数据集上达到SOTA性能,FVD指标提升显著,同时验证了预训练初始化和AdaLN等关键设计选择的有效性。尽管在生成

#音视频#机器学习#算法
Show-o——单一Transformer统一多模态理解与生成

《Show-o:使用单一Transformer统一多模态理解与生成》提出了一种创新的混合建模架构,通过结合自回归和离散扩散机制,首次实现了多模态理解与生成任务的统一。该模型采用统一的离散token表示处理文本和图像,在视觉问答、图像描述等理解任务上达到专门模型水平,同时在文本到图像生成任务中媲美主流扩散模型。其核心创新在于任务感知的注意力掩码设计,能根据输入自动切换建模模式。实验表明,Show-o

#transformer#深度学习#人工智能 +2
LeMiCa——基于扩散的高效视频生成的词典序最小最大路径缓存

《LeMiCa:基于字典序最小最大路径缓存的视频扩散模型高效生成方法》提出了一种创新的推理加速框架。该方法通过字典序缓存策略和全局最优计算调度,在无需训练的情况下实现视频扩散模型的高效生成。核心创新包括:1)建立层次化缓存索引和智能替换策略;2)将推理过程建模为动态规划问题;3)即插即用的设计保持原始模型质量。实验表明,该方法在主流视频生成模型上可实现2.5-3倍加速,同时保持生成质量(FVD差异

#计算机视觉#人工智能#深度学习
PixArt-Σ——从弱到强的扩散变换器用于4K文本到图像生成

特别值得注意的是,在4K分辨率生成任务中,PixArt-Σ的图像质量指标甚至超过了一些专门设计的超分辨率模型。PixArt-Σ采用了渐进式的多尺度训练策略:首先在256×256分辨率上训练,然后逐步提升到512×512、1024×1024,最后达到4096×4096的4K分辨率。该范式的核心思想是:首先在一个较小但高质量的图像数据集上训练一个基础模型(Weak Model),然后将这个预训练好的模

#人工智能#计算机视觉#深度学习
CogVideoX——Transformer从文本到视频的扩散模型

清华大学与智谱AI团队提出的CogVideoX是首个商业级开源文本生成视频模型,采用创新的3D因果变分自编码器和专家Transformer架构,支持最高768×1360分辨率、10秒时长的视频生成。该模型通过3D全注意力机制和渐进式训练策略,显著提升了视频的时间连贯性和语义对齐效果。作为完全开源项目,CogVideoX不仅技术指标领先,还公开了模型权重与训练代码,为视频生成领域提供了重要研究基础。

#transformer#音视频#深度学习
LeMiCa——基于扩散模型的高效视频生成的词典序最小化路径缓存

扩散模型(Diffusion Models)近年来在视频生成领域取得了突破性进展,特别是基于DiT(Diffusion Transformer)架构的模型,如OpenAI的Sora、清华大学的CogVideoX等,已经能够生成高质量、长时间的视频内容。然而,现有的缓存方法存在两个关键局限:第一,它们通常采用局部贪心策略(Local-Greedy),仅关注相邻时间步之间的误差,忽略了扩散过程的时间异

#机器学习#算法#python
    共 20 条
  • 1
  • 2
  • 请选择