beyyi 个人主页

@m0_70584799

beyyi

2024-04-18 19:10:49 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

CineMaster: 3D感知电影级视频生成框架文献深度阅读分析

现有的大多数文本到视频生成模型主要依赖文本提示（text prompt）作为唯一的控制信号，这种控制方式虽然灵活，但存在明显的局限性：文本描述往往难以精确表达空间布局、物体位置、相机运动等复杂的3D场景信息。CineMaster通过引入真正的3D感知控制，开辟了一个新的研究方向，即如何在保证生成质量的同时，赋予用户对生成内容的精确控制能力。综上所述，CineMaster通过精心设计的两阶段框架、丰

#3d #音视频

More Than Generation: 通过文本到图像扩散模型统一生成与深度估计

这一思想的理论基础在于：预训练T2I模型在大规模图文数据上学习到的视觉表征，天然包含了对三维空间结构的理解，这种理解是深度估计等感知任务所需的核心能力。此外，与基于流匹配的DepthFM和基于注意力机制的GeoWizard等专门化方法相比，MERGE的独特优势在于其“即插即用”的范式——参数高效、无损切换、易于扩展，代表了扩散模型能力扩展的一种新方向。这种能力的丧失不仅令人遗憾，更从根本上限制了模

#深度学习 #多模态

DiffusionGS: 将3D高斯溅射嵌入扩散模型的单阶段图像到三维生成

本文提出DiffusionGS，一种将3D高斯溅射嵌入扩散去噪器的单阶段图像到3D生成方法。相比传统两阶段方法，DiffusionGS通过共享3D高斯点云表示确保多视角一致性，支持物体和场景级生成。关键创新包括：像素空间操作保持完整3D表征、场景-物体混合训练策略解决数据不足、参考点Plucker坐标增强空间感知。实验表明，该方法在PSNR和FID指标上显著优于现有技术，256×256分辨率生成仅

#3d #深度学习 #计算机视觉

GaussianAnything—— 交互式点云潜在扩散的3D生成

本文提出GaussianAnything，一种基于点云结构化潜在空间的级联潜在扩散模型，用于高质量3D内容生成。该方法通过3D变分自编码器将多视角RGB-D-N渲染图编码为点云结构化的潜在表示，再通过两阶段扩散模型分别生成几何结构和纹理特征，实现几何与纹理解耦。实验表明，该方法在文本和图像条件下的3D生成任务中优于现有技术，尤其在视角一致性和几何准确性方面表现突出。

#3d #深度学习

Latte——视频生成的潜在扩散变换器

Latte论文提出了一种基于Transformer架构的视频生成扩散模型，通过潜在扩散框架有效处理视频数据的高维时空特性。研究设计了四种不同的时空Transformer变体，系统比较了联合注意力与分解注意力等策略，发现空间-时间分解注意力在效率和质量上表现最佳。实验表明该方法在多个基准数据集上达到SOTA性能，FVD指标提升显著，同时验证了预训练初始化和AdaLN等关键设计选择的有效性。尽管在生成

#音视频 #机器学习 #算法

Show-o——单一Transformer统一多模态理解与生成

《Show-o：使用单一Transformer统一多模态理解与生成》提出了一种创新的混合建模架构，通过结合自回归和离散扩散机制，首次实现了多模态理解与生成任务的统一。该模型采用统一的离散token表示处理文本和图像，在视觉问答、图像描述等理解任务上达到专门模型水平，同时在文本到图像生成任务中媲美主流扩散模型。其核心创新在于任务感知的注意力掩码设计，能根据输入自动切换建模模式。实验表明，Show-o

#transformer #深度学习 #人工智能 +2

LeMiCa——基于扩散的高效视频生成的词典序最小最大路径缓存

《LeMiCa：基于字典序最小最大路径缓存的视频扩散模型高效生成方法》提出了一种创新的推理加速框架。该方法通过字典序缓存策略和全局最优计算调度，在无需训练的情况下实现视频扩散模型的高效生成。核心创新包括：1）建立层次化缓存索引和智能替换策略；2）将推理过程建模为动态规划问题；3）即插即用的设计保持原始模型质量。实验表明，该方法在主流视频生成模型上可实现2.5-3倍加速，同时保持生成质量（FVD差异

#计算机视觉 #人工智能 #深度学习

PixArt-Σ——从弱到强的扩散变换器用于4K文本到图像生成

特别值得注意的是，在4K分辨率生成任务中，PixArt-Σ的图像质量指标甚至超过了一些专门设计的超分辨率模型。PixArt-Σ采用了渐进式的多尺度训练策略：首先在256×256分辨率上训练，然后逐步提升到512×512、1024×1024，最后达到4096×4096的4K分辨率。该范式的核心思想是：首先在一个较小但高质量的图像数据集上训练一个基础模型（Weak Model），然后将这个预训练好的模

#人工智能 #计算机视觉 #深度学习

CogVideoX——Transformer从文本到视频的扩散模型

清华大学与智谱AI团队提出的CogVideoX是首个商业级开源文本生成视频模型，采用创新的3D因果变分自编码器和专家Transformer架构，支持最高768×1360分辨率、10秒时长的视频生成。该模型通过3D全注意力机制和渐进式训练策略，显著提升了视频的时间连贯性和语义对齐效果。作为完全开源项目，CogVideoX不仅技术指标领先，还公开了模型权重与训练代码，为视频生成领域提供了重要研究基础。

#transformer #音视频 #深度学习

LeMiCa——基于扩散模型的高效视频生成的词典序最小化路径缓存

扩散模型（Diffusion Models）近年来在视频生成领域取得了突破性进展，特别是基于DiT（Diffusion Transformer）架构的模型，如OpenAI的Sora、清华大学的CogVideoX等，已经能够生成高质量、长时间的视频内容。然而，现有的缓存方法存在两个关键局限：第一，它们通常采用局部贪心策略（Local-Greedy），仅关注相邻时间步之间的误差，忽略了扩散过程的时间异

#机器学习 #算法 #python

共 20 条

请选择