logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【3D 资产生成】PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image

本文提出PhysX-Anything,一种从单张图像生成可直接用于仿真的物理3D资产的新方法。现有3D生成方法大多忽视物理属性和关节结构,限制了在机器人等领域的应用。为解决这一问题,作者开发了首个基于视觉语言模型(VLM)的物理3D生成框架,并提出新型3D表示方法,将几何分词数量减少193倍,使显式几何学习成为可能且无需特殊分词。此外,构建了PhysX-Mobility数据集,将物理3D资产类别扩

文章图片
#3d
【3d 场景生成】LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive

本文提出LatticeWorld框架,一种基于多模态大语言模型(LLM)的交互式三维世界生成方法。该框架将轻量级LLaMA-2-7B模型与虚幻引擎5结合,支持文本和视觉指令输入,自动生成包含动态智能体的高保真虚拟环境。相比传统手动建模,LatticeWorld提升生产效率90倍以上,同时保持高质量物理仿真和实时渲染能力。实验表明,该方法在场景布局精度和视觉保真度上均优于现有技术,为AI训练和内容创

文章图片
#3d#虚幻#游戏引擎
【世界模型】HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds

HunyuanWorld 1.0提出了一种融合2D与3D生成优势的创新框架,能够从文本或图像输入创建沉浸式、可交互的3D世界。该方法通过全景图作为世界代理实现360°场景覆盖,采用语义分层网格表示支持高效渲染与对象级交互,并兼容现有图形学流水线。实验表明,该方法在生成质量、3D一致性和交互性方面达到SOTA水平,适用于VR、游戏开发等应用场景。项目代码和演示已开源。

文章图片
#多模态#AIGC
【3D 场景生成】NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes

本文针对广阔户外场景生成任务展开研究,生成对象涵盖城堡、高层建筑等多种户外场景。过往研究主要聚焦于室内场景生成,而户外场景生成存在诸多独有难题:场景高度差异极大,同时需要能够快速构建大规模地貌的生成方案。为解决上述问题,本文提出一种高效方法,将场景分块编码为统一向量集形式。相较于现有方法采用的空间结构化隐特征,该方案具备更优的压缩能力与运行性能。此外,本文训练了专用的显式外补绘制模型以实现无边界场

文章图片
#3d
【3D 场景生成】WorldGen: From Text to Traversable and Interactive 3D Worlds

WorldGen提出了一种从文本生成可漫游、可交互三维场景的完整框架。该方法融合语言驱动的程序化生成器与图像生成器,先构建场景基础布局和导航网格,再通过整体三维重建和组合式优化,生成高分辨率、模块化的三维网格模型。实验表明,WorldGen能生成结构合理、细节丰富的大型场景,支持角色漫游和交互,可直接应用于游戏开发。相比现有技术,WorldGen在场景规模、功能性和视觉效果上均有显著提升。

文章图片
#3d
【4D 场景生成】DIFF4SPLAT: Repurposing Video Diffusion Models for Dynamic Scene Generation

本文提出DIFF4SPLAT,一款基于前向推理的框架,可由单张图像生成动态场景。该方法结合了视频扩散模型强大的生成先验,以及从大规模4D数据集中学习得到的几何约束与运动约束。输入单张图像、相机轨迹以及可选的文本提示词后,本模型能够直接预测由可形变3D高斯场表征的动态场景。该方案仅通过单次前向推理即可同时还原场景外观、几何结构与运动信息,无需在测试阶段执行优化操作,也不需要额外的后处理流程。

文章图片
#3d
【视频世界模型】InSpatio-WorldFM: An Open-Source Real-Time Generative Frame Model

o$ 为相机中心,$d$ 为视线方向),并通过多层感知机(MLP)将其映射为高维特征。 2. 投影相对位置编码(PRoPE)[12]:将相机位姿编码为相对位置偏差,直接作用于自注意力计算过程。该方法能显式表达令牌间的几何关系,已被证明在三维感知任务中表现突出。 3. 简单拼接:将相机内外参展开为一维向量,与图像令牌拼接后共同输入变换器。 实验结果表明,PRoPE 在几何一致性任务中表现最优,因此被

文章图片
【3D 场景生成】MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation

多实例扩散模型MIDI:单图生成三维场景的创新方法 摘要 本文提出MIDI(多实例扩散模型),一种从单张图像生成组合式三维场景的创新方法。与现有分阶段方法不同,MIDI通过扩展预训练的单物体三维生成模型,采用多实例注意力机制同步生成多个三维实例,实现精准的空间布局和优秀的泛化能力。实验表明,MIDI在合成数据、真实场景和风格化图像上均达到最优性能。 核心创新点 多实例扩散框架:将单物体生成模型扩展

文章图片
#3d
【3D 场景生成】TIMI: Training-Free Image-to-3D Multi-Instance Generation with Spatial Fidelity

本文提出TIMI框架,一种面向空间保真度的免训练图像转多实例三维生成方法。针对现有方案需要微调预训练模型导致高计算成本且难以保证空间保真度的问题,TIMI创新性地通过实例感知分离引导(ISG)和空间稳态几何自适应更新(SGU)两个模块,在无需额外训练的条件下实现高质量多实例生成。ISG模块利用实例掩码信息对交叉注意力进行解耦,SGU模块则通过几何自适应梯度调制保持场景稳定性。实验表明,TIMI在全

文章图片
#3d
【世界模型】HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worl

腾讯混元HY-World 2.0是一款多模态三维世界模型,统一了世界生成与重建能力。它支持文本、单图、多图及视频输入,通过四阶段流程(全景图生成、轨迹规划、世界扩展、世界合成)输出高质量3D高斯泼溅场景。关键创新包括:HY-Pano 2.0全景生成、WorldNav轨迹规划、WorldStereo 2.0一致性视图生成,以及升级的WorldMirror 2.0重建模型。配套的WorldLens渲染

文章图片
#3d
    共 62 条
  • 1
  • 2
  • 3
  • 7
  • 请选择