
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文提出Captain Safari——一种基于位姿条件的三维世界引擎,通过持久化记忆机制实现长距离视频生成。针对现有系统在复杂摄像机运动和户外场景中表现不佳的问题,该方法创新性地采用动态局部记忆窗口与位姿对齐检索策略:仅筛选关键场景特征构建紧凑世界表示,在保证计算效率的同时维持三维一致性。研究团队还发布了OpenSafari数据集,包含高动态无人机拍摄的复杂户外场景视频及验证轨迹。实验表明,该模

本文提出Captain Safari——一种基于位姿条件的三维世界引擎,通过持久化记忆机制实现长距离视频生成。针对现有系统在复杂摄像机运动和户外场景中表现不佳的问题,该方法创新性地采用动态局部记忆窗口与位姿对齐检索策略:仅筛选关键场景特征构建紧凑世界表示,在保证计算效率的同时维持三维一致性。研究团队还发布了OpenSafari数据集,包含高动态无人机拍摄的复杂户外场景视频及验证轨迹。实验表明,该模

本文提出了一种从视频扩散模型生成的不一致多视角图像中重建高质量三维场景的方法。针对单帧图像缺乏三维一致性的问题,该方法首先利用几何基础模型获取每帧的深度和相机参数,生成初始点云;然后通过非刚性迭代帧到模型ICP算法实现帧间对齐,并结合全局优化提升点云质量;最后采用非刚性高斯泼溅优化构建标准空间重建。实验结果表明,该方法能有效解决生成漂移问题,显著提升三维重建质量,实现从视频模型到三维一致性世界生成

本文提出了一种无需训练的流式4D重建框架LASER,通过逐层尺度对齐技术解决现有方法的内存瓶颈问题。LASER将视频分割为重叠时间窗口,在每个窗口内使用冻结的离线模型进行局部重建,然后通过分层尺度对齐将局部子图合并到全局地图中。实验表明,该方法在保持14FPS实时性能的同时,显著降低了内存消耗(峰值6GB),并在相机位姿估计和点云重建任务上达到先进水平。

摘要 InSpatio-WorldFM是一款开源实时生成式帧模型,采用创新独立帧生成范式解决传统视频模型延迟问题。通过显式3D锚点与隐式空间记忆机制,模型实现了多视角空间一致性,同时保持实时推理能力。研究提出渐进式三阶段训练流程:从图像扩散模型转化为可控帧模型,经少步蒸馏最终实现实时生成。实验证明模型在消费级GPU上能保持多视角一致性的同时实现实时推理。技术核心包括多视角一致性数据清洗、三阶段训练

用于建筑物实例分割的大规模真实城市场景数据集UrbanBIS,UrbanBIS共包含6个真实场景,总面积高达10.78 km2,包含3370栋建筑,不仅提供城市场景的常见语义信息以及建筑物单体实例信息,同时提供细粒度的建筑物语义标注信息。是目前唯一一个可用于点云实例分割的大规模的3D真实城市场景数据集。

从一个真实或人工生成的单张图像中创建高保真度的3D内容。这将为艺术表达和创意开辟新的途径,例如为像Stable Diffusion这样的前沿2D生成模型创建的幻想图像带来3D效果。通过提供一种更易于访问和自动化的创建视觉上惊人的3D内容的方法,研究者希望吸引更广泛的受众加入到轻松的3D建模世界中来。本文探讨了仅使用单张图像创建高保真度3D内容的问题。这本质上是一项具有挑战性的任务,需要估计潜在的3

分享近期三维重建的最新文章。欢迎留言补充

摘要: 《DropGaussian》提出一种针对稀疏视角3D高斯溅射(3DGS)的结构正则化技术,通过随机移除部分高斯分布(DropGaussian)提升剩余高斯的可见性与梯度更新机会,有效缓解训练过拟合问题。该方法创新性包括:1)无需依赖外部先验,仅通过简单修改3DGS框架实现;2)自适应渐进式丢弃策略,在训练后期动态增强正则化强度。实验表明,该方法在LLFF、Mip-NeRF360和Blend

问题由于体积渲染的过程,NeRF的推理速度非常慢,这限制了在资源受限的硬件上(如移动设备)利用NeRF的应用场景。许多研究已经开展,以减少运行NeRF模型的延迟。然而,其中大多数仍需要高端GPU进行加速或额外的存储内存,这在移动设备上都不可用。方向另一个新兴方向利用神经光场(NeLF)进行加速,因为只需在射线上执行一次正向传递来预测像素颜色。然而,要达到与NeRF类似的渲染质量,NeLF中的网络设








