
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
三维视觉迎来战略发展机遇,AI领域领军人物指出世界模型、空间智能与具身智能是关键方向。2025年三维视觉已深度整合Transformer架构,形成"多模感知-三维建模-四维生成-实时交互"一体化智能架构雏形。五大前沿趋势显现:1)前馈三维重建降低高质量3D内容制作门槛;2)三维生成与重建技术加速融合;3)视频生成推动世界模型与具身智能发展;4)人类行为数据成为具身智能训练核心资

三维视觉迎来战略发展机遇,AI领域领军人物指出世界模型、空间智能与具身智能是关键方向。2025年三维视觉已深度整合Transformer架构,形成"多模感知-三维建模-四维生成-实时交互"一体化智能架构雏形。五大前沿趋势显现:1)前馈三维重建降低高质量3D内容制作门槛;2)三维生成与重建技术加速融合;3)视频生成推动世界模型与具身智能发展;4)人类行为数据成为具身智能训练核心资

三维视觉迎来战略发展机遇,AI领域领军人物指出世界模型、空间智能与具身智能是关键方向。2025年三维视觉已深度整合Transformer架构,形成"多模感知-三维建模-四维生成-实时交互"一体化智能架构雏形。五大前沿趋势显现:1)前馈三维重建降低高质量3D内容制作门槛;2)三维生成与重建技术加速融合;3)视频生成推动世界模型与具身智能发展;4)人类行为数据成为具身智能训练核心资

最新视频生成模型测评

Matrix-3D提出了一种全向可探索的三维世界生成框架,通过结合条件视频生成与全景三维重建技术,实现基于单张图像或文本提示的高质量三维场景构建。该研究首先训练了轨迹引导的全景视频扩散模型,利用场景网格渲染作为生成条件;随后提出前馈式大型全景重建模型和基于优化的流水线两种方法,将全景视频转化为三维世界。为支持训练,团队构建了包含11.6万条全景视频的Matrix-Pano数据集,所有数据均带有深度

近年来,大型重建和生成模型的研究进展显著改善了场景重建和新的视图生成。然而,由于计算的限制,这些大型模型的每个推理都局限在一个小的区域内,这使得长期一致的场景生成具有挑战性。为了解决,StarGen使用了一个预训练的视频扩散模型,以自回归的方式进行远程场景生成。每个视频clip 的条件是(空间上)相邻图像和先前生成的clip 的(时间上的)重叠图像的 3D warping,通过精确的姿态控制提高远

摘要 MIT CSAIL和RunwayML团队提出生成式视图拼接(GVS)技术,解决自回归视频扩散模型在摄像机引导生成中的局限性。传统方法因无法利用未来条件导致场景与轨迹冲突,GVS通过并行采样整个序列确保生成内容与预设轨迹一致。关键技术包括:1)将扩散拼接技术从机器人规划拓展至视频生成,兼容现有视频扩散模型;2)开发Omni Guidance机制,结合历史与未来预测提升时间一致性;3)实现闭环控

DreamCatalyst: 快速高质量3D编辑框架 本文提出DreamCatalyst框架,从扩散逆过程的角度重新审视分数蒸馏采样(SDS),解决了现有3D编辑方法训练时间长、质量低的问题。通过将采样动态融入SDS框架,该方法实现了: 快速模式 - 比现有NeRF编辑方法快23倍 高质量模式 - 在速度提升8倍的同时获得更优结果 技术核心包括: 建立SDS与DDIM采样的理论联系 设计匹配扩散时

几大进展的标题来源于1.评选2024年5月-2025年4月之间,世界范围内视觉与学习领域的重要学术进展。2.责任AC提名候选进展共16个,通过组委会评议;VALSE2024-2025全体AC投票(选择6-12个进展)。截止5月18日,共收集有效选票128份,超过2/3的AC参与了投票。3.加权计算得分:若某个AC投票N个进展,则该AC为其投票的每个进展贡献1/N投票分。4.每个候选项总得分等于所有

Astra模型提出了一种通用交互式世界建模新范式,新性地将自回归长时程建模与扩散高保真合成相结合,通过噪声增强历史记忆机制和动作感知适配器,在自动驾驶、机器人操作等多样化场景中实现了高精度未来预测与动作交互。实验表明,Astra在保真度、远距离预测和动作对齐方面显著超越现有世界模型,为构建可交互、高一致性的通用视觉世界模型提供了新思路。








