
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Matrix-Game 2.0是一个开源的实时流式交互世界模型,通过少步自回归扩散实现分钟级高质量视频生成。针对现有交互世界模型实时性差的问题,该框架提出三大创新:(1)基于虚幻引擎和GTA5的可扩展数据生成管道,支持1200小时带精确交互标注的视频采集;(2)动作注入模块,将键盘鼠标输入作为帧级条件;(3)基于因果架构的少步蒸馏方法,实现25FPS的实时生成。实验表明,该系统能在多种场景下保持长

HunyuanWorld 1.0提出了一种融合2D与3D生成优势的创新框架,能够从文本或图像输入创建沉浸式、可交互的3D世界。该方法通过全景图作为世界代理实现360°场景覆盖,采用语义分层网格表示支持高效渲染与对象级交互,并兼容现有图形学流水线。实验表明,该方法在生成质量、3D一致性和交互性方面达到SOTA水平,适用于VR、游戏开发等应用场景。项目代码和演示已开源。

Meta提出V-JEPA 2自监督视频模型,通过100万小时互联网视频预训练实现世界理解与预测。该模型在动作分类(Something-Something v2达77.3%准确率)和动作预测(Epic-Kitchens-100召回率@5达39.7%)任务中表现优异。结合语言模型后,在视频问答任务中达到SOTA(如PerceptionTest 84.0分)。更重要的是,仅用62小时机器人数据微调后,V

本文提出INSPATIO-WORLD,一种基于时空自回归建模的实时四维世界模拟器。该框架通过隐式时空缓存和显式空间约束两大核心组件,实现了单目视频到交互式场景的高效转换。创新性地采用联合分布匹配蒸馏(JDMD)方法,结合真实世界数据分布正则化,有效解决了合成数据导致的视觉保真度下降问题。实验表明,该系统在WorldScore-Dynamic基准测试中性能领先,支持24帧/秒的实时交互,为虚拟漫游、

本文提出INSPATIO-WORLD,一种基于时空自回归建模的实时四维世界模拟器。该框架通过隐式时空缓存和显式空间约束两大核心组件,实现了单目视频到交互式场景的高效转换。创新性地采用联合分布匹配蒸馏(JDMD)方法,结合真实世界数据分布正则化,有效解决了合成数据导致的视觉保真度下降问题。实验表明,该系统在WorldScore-Dynamic基准测试中性能领先,支持24帧/秒的实时交互,为虚拟漫游、

FlashWorld:一种高效高质量的三维场景生成方法 摘要: 本文提出FlashWorld,一种创新的三维场景生成框架,能够在数秒内从单张图像或文本提示生成高质量三维场景,速度比现有方法快10-100倍。该方法突破传统"面向多视图"范式的局限性,转向"面向三维"的生成范式,直接输出三维高斯表示。为解决三维模式下的视觉质量问题,FlashWorld采用双阶段

本文提出了OpenWorldLib,一个面向高级世界模型的标准化推理框架。首先明确了世界模型的定义:以感知为核心,具备交互与长期记忆能力,用于理解和预测复杂世界的模型或框架。在此基础上,系统梳理了世界模型的核心能力维度,包括交互式视频生成、多模态推理和视觉-语言-动作等任务。同时指出文本生成视频等任务不属于世界模型范畴。OpenWorldLib框架通过算子模块、统一推理接口和记忆系统,将不同任务模

本文提出一套全面框架,为世界模型确立全新开源前沿,有效弥合视频生成与可执行模拟之间的差距。本文贡献覆盖全流程:首先构建具备可扩展自动化采集系统的稳健数据引擎,保障高质量多样化训练数据;建模层面,研发针对精准动作控制优化的因果Transformer架构,并采用实时蒸馏实现高效推理;这些技术突破最终落地于多元应用,验证模型在执行智能体动作、一致性世界编辑与三维环境重建方面的能力。

本文提出EarthCrafter框架,通过数据与模型创新实现可扩展的三维地球生成。首先构建了Aerial-Earth3D数据集,包含5万条精选场景,覆盖美国本土多样地形,提供多视角图像、深度图等丰富标注。在此基础上提出双稀疏潜在扩散框架:1)采用双稀疏3D-VAE分别压缩几何体素与纹理化2D高斯溅射,显著降低计算负担;2)设计条件感知流匹配模型,可灵活支持语义、图像或无输入条件下的生成。实验表明该

本文提出CityDreamer4D模型,首次实现无边界四维城市生成。该模型创新性地将动态物体(车辆)与静态场景(建筑、道路)分离处理,通过交通场景生成器和无界布局生成器分别生成动态交通场景和静态城市布局。模型采用组合式设计,包含建筑实例生成器、车辆实例生成器和城市背景生成器三个独立模块,分别针对不同城市元素的特点采用定制化的神经场表示方法。实验验证,CityDreamer4D在生成真实感四维城市方








