
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
25年7月来自上海交大、澳大利亚技术工程院、清华大学、Galbot、北大、UIUC 和中科大的论文“DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge”。视觉-语言-动作 (VLA) 模型的最新进展已展现出将图像生成与动作预测相结合,从而提升机器人操控泛化能力和推理能力的潜力。然而,

22年6月来自伯克利分校的论文“DayDreamer: World Models for Physical Robot Learning”。

24年4月来自香港科技大学、MIT、UCSD、谷歌、麻省大学和MIT-IBM实验室的论文“RoboDreamer: Learning Compositional World Models for Robot Imagination”。

Dreamer是加拿大多伦多大学和谷歌的工作,有三个版本。

25年4月来自新加坡技术和设计大学的论文“NORA: a Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks”。现有的视觉-语言-动作 (VLA) 模型在零样本场景中展现出优异的性能,展现出令人印象深刻的任务执行和推理能力。然而,视觉编码的局限性也带来巨大的挑战,这可能导致诸如物体抓取等任务的执

25年10月来自香港科技大学(广州)、南方科技大学、上海交大和其他学校的论文“Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks”。人类拥有空间推理能力,能够通过视觉和听觉等多模态信息理解空间。大型多模态推理模型通过学习感知和推理来扩展这些能力,并在各种空间任务中展现出良好的性能。然而,针对这些模

25年10月来自香港科技大学(广州)、南方科技大学、上海交大和其他学校的论文“Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks”。人类拥有空间推理能力,能够通过视觉和听觉等多模态信息理解空间。大型多模态推理模型通过学习感知和推理来扩展这些能力,并在各种空间任务中展现出良好的性能。然而,针对这些模

25年10月来自香港科技大学(广州)、南方科技大学、上海交大和其他学校的论文“Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks”。人类拥有空间推理能力,能够通过视觉和听觉等多模态信息理解空间。大型多模态推理模型通过学习感知和推理来扩展这些能力,并在各种空间任务中展现出良好的性能。然而,针对这些模

25年10月来自香港科技大学(广州)、南方科技大学、上海交大和其他学校的论文“Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks”。人类拥有空间推理能力,能够通过视觉和听觉等多模态信息理解空间。大型多模态推理模型通过学习感知和推理来扩展这些能力,并在各种空间任务中展现出良好的性能。然而,针对这些模

25年10月来自香港科技大学(广州)、南方科技大学、上海交大和其他学校的论文“Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks”。人类拥有空间推理能力,能够通过视觉和听觉等多模态信息理解空间。大型多模态推理模型通过学习感知和推理来扩展这些能力,并在各种空间任务中展现出良好的性能。然而,针对这些模








