logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DreamVLA:一个拥有全面世界知识的视觉-语言-行动模型

25年7月来自上海交大、澳大利亚技术工程院、清华大学、Galbot、北大、UIUC 和中科大的论文“DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge”。视觉-语言-动作 (VLA) 模型的最新进展已展现出将图像生成与动作预测相结合,从而提升机器人操控泛化能力和推理能力的潜力。然而,

文章图片
#机器人#人工智能#计算机视觉 +2
DayDreamer:物理机器人学习的世界模型

22年6月来自伯克利分校的论文“DayDreamer: World Models for Physical Robot Learning”。

文章图片
#机器人#人工智能#深度学习 +1
RoboDreamer:学习机器人想象力的组合世界模型

24年4月来自香港科技大学、MIT、UCSD、谷歌、麻省大学和MIT-IBM实验室的论文“RoboDreamer: Learning Compositional World Models for Robot Imagination”。

文章图片
#机器人#人工智能#机器学习 +2
Dreamer:机器人域的世界模型

Dreamer是加拿大多伦多大学和谷歌的工作,有三个版本。

文章图片
#机器人#人工智能#机器学习
NORA:一个用于具身任务的小型开源通才视觉-语言-动作模型

25年4月来自新加坡技术和设计大学的论文“NORA: a Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks”。现有的视觉-语言-动作 (VLA) 模型在零样本场景中展现出优异的性能,展现出令人印象深刻的任务执行和推理能力。然而,视觉编码的局限性也带来巨大的挑战,这可能导致诸如物体抓取等任务的执

文章图片
#人工智能#机器学习#深度学习 +3
大模型时代下的多模态空间推理:综述与基准(上)

25年10月来自香港科技大学(广州)、南方科技大学、上海交大和其他学校的论文“Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks”。人类拥有空间推理能力,能够通过视觉和听觉等多模态信息理解空间。大型多模态推理模型通过学习感知和推理来扩展这些能力,并在各种空间任务中展现出良好的性能。然而,针对这些模

文章图片
#计算机视觉#语言模型#机器学习 +1
大模型时代下的多模态空间推理:综述与基准(下)

25年10月来自香港科技大学(广州)、南方科技大学、上海交大和其他学校的论文“Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks”。人类拥有空间推理能力,能够通过视觉和听觉等多模态信息理解空间。大型多模态推理模型通过学习感知和推理来扩展这些能力,并在各种空间任务中展现出良好的性能。然而,针对这些模

文章图片
#计算机视觉#机器学习#语言模型 +1
大模型时代下的多模态空间推理:综述与基准(上)

25年10月来自香港科技大学(广州)、南方科技大学、上海交大和其他学校的论文“Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks”。人类拥有空间推理能力,能够通过视觉和听觉等多模态信息理解空间。大型多模态推理模型通过学习感知和推理来扩展这些能力,并在各种空间任务中展现出良好的性能。然而,针对这些模

文章图片
#计算机视觉#语言模型#机器学习 +1
大模型时代下的多模态空间推理:综述与基准(下)

25年10月来自香港科技大学(广州)、南方科技大学、上海交大和其他学校的论文“Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks”。人类拥有空间推理能力,能够通过视觉和听觉等多模态信息理解空间。大型多模态推理模型通过学习感知和推理来扩展这些能力,并在各种空间任务中展现出良好的性能。然而,针对这些模

文章图片
#计算机视觉#机器学习#语言模型 +1
大模型时代下的多模态空间推理:综述与基准(上)

25年10月来自香港科技大学(广州)、南方科技大学、上海交大和其他学校的论文“Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks”。人类拥有空间推理能力,能够通过视觉和听觉等多模态信息理解空间。大型多模态推理模型通过学习感知和推理来扩展这些能力,并在各种空间任务中展现出良好的性能。然而,针对这些模

文章图片
#计算机视觉#语言模型#机器学习 +1
    共 502 条
  • 1
  • 2
  • 3
  • 51
  • 请选择