
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
GeoNav 通过模拟人类处理复杂规划问题的从粗到细的思维方式,为语言目标空中导航任务提供了一个有效的解决方案。

本文综述了通过物理模拟器和世界模型学习具身智能的最新进展,提出了智能机器人的五级分级标准,并分析了物理模拟器与世界模型在提升机器人自主性、适应性和泛化能力中的作用!

论文系统地调研了大模型驱动的具身智能领域,从环境感知、任务规划、基础策略、奖励函数和数据生成五个方面分析了大模型如何赋能具身智能!

论文探讨了具身AI从LLMs到WMs的发展,分析了二者在具身AI中的作用,提出了联合MLLMs与WMs的架构,强调其对复杂任务的重要性,总结了具身AI的应用,并展望了未来研究方向,推动具身AI向通用物理智能发展!

论文提出了一种基于DEPSI环境的AGI评估方法—Tong测试,解决了传统AI评估方法的局限性。通过无限任务生成、价值和能力导向的评估,Tong测试能够全面评估AGI的能力和价值。该方法为AGI的开发和标准化提供了一个实用路径,推动了AGI领域的发展。

论文提出了UrbanVideo-Bench,首个针对城市开放空间中运动具身认知的基准测试。实验结果表明,当前最好的Video-LLMs在城市开放空间中的具身认知能力仍有很大提升空间。分析发现,因果推理与其他任务高度相关,微调大模型可以提高其在真实世界具身视频任务上的性能。

论文将目标导向导航方法按照推理域进行分类,涵盖了多种任务范式。这种分类方法揭示了不同任务之间的共性和差异,为理解导航方法提供了统一的框架!

论文提出视觉语言导航系统FSR-VLN,通过结合分层多模态场景图(HMSG)和快慢速推理(FSR)机制,在真实世界的长距离导航任务中实现了高成功率和低响应时间,显著优于现有方法,并展示了其在人形机器人上的应用潜力!

这篇论文提出的NaVid模型在视觉语言导航任务中实现了SOTA性能,特别是在没有地图、里程计或深度输入的情况下。通过大规模预训练和混合训练策略,NaVid展示了其在模拟环境和真实世界中的强大泛化能力。未来的工作将进一步探索NaVid在其他具身AI任务中的应用,并提高其效率和速度。

首篇对3D SQA领域进行系统性回顾的综述论文,涵盖了数据集、方法论和评估指标!








