
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文提出的SM-CERL框架通过构建语义地图和认知逃逸机制,有效解决了无人机在大规模户外环境中视觉导航中的部分可观察性和局部最优陷阱问题,显著提升了导航性能。

VLN-R1通过整合LVLM和强化学习微调,为连续环境中的视觉语言导航提供了一种有效的解决方案

提出了基于逆强化学习的学习型视觉规划器RAPID,用于复杂环境中的敏捷无人机飞行,能够在毫秒级生成无碰撞的航点,无需单独的感知、建图和规划模块,可直接应用于现实场景,无需额外训练或调整。

本文提出的导航世界模型(NWM)通过条件扩散Transformer(CDiT)实现了在大规模数据上的高效训练,并在导航任务中表现出色。NWM不仅能够独立规划导航轨迹,还能通过与现有导航策略结合来提升性能。此外,通过在未标记数据上进行训练,NWM在未知环境中的表现也得到了显著改善。

提出新的世界模型分类系统:将世界模型分为两类,一类是构建外部世界的隐含表示以理解世界运行机制,另一类是预测外部世界的未来状态以支持决策制定。

论文通过开发AeroVerse基准套件,解决了UAV具身世界模型的研究空白,提升了UAV智能体的端到端自主感知、认知和行动能力。构建了第一个大规模的真实世界图像-文本预训练数据集AerialAgent-Ego10k和虚拟图像-文本-姿态对齐数据集CyberAgent-Ego500k。首次明确了五个航天具身下游任务,并构建了相应的指令数据集。开发了基于GPT-4的自动化评估方法SkyAgent-Ev

EvoAgent是一个自主进化的智能体框架,旨在通过自我规划、自我控制和自我反思来自动完成各种长视距(LH)任务。EvoAgent包含三个主要模块:记忆驱动的规划器、世界模型(WM)引导的动作控制器和经验启发的反思模块。此外,EvoAgent还包括一个多模态经验池和一个持续世界模型。论文提出了EvoAgent,具有持续世界模型的自主进化智能体,能够通过自我规划、自我控制和自我反思自主完成长时任务。

VLA模型通过整合视觉、语言和动作,显著提升了机器人的感知、理解和执行能力。尽管在实时性、多模态动作表示、数据集偏差和系统集成等方面仍面临挑战,但通过数据高效学习、参数高效方法和加速技术,VLA模型的可扩展性和实时性得到了显著提升。

WMNav通过在世界模型框架中利用VLMs,提出了一种新的目标导航方向,显著提高了零样本目标导航的性能。在线好奇心图的引入减少了来回冗余移动,子任务分解模块为策略模块提供了更密集的反馈,两阶段动作提议器策略使导航更有目的性和高效。WMNav展示了在未知环境中进行目标导航的新优化方向,为具身机器人与环境互动开辟了新途径。

GeoNav 通过模拟人类处理复杂规划问题的从粗到细的思维方式,为语言目标空中导航任务提供了一个有效的解决方案。








