logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

南航无人机大规模户外环境视觉导航框架!SM-CERL:基于语义地图与认知逃逸强化学习的无人机户外视觉导航

本文提出的SM-CERL框架通过构建语义地图和认知逃逸机制,有效解决了无人机在大规模户外环境中视觉导航中的部分可观察性和局部最优陷阱问题,显著提升了导航性能。

文章图片
#无人机#人工智能#深度学习
香港大学强化学习驱动连续环境具身导航!VLN-R1:基于强化微调的视觉语言导航

VLN-R1通过整合LVLM和强化学习微调,为连续环境中的视觉语言导航提供了一种有效的解决方案

文章图片
#人工智能#深度学习
RAPID:基于逆强化学习的无人机视觉导航鲁棒且敏捷规划器

提出了基于逆强化学习的学习型视觉规划器RAPID,用于复杂环境中的敏捷无人机飞行,能够在毫秒级生成无碰撞的航点,无需单独的感知、建图和规划模块,可直接应用于现实场景,无需额外训练或调整。

文章图片
#无人机#人工智能
arXiv-2024 | LeCun新作!NWM:导航世界模型

本文提出的导航世界模型(NWM)通过条件扩散Transformer(CDiT)实现了在大规模数据上的高效训练,并在导航任务中表现出色。NWM不仅能够独立规划导航轨迹,还能通过与现有导航策略结合来提升性能。此外,通过在未标记数据上进行训练,NWM在未知环境中的表现也得到了显著改善。

文章图片
#人工智能
理解世界还是预测未来?清华大学世界模型全面综述

提出新的世界模型分类系统:将世界模型分为两类,一类是构建外部世界的隐含表示以理解世界运行机制,另一类是预测外部世界的未来状态以支持决策制定。

文章图片
#人工智能
中科院空天院无人机视觉语言导航新基准!AeroVerse:模拟、预训练、微调和评估空中无人机具身世界模型的测试基准

论文通过开发AeroVerse基准套件,解决了UAV具身世界模型的研究空白,提升了UAV智能体的端到端自主感知、认知和行动能力。构建了第一个大规模的真实世界图像-文本预训练数据集AerialAgent-Ego10k和虚拟图像-文本-姿态对齐数据集CyberAgent-Ego500k。首次明确了五个航天具身下游任务,并构建了相应的指令数据集。开发了基于GPT-4的自动化评估方法SkyAgent-Ev

文章图片
#人工智能#深度学习#无人机
开放世界中的持续学习!EvoAgent:世界模型驱动的面向长期任务的自主进化智能体

EvoAgent是一个自主进化的智能体框架,旨在通过自我规划、自我控制和自我反思来自动完成各种长视距(LH)任务。EvoAgent包含三个主要模块:记忆驱动的规划器、世界模型(WM)引导的动作控制器和经验启发的反思模块。此外,EvoAgent还包括一个多模态经验池和一个持续世界模型。论文提出了EvoAgent,具有持续世界模型的自主进化智能体,能够通过自我规划、自我控制和自我反思自主完成长时任务。

文章图片
#人工智能#机器人#深度学习
康奈尔大学视觉-语言-动作模型全面综述:概念、进展、应用与挑战

VLA模型通过整合视觉、语言和动作,显著提升了机器人的感知、理解和执行能力。尽管在实时性、多模态动作表示、数据集偏差和系统集成等方面仍面临挑战,但通过数据高效学习、参数高效方法和加速技术,VLA模型的可扩展性和实时性得到了显著提升。

文章图片
#人工智能#机器人
自动化所零样本导航新范式!WMNav:融合VLM和世界模型的室内目标导航

WMNav通过在世界模型框架中利用VLMs,提出了一种新的目标导航方向,显著提高了零样本目标导航的性能。在线好奇心图的引入减少了来回冗余移动,子任务分解模块为策略模块提供了更密集的反馈,两阶段动作提议器策略使导航更有目的性和高效。WMNav展示了在未知环境中进行目标导航的新优化方向,为具身机器人与环境互动开辟了新途径。

文章图片
#自动化#运维
国防科大&清华城市空间无人机导航推理!GeoNav:赋予多模态大模型地理空间推理能力,实现语言指令导向的空中目标导航

GeoNav 通过模拟人类处理复杂规划问题的从粗到细的思维方式,为语言目标空中导航任务提供了一个有效的解决方案。

文章图片
#无人机#人工智能
    共 295 条
  • 1
  • 2
  • 3
  • 30
  • 请选择