logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

南科大适应、协同与规划的完美融合!P³:迈向多功能的具身智能体

论文介绍了P³框架,旨在构建能够适应动态环境、灵活使用工具并高效规划多任务的多功能具身智能体,通过实验验证了其在现实世界中的有效性和适应性。

文章图片
#人工智能
具身导航“所想即所见”!VISTA:基于生成式视觉想象的视觉语言导航

论文提出了VISTA框架,通过整合视觉想象、感知对齐和结构化推理,显著提升了视觉语言导航任务的性能,尤其在长时域和视觉模糊场景中表现出色,为智能体导航提供了更鲁棒、可解释的解决方案!

文章图片
#人工智能
港科大开放世界长时域具身导航!LOVON:足式机器人开放词汇目标导航

论文提出整合大模型、开放词汇视觉检测模型和语言到运动模型的框架LOVON,旨在解决足式机器人在开放世界环境中执行长时域任务时面临的复杂挑战,包括开放词汇对象检测和高级任务规划等!

文章图片
#机器人#人工智能
具身导航可解释记忆新范式!Embodied-RAG:具身智能体的非参数化记忆系统

论文提出了Embodied-RAG框架,能够在大规模具身体验中自动构建分层空间记忆,并在不同抽象级别的查询上进行导航和解释。Embodied-RAG在显式、隐式和全局查询上均优于现有基线方法,并且在图构建过程中表现出显著的效率优势。该研究为将大型非参数具身记忆集成到基础模型中提供了新的思路,展示了其在导航和语言生成任务中的潜力。未来的工作可以进一步扩展到动态环境和操作任务。

文章图片
#人工智能#深度学习
3D语义地图中的全局路径规划!iPPD:基于3D语义地图的指令引导路径规划视觉语言导航

引入高分辨率3D语义地图:提出使用高分辨率的3D语义地图作为环境表示,相比传统的2D地图或拓扑地图,能够保留更多环境信息,为导航提供更丰富的语义和空间上下文。提出模块化导航框架(iPPD):设计了一种模块化的导航方法,包含路径提议和路径评分两个阶段。通过指令约束的路径提议算法生成候选路径,并利用基于Transformer的评分模型选择最佳路径,有效利用全局信息,避免了局部决策的误差累积。

文章图片
#人工智能#深度学习
上科大解锁城市建模新视角!AerialGo:从航拍视角到地面漫步的3D城市重建

论文提出了AerialGo框架,通过从航拍图像生成逼真的地面视角图像,解决了大规模城市建模中地面数据有限和隐私问题的挑战,并通过AerialGo数据集和广泛的实验验证了其在城市级3D重建中的有效性和优越性!

文章图片
#人工智能#3d
开放世界中的持续学习!EvoAgent:世界模型驱动的面向长期任务的自主进化智能体

EvoAgent是一个自主进化的智能体框架,旨在通过自我规划、自我控制和自我反思来自动完成各种长视距(LH)任务。EvoAgent包含三个主要模块:记忆驱动的规划器、世界模型(WM)引导的动作控制器和经验启发的反思模块。此外,EvoAgent还包括一个多模态经验池和一个持续世界模型。论文提出了EvoAgent,具有持续世界模型的自主进化智能体,能够通过自我规划、自我控制和自我反思自主完成长时任务。

文章图片
#人工智能#机器人#深度学习
阿德莱德多模态大模型导航能力挑战赛!NavBench:多模态大语言模型在具身导航中的能力探索

论文介绍了用于评估多模态大模型在零样本设置下具身导航能力的基准测试 NavBench,通过导航理解与执行任务,揭示了模型在时间推理和行动基础方面的局限性,并展示了轻量级开源模型在简单导航场景中的潜力。

文章图片
#语言模型#人工智能#自然语言处理
arXiv-2024 | 具身模型继续瘦身!MiniVLN:基于渐进知识蒸馏的高效视觉语言导航

论文提出了一种两阶段知识蒸馏框架,通过在预训练阶段学习细粒度知识,在微调阶段学习直接影响导航决策的知识,实现了高性能和低复杂度的VLN模型。实验结果表明,两阶段蒸馏方法比单阶段方法更能缩小教师模型和学生模型之间的性能差距。该方法将模型大小减少到原始模型的12%,为在移动和边缘设备上部署具身VLN场景提供了一个高性能、低复杂度的解决方案。

文章图片
#人工智能#深度学习
国防科大&清华城市空间无人机导航推理!GeoNav:赋予多模态大模型地理空间推理能力,实现语言指令导向的空中目标导航

GeoNav 通过模拟人类处理复杂规划问题的从粗到细的思维方式,为语言目标空中导航任务提供了一个有效的解决方案。

文章图片
#无人机#人工智能
    共 134 条
  • 1
  • 2
  • 3
  • 14
  • 请选择