logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

中科大自适应推理具身导航框架!AdaNav:基于不确定性驱动自适应推理的视觉语言导航

提出基于不确定性的自适应推理框架了AdaNav,通过引入不确定性自适应推理块(UAR Block)和启发式到强化学习(Heuristic-to-RL)的训练机制,使智能体能够在导航过程中根据需要动态地触发推理,解决了固定步长推理导致的性能次优和计算开销问题。

文章图片
#人工智能#机器人
具身导航从模仿到超越!CompassNav:从路径模仿到决策理解的导航

提出新的导航范式,从传统的路径模仿转变为决策理解,旨在培养能够真正理解导航决策的智能体,而不仅仅是模仿专家路径。

文章图片
#人工智能#机器人
人大&地平线&新国立单目具身导航新范式!MonoDream:基于全景想象的单目视觉语言导航

论文提出轻量级单目VLN框架MonoDream,通过引入统一导航表示(UNR)和潜在全景想象(LPD)任务,使单目智能体能够从有限的单目输入中内化全局场景、深度和未来信息。

文章图片
#人工智能#深度学习
无限世界中的具身导航与交互!InfiniteWorld:通用视觉语言机器人交互的统一仿真框架

论文提出了InfiniteWorld,一个基于NVIDIA Isaac Sim的统一且可扩展的模拟器,用于通用视觉-语言机器人交互。InfiniteWorld提供了丰富的3D资产构建接口,支持场景和对象资产的无限扩展,并建立了全面的机器人交互基准,以综合评估具身智能体在感知、规划、执行和交互方面的能力。

文章图片
#人工智能#深度学习#机器人
具身智能体如何规划决策!ET-Plan-Bench:面向基础模型时空认知的具身任务级规划基准

论文提出了一个新的具身任务规划基准ET-Plan-Bench,并展示了现有基础模型在具身任务规划中的挑战和潜力。通过引入空间和时间约束,显著增加了任务的难度,发现SOTA的LLMs在处理这些复杂任务时表现不佳。通过监督微调,较小的模型也可以达到与SOTA模型相当的水平。该基准为未来的具身任务规划研究提供了一个大规模、自动化、细粒度的诊断框架。

文章图片
#人工智能#深度学习
视觉语言导航入门必看

视觉语言导航(Vision-Language Navigation, VLN)是一个多学科交叉的研究领域,它涉及到自然语言处理、计算机视觉和机器人导航等多个方面。在这个领域中,研究人员致力于开发能够理解自然语言指令并在复杂环境中进行自主导航的机器人或智能体。

文章图片
#人工智能#计算机视觉#自然语言处理 +1
清华大学具身智能最新万字综述!形态、行动、感知与学习的协同效应

论文总结了具身智能的发展,特别是具身人工智能(EAI)的研究。提出了统一的具身智能框架,强调了形态学、动作、感知和学习之间的协同作用。未来的研究可以从这些组件的内在联系中受益。

文章图片
#人工智能
ICAPS-2024 | 能说会“道”的具身导航智能体!SayNav:基于大模型动态规划的未知环境导航

论文提出了SayNav,通过增量构建和扩展3D场景图,并利用LLMs生成动态且上下文适当的高层计划,实现了在大规模未知环境中的复杂导航任务。实验结果表明,SayNav在成功率上优于基于真实信息的基线方法,展示了其在未知环境中的强大导航能力。

文章图片
#人工智能#深度学习
MM-2024 | 智能体遇山开路,遇水架桥! ObVLN:突破障碍,受阻环境中的视觉语言导航

论文通过引入障碍物到VLN环境中,解决了指令与现实匹配问题。提出的R2R-UNO数据集和ObVLN方法有效地提高了智能体在障碍环境中的导航能力。研究表明,解决完美指令假设对于VLN在实际应用中的鲁棒性和适应性至关重要。

文章图片
#人工智能#深度学习
CoRL-2024 | 具身智能体无师自通!LeLaN:从无标签视频中学习语言条件下的导航策略

论文提出了 LeLaN,一种利用基础模型从无标签、无动作的第一视角数据中学习可扩展的语言条件对象导航的方法。实验结果表明,LeLaN 在复杂语言指令、动态目标物体和障碍物避让方面表现出色,且在不同机器人类型和摄像头类型下具有良好的泛化能力。

文章图片
#人工智能
    共 313 条
  • 1
  • 2
  • 3
  • 32
  • 请选择