logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

北大“知错就改”具身导航智能体!CorrectNav:自我修正飞轮赋能视觉语言行动导航模型

论文提出视觉语言导航模型CorrectNav,通过“自我修正飞轮”后训练范式,显著提升了模型在模拟和真实环境中的导航性能,尤其在错误纠正、动态避障和长指令执行方面表现出色,为视觉语言导航领域带来了新的突破!

文章图片
#人工智能#机器人
清华世界模型与具身智能融合全面综述!具身智能:从LLMs到世界模型

论文探讨了具身AI从LLMs到WMs的发展,分析了二者在具身AI中的作用,提出了联合MLLMs与WMs的架构,强调其对复杂任务的重要性,总结了具身AI的应用,并展望了未来研究方向,推动具身AI向通用物理智能发展!

文章图片
#人工智能#机器人
上交零样本具身导航最新进展!DyNaVLM:基于动态视角与自精炼图记忆的零样本视觉语言导航

DyNaVLM 通过动态编码拓扑空间关系,使智能体能够在没有固定动作空间或特定任务训练的情况下灵活导航!

文章图片
#人工智能#深度学习
长期记忆在导航与操作任务中的评估!FindingDory:具身智能体记忆能力评估基准测试

FINDINGDORY用于评估具身智能体在长期任务中的记忆能力,通过构造需要回忆过去交互经验的多样化任务,揭示了现有视觉语言模型(VLM)在处理长时序记忆和复杂推理时的局限性!

文章图片
#人工智能#机器人#深度学习
AAAI-2025 | 西交模拟人类空间推理策略的具身导航!REGNav:房间专家引导的图像目标导航

EGNav通过模仿人类的空间关系推理策略,利用预训练的房间专家模型,有效解决了智能体在图像目标导航任务中的无效动作问题!

文章图片
#人工智能#深度学习#机器人
无限世界中的具身导航与交互!InfiniteWorld:通用视觉语言机器人交互的统一仿真框架

论文提出了InfiniteWorld,一个基于NVIDIA Isaac Sim的统一且可扩展的模拟器,用于通用视觉-语言机器人交互。InfiniteWorld提供了丰富的3D资产构建接口,支持场景和对象资产的无限扩展,并建立了全面的机器人交互基准,以综合评估具身智能体在感知、规划、执行和交互方面的能力。

文章图片
#人工智能#深度学习#机器人
港中文迈向安全的具身AI!EARBench:基础模型在具身AI任务规划中的物理风险评估

论文通过EARBench框架和EARDataset,首次系统地评估了EAI智能体在物理环境中的任务规划能力和风险意识。结果表明,当前基础模型在复杂场景下的风险识别能力不足,且简单的模型规模扩大并不能显著改善风险意识。提出的两种风险缓解策略在一定程度上提高了模型的安全性,但仍需进一步研究和开发更有效的安全增强方法。研究强调了在EAI发展中优先考虑安全性的重要性,并为未来的研究方向提供了有价值的见解。

文章图片
#人工智能#深度学习
南科大一个数据集摆平具身任务!ARIO:用于多功能、通用具身智能体的标准统一数据集

论文提出的ARIO标准和新数据集显著改善了具身AI数据集的不足,提供了更丰富、更多样化和更大规模的数据。通过提供统一的数据格式和标准化的数据处理流程,ARIO为开发更强大、更通用的具身AI智能体铺平了道路。

文章图片
#人工智能#深度学习
具身导航赋能智能制造!大模型驱动的人机协作视觉语言导航

论文提出了基于LLM的视觉和语言协作机器人导航框架,用于智能制造中的工具取回。通过重建和注释真实的三维协作机器人场景,利用LLM理解人类自然语言指令,并生成Python代码进行路径规划,最终在仿真环境中验证了该框架的有效性。该方法不仅提高了操作员的作业效率和安全性,还推动了智能制造中人机协作的发展。未来的工作将探索自动场景分割算法,以提高系统的定量评估指标。

文章图片
#人工智能#深度学习#机器人
上交&中山导航智能体的自我进化!EvolveNav:大模型驱动的自改进式具身推理与导航

EvolveNav通过引入形式化CoT监督微调和自反思后训练,有效提升了LLM在VLN任务中的推理能力和决策准确性!

文章图片
#人工智能#深度学习#机器人
    共 230 条
  • 1
  • 2
  • 3
  • 23
  • 请选择