logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

国防科大&清华城市空间无人机导航推理!GeoNav:赋予多模态大模型地理空间推理能力,实现语言指令导向的空中目标导航

GeoNav 通过模拟人类处理复杂规划问题的从粗到细的思维方式,为语言目标空中导航任务提供了一个有效的解决方案。

文章图片
#无人机#人工智能
南京大学具身机器人万字长文全面综述!从物理模拟器和世界模型中学习具身智能

本文综述了通过物理模拟器和世界模型学习具身智能的最新进展,提出了智能机器人的五级分级标准,并分析了物理模拟器与世界模型在提升机器人自主性、适应性和泛化能力中的作用!

文章图片
#人工智能#深度学习#机器人
中国电信&清华:大模型驱动的具身智能发展与挑战综述

论文系统地调研了大模型驱动的具身智能领域,从环境感知、任务规划、基础策略、奖励函数和数据生成五个方面分析了大模型如何赋能具身智能!

文章图片
#人工智能#机器人
清华世界模型与具身智能融合全面综述!具身智能:从LLMs到世界模型

论文探讨了具身AI从LLMs到WMs的发展,分析了二者在具身AI中的作用,提出了联合MLLMs与WMs的架构,强调其对复杂任务的重要性,总结了具身AI的应用,并展望了未来研究方向,推动具身AI向通用物理智能发展!

文章图片
#人工智能#机器人
北大AGI与具身智能评估新范式!Tong测试:基于动态具身物理和社会互动的评估标准

论文提出了一种基于DEPSI环境的AGI评估方法—Tong测试,解决了传统AI评估方法的局限性。通过无限任务生成、价值和能力导向的评估,Tong测试能够全面评估AGI的能力和价值。该方法为AGI的开发和标准化提供了一个实用路径,推动了AGI领域的发展。

文章图片
#人工智能#深度学习
清华大学城市空间具身连续视觉感知问答基准测试!UrbanVideo-Bench:首个针对多模态大模型的运动认知评估数据集

论文提出了UrbanVideo-Bench,首个针对城市开放空间中运动具身认知的基准测试。实验结果表明,当前最好的Video-LLMs在城市开放空间中的具身认知能力仍有很大提升空间。分析发现,因果推理与其他任务高度相关,微调大模型可以提高其在真实世界具身视频任务上的性能。

文章图片
#人工智能#深度学习
同济大学多模态感知具身导航全面综述

论文将目标导向导航方法按照推理域进行分类,涵盖了多种任务范式。这种分类方法揭示了不同任务之间的共性和差异,为理解导航方法提供了统一的框架!

文章图片
#人工智能#深度学习
地平线机器人具身导航快慢推理新探索!FSR-VLN:基于分层多模态场景图快慢推理的视觉语言导航

论文提出视觉语言导航系统FSR-VLN,通过结合分层多模态场景图(HMSG)和快慢速推理(FSR)机制,在真实世界的长距离导航任务中实现了高成功率和低响应时间,显著优于现有方法,并展示了其在人形机器人上的应用潜力!

文章图片
#机器人#人工智能
RSS-2024 | 具身智能体也爱看片!NaVid:视觉语言导航智能体通过视频学习导航动作规划

这篇论文提出的NaVid模型在视觉语言导航任务中实现了SOTA性能,特别是在没有地图、里程计或深度输入的情况下。通过大规模预训练和混合训练策略,NaVid展示了其在模拟环境和真实世界中的强大泛化能力。未来的工作将进一步探索NaVid在其他具身AI任务中的应用,并提高其效率和速度。

文章图片
#人工智能
湖南大学3D场景问答最新综述!3D-SQA:3D场景问答助力具身智能场景理解

首篇对3D SQA领域进行系统性回顾的综述论文,涵盖了数据集、方法论和评估指标!

文章图片
#人工智能#深度学习
    共 286 条
  • 1
  • 2
  • 3
  • 29
  • 请选择