logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Alpamayo-R1:连接推理和动作预测,实现长尾环境下的可泛化自动驾驶

25年11月来自 Nvidia 的论文“Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail”。通过模仿学习训练的端到端架构通过扩展模型规模和数据量推动了自动驾驶技术的发展,但在安全至关重要的长尾场景中,由于监督信息稀疏且因果理解有限,其

文章图片
#自动驾驶#人工智能#机器学习 +2
UFO: Windows操作系统交互的UI聚焦智体

24年2月微软论文“UFO: A UI-Focused Agent for Windows OS Interaction”。

文章图片
#windows#交互#ui +1
BEAVR:双手、多具身、可访问、VR 的机器人远程操作系统

25年8月来自 MIT 的论文“BEAVR: Bimanual, multi-Embodiment, Accessible, Virtual Reality Teleoperation System for Robots”。BEAVR 是一个开源的、双手操控、多具身虚拟现实 (VR) 机器人遥操作系统,旨在统一跨异构机器人平台的实时控制、数据记录和策略学习。BEAVR 使用商用 VR 硬件实现实时

文章图片
#vr#机器人#机器学习 +1
iMoWM:驯服用于机器人操作的交互多模态世界模型

25年10月来自新加坡国立和清华的论文“iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation”。学习型世界模型在机器人操作领域具有巨大的潜力,因为它们可以作为真实世界交互的模拟器。尽管基于二维视频的世界模型已取得了长足的进步,但这些方法通常缺乏几何和空间推理能力,而这对于捕捉三维世界的物理结构至关重要。

文章图片
#机器人#计算机视觉#语言模型 +2
AnySplat:基于无约束视图的前馈 3D 高斯散射

25年9月来自中科大、上海AI实验室、香港中文大学、布朗大学、上海交大和香港大学的论文“AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views”。AnySplat,是一种用于从未经标定的图像集合中合成新视角的正向馈送网络。与需要已知相机姿态和逐场景优化的传统神经渲染流程,以及在密集视角计算量下难以应对的最近正向馈送

文章图片
#3d#计算机视觉#机器学习 +1
具身智能时代基于物理模拟器的机器人导航与操控综述

25年5月来自香港城市大学、墨尔本大学和汉堡大学的论文“A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI”。导航和操控是具身智能的核心能力,然而在现实世界中训练具备这些能力的智体却面临着高昂的成本和时间复杂度。因此,模拟-到-现实的迁移已成为一种关键方法

文章图片
#机器人#人工智能#计算机视觉 +2
具身智能时代基于物理模拟器的机器人导航与操控综述

25年5月来自香港城市大学、墨尔本大学和汉堡大学的论文“A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI”。导航和操控是具身智能的核心能力,然而在现实世界中训练具备这些能力的智体却面临着高昂的成本和时间复杂度。因此,模拟-到-现实的迁移已成为一种关键方法

文章图片
#机器人#人工智能#计算机视觉 +2
具身智能时代基于物理模拟器的机器人导航与操控综述

25年5月来自香港城市大学、墨尔本大学和汉堡大学的论文“A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI”。导航和操控是具身智能的核心能力,然而在现实世界中训练具备这些能力的智体却面临着高昂的成本和时间复杂度。因此,模拟-到-现实的迁移已成为一种关键方法

文章图片
#机器人#人工智能#计算机视觉 +2
ChatBEV:一种理解 BEV 地图的可视化语言模型

25年3月来自上海交大、上海AI实验室、同济大学和MAGIC的论文“ChatBEV: A Visual Language Model that Understands BEV Maps”。交通场景理解对于智能交通系统和自动驾驶至关重要,可确保车辆安全高效地运行。虽然 VLM 的最新进展已显示出整体场景理解的前景,但 VLM 在交通场景中的应用(尤其是使用 BEV 地图)仍未得到充分探索。现有方法通

文章图片
#语言模型#人工智能#自然语言处理 +3
RobotxR1:通过闭环强化学习在大语言模型上实现具身机器人智能

25年5月来自瑞士 ETH 的论文“RobotxR1: Enabling Embodied Robotic Intelligence on Large Language Models through Closed-Loop Reinforcement Learning”。未来在现实环境中运行的机器人系统将需要机载具身智能,而无需持续的云连接,从而在功能与计算能力和内存限制之间取得平衡。这项工作提出

文章图片
#语言模型#机器人#人工智能 +2
    共 682 条
  • 1
  • 2
  • 3
  • 69
  • 请选择