logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Act2Goal:从世界模型到通用的目标导向策略

25年12月来自智元研究的论文“Act2Goal: From World Model To General Goal-conditioned Policy”。以既富表现力又精确的方式描述机器人操作任务仍然是一项核心挑战。虽然视觉目标提供一种简洁明确的任务描述,但现有的目标条件策略由于依赖于单步动作预测而缺乏对任务进展的显式建模,因此在处理长时程操作时往往力不从心。本文提出 Act2Goal,一种通

文章图片
#计算机视觉#机器学习#深度学习 +1
EmbodiedOneVision:用于通用机器人控制的交错视觉-文本-动作预训练

25年8月来自上海 AI 实验室、复旦大学和西北工业大学的论文“EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control”。人类在开放世界中无缝执行多模态推理和物理交互的能力是通用具身智能系统的核心目标。近期的视觉-语言-动作 (VLA) 模型基于大规模机器人和视觉文本数据进行联合

文章图片
#机器人#人工智能#机器学习 +1
视觉-语言-动作模型的综述:从一个动作 token 化的视角(下)

25年7月来自北大和北大-灵初智能(Psibot)联合实验室的论文“A Survey on Vision-Language-Action Models: An Action Tokenization Perspective”。视觉和语言基础模型在多模态理解、推理和生成方面的显著进步,激发了人们将此类智能扩展到物理世界的日益增长的热情,从而推动了视觉-语言-动作 (VLA) 模型的蓬勃发展。尽管方法

文章图片
#人工智能#机器人#语言模型 +2
OPENHELIX:机器人操作的简短综述、实证分析和开源双-系统 VLA 模型(下)

25年5月来自西湖大学、浙大、西安交大和香港科大广州分校的论文“OPENHELIX: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation”。双-系统 VLA(视觉-语言-动作)架构已成为具身智能研究的热点,但目前尚缺乏足够的开源工作来进一步进行性能分析和

文章图片
#机器人#机器学习#计算机视觉 +2
H2R:一种用于机器人视频预训练的人机数据增强方法

25年5月来自北大和西雅图华盛顿大学的论文“H2R: A Human-to-Robot Data Augmentation for Robot Pre-training from Videos”。使用视频进行大规模预训练已被证明对机器人学习有效。然而,由于人手与不同机器人手之间存在显著的视觉差距,基于此类数据预训练的模型对于机器人学习来说可能不是最优的。为了解决这个问题, H2R,一种简单的数据增

文章图片
#机器人#音视频#人工智能 +2
机器人操控可变形体的综述:最新进展、尚未解决的挑战和新前沿

23年12月来自同济大学的论文“A Survey on Robotic Manipulation of Deformable Objects: Recent Advances, Open Challenges and New Frontiers”。机器人的可变形体操作 (DOM) 在工业、服务和医疗保健等各个领域有着广泛的应用。然而,与刚性体的操作相比,由于可变形体 (DO) 的状态空间维数无限且

文章图片
#机器人#人工智能#语言模型 +2
RoboTransfer:用于机器人视觉策略迁移的几何一致视频扩散

25年5月来自地平线机器人公司、Giga AI 和中科院自动化所的论文“RoboTransfer: Geometry-Consistent Video Diffusion for Robotic Visual Policy Transfer”。模仿学习已成为机器人操控的基本方法。然而,收集大规模的真实世界机器人演示数据成本高昂。模拟器提供了一种经济高效的替代方案,但模拟与现实之间的差距使其难以扩展

文章图片
#机器人#音视频#人工智能 +2
HE-Drive:利用视觉-语言模型实现类人端到端驾驶

24年10月来自地平线、香港大学、中科院大学和北京交大的论文“HE-Drive:Human-Like End-To-End Driving With Vision Language Models”。HE-Drive是一个以人为本的端到端自动驾驶系统,可生成时间一致且舒适的轨迹。最近的研究表明,基于模仿学习的规划器和基于学习的轨迹评分器可以有效地生成和选择与专家演示非常相似的准确轨迹。然而,这样的轨

文章图片
#语言模型#人工智能#自然语言处理 +3
DriveGen:面向无限多样化交通场景的大模型

25年3月来自上海交大和重庆长安汽车公司的论文“DriveGen: Towards Infinite Diverse Traffic Scenarios with Large Models”。微观交通模拟已成为自动驾驶训练和测试的重要工具。尽管近期数据驱动的方法推进逼真行为的生成,但它们的学习仍然主要依赖于单一的真实世界数据集,这限制其多样性,从而阻碍下游算法的优化。本文提出 DriveGen,一

文章图片
#机器学习#计算机视觉#人工智能 +3
连接语言和动作:语言调节的机器人操作的综述

24年12月来自慕尼黑工大、博世、伯克利分校、谷歌、CMU、英国UCL、USC、中山大学和密西根大学的论文“Bridging Language and Action: A Survey of Language-Conditioned Robot Manipulation”。语言调节的机器人操作是一个新兴领域,旨在通过教机器人理解和执行自然​​语言传达的指令,实现人类与机器人智体之间的无缝交流与合作

文章图片
#机器人#人工智能#语言模型 +2
    共 857 条
  • 1
  • 2
  • 3
  • 86
  • 请选择