
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
26年4月来自上海交大、南京大学和中国军事科学研究院国防创新研究所的论文“JailWAM: Jailbreaking World Action Models in Robot Control”。世界动作模型(WAM)能够联合预测未来的世界状态和动作,展现出比传统模型更强大的物理操控能力。这种强大的物理交互能力是一把双刃剑:如果忽视安全性,将直接威胁人身安全、财产安全和环境安全。然而,现有研究对关键

26年4月来自上海交大、南京大学和中国军事科学研究院国防创新研究所的论文“JailWAM: Jailbreaking World Action Models in Robot Control”。世界动作模型(WAM)能够联合预测未来的世界状态和动作,展现出比传统模型更强大的物理操控能力。这种强大的物理交互能力是一把双刃剑:如果忽视安全性,将直接威胁人身安全、财产安全和环境安全。然而,现有研究对关键

26年4月来自上海交大、南京大学和中国军事科学研究院国防创新研究所的论文“JailWAM: Jailbreaking World Action Models in Robot Control”。世界动作模型(WAM)能够联合预测未来的世界状态和动作,展现出比传统模型更强大的物理操控能力。这种强大的物理交互能力是一把双刃剑:如果忽视安全性,将直接威胁人身安全、财产安全和环境安全。然而,现有研究对关键

26年4月来自清华大学的论文“Veo-Act: How Far Can Frontier Video Models Advance Generalizable Robot Manipulation?”。视频生成模型发展迅速,并开始展现出对物理动力学的深刻理解。本文研究诸如 Veo-3 (来自谷歌Deep mind)之类的视频生成模型在多大程度上能够支持可泛化的机器人操作。首先研究一种零样本方法,其

26年4月来自清华大学的论文“Veo-Act: How Far Can Frontier Video Models Advance Generalizable Robot Manipulation?”。视频生成模型发展迅速,并开始展现出对物理动力学的深刻理解。本文研究诸如 Veo-3 (来自谷歌Deep mind)之类的视频生成模型在多大程度上能够支持可泛化的机器人操作。首先研究一种零样本方法,其

26年4月来自中山大学、阿联酋MBZUAI和Spatialtemporal AI公司的论文“A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model”。视觉-语言-动作(VLA)模型已成为开放世界机器人操作的强大范式,但其实际部署往往受到成本限制:数十亿级的V

26年4月来自中山大学、阿联酋MBZUAI和Spatialtemporal AI公司的论文“A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model”。视觉-语言-动作(VLA)模型已成为开放世界机器人操作的强大范式,但其实际部署往往受到成本限制:数十亿级的V

26年4月来自北京人形机器人创新中心、西交大、南开和北大的论文“HEX: Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation”。人类通过协调的全身控制实现复杂的操作,而大多数视觉-语言-动作(VLA)模型则将机器人身体各部分视为相对独立的,这使得高自由度人形机器人的控制极具挑战性且往往不稳定。HEX,一个以状态

26年4月来自北京人形机器人创新中心、西交大、南开和北大的论文“HEX: Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation”。人类通过协调的全身控制实现复杂的操作,而大多数视觉-语言-动作(VLA)模型则将机器人身体各部分视为相对独立的,这使得高自由度人形机器人的控制极具挑战性且往往不稳定。HEX,一个以状态

26年3月来自新加坡南阳理工、哈弗大学和小米电动汽车的论文“AutoMoT: A Unified Vision-Language-Action Model with Asynchronous Mixture-of-Transformers for End-to-End Autonomous Driving”。将视觉语言模型(VLM)集成到端到端(E2E)自动驾驶(AD)系统中,在提升场景理解能力方








