
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
26年1月来自北大和字节Seed的论文“Rethinking Video Generation Model for the Embodied World”。视频生成模型显著推动具身智能的发展,为生成能够捕捉机器人在物理世界中的感知、推理和行动的多样化机器人数据开辟了新的可能性。然而,合成能够准确反映真实世界机器人交互的高质量视频仍然是一项挑战,而缺乏标准化的基准测试限制公平的比较和进展。为了弥补这

26年1月来自北大和字节Seed的论文“Rethinking Video Generation Model for the Embodied World”。视频生成模型显著推动具身智能的发展,为生成能够捕捉机器人在物理世界中的感知、推理和行动的多样化机器人数据开辟了新的可能性。然而,合成能够准确反映真实世界机器人交互的高质量视频仍然是一项挑战,而缺乏标准化的基准测试限制公平的比较和进展。为了弥补这

26年1月来自蚂蚁Robbyant 团队的论文“A Pragmatic VLA Foundation Model”。视觉-语言-动作(VLA)基础模型在机器人操作领域具有巨大潜力,期望其能够忠实地泛化到不同的任务和平台,同时确保成本效益(例如,适应所需的数据和GPU运行时间)。为此,本文开发LingBot-VLA模型,该模型基于来自9种常用双臂机器人配置的约20,000小时真实世界数据。通过在3个

Helix 02 将这种控制扩展到整个机器人——行走、操作和平衡作为一个连续的系统完成。Helix 02 是 Figure 迄今为止功能最强大的人形机器人:一个单一的神经网络系统即可直接通过像素控制全身,使其能够在整个房间内灵活自主地进行长时间的移动。

Helix 02 将这种控制扩展到整个机器人——行走、操作和平衡作为一个连续的系统完成。Helix 02 是 Figure 迄今为止功能最强大的人形机器人:一个单一的神经网络系统即可直接通过像素控制全身,使其能够在整个房间内灵活自主地进行长时间的移动。

26年1月来自哈工大(HIT)、中关村AI研究院(ZGCA)、华中科技大学(HUST)、香港科大(HKUST)广州分校、北航(BUAA)、华东师范(ECNU)、中科院自动化所(CASIA)和北京机智赛博(DeepCybo)的论文“TrainBrainVLA**: Unleashing the Potential of Generalist VLMs for Embodied Tasks via A

26年1月来自哈工大(HIT)、中关村AI研究院(ZGCA)、华中科技大学(HUST)、香港科大(HKUST)广州分校、北航(BUAA)、华东师范(ECNU)、中科院自动化所(CASIA)和北京机智赛博(DeepCybo)的论文“TrainBrainVLA**: Unleashing the Potential of Generalist VLMs for Embodied Tasks via A

26年1月来自DeepSeek AI的论文“DeepSeek-OCR 2: Visual Causal Flow”。DeepSeek-OCR 2,旨在研究一种改进编码器——DeepEncoder V2——的可行性。该编码器能够根据图像语义动态地重新排列视觉tokens。传统的视觉-语言模型(VLM)在输入到大语言模型(LLM)时,总是以固定的位置编码,按照僵化的光栅扫描顺序(从左上到右下)处理视觉

25年12月来自新加坡南洋理工、北邮和清华的论文“A Survey on Reinforcement Learning of Vision-Language-Action Models for Robotic Manipulation”。构建能够执行各种操作任务的通用机器人系统的愿景已通过视觉-语言-动作模型(VLA)得到显著推进。VLA利用大规模预训练,通过模仿学习获取通用的视觉运动先验知识。然

25年5月来自香港理工、哈工大、汉堡大学、深圳鹏城实验室和Agile Robots AG的论文“Don’t Let Your Robot be Harmful: Responsible Robotic Manipulation via Safety-as-Policy”。在机器人操作中,机械地执行人类指令可能导致严重的安全风险,例如中毒、火灾甚至爆炸。本文提出一种负责任的机器人操作方法,该方法要求








