
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
做的事情和大致的思路其实和以前的RT-1, VIMA等模型没啥区别,本质上就是一种将预训练的 PaLM-E 等预训练的 VLM 大模型如何加进这些模型中,不过从VLM finetune、action token对齐text token是比较新的点限制:• RT-2可以执行更加复杂的指令,这是因为从自然语言到动作能更容易被理解;但是不能泛化到新的行为上,因为网络上获取的数据只能帮助模型学会更多的视觉

提出了GenSim,一个可扩展的LLM框架,以增强机器人策略的各种仿真任务,其目的是将LLM的基础和编码能力提炼到低级策略中。我们研究了目标导向和探索性方法中的LLM提示、检索增强生成和微调,以生成新的仿真任务代码。我们利用生成的任务来训练多任务策略,这些策略显示了对模拟和现实世界中的新任务的泛化能力。局限性:生成的代码仍然包含基本的语法错误,并且存在幻觉,并且缺乏物理和几何细节的基础。另一个问题

一个理解深度网络的新框架:压缩闭环转录。这个框架包含两个原理:简约性(parsimony)与自洽性/自一致性(self-consistency),分别对应 AI 模型学习过程中的“学习什么”与“如何学习”,被认为是构成人工/自然智能的两大基础。......
在获得场景描述和选定的视觉资产后,系统首先生成任务定义,如图2的第二项所示。我们提供场景信息、图像和资产描述,以生成符合上下文的机器人任务。为适应多种潜在任务,我们允许任务使用观测到的部分资产。我们专注于生成对机器人系统既实用又具有挑战性的任务,这些任务通常涉及特定方式操作场景中的目标,例如堆叠特定物品或按类别分组目标。例如,系统可能生成如下任务:“将所有红色方块堆叠在蓝色圆柱上”或“按大小顺序从

此外,对于来自网络的新颖物体,我们首先使用 Wonder3D 获得几何一致的法向量和纹理网格,然后利用 GaussianEditor 中基于扩散模型的方法,在 3DGS 中完成物体重建。然而,它缺乏对新场景、视图和物体的演示综合,以及模型学习数据的验证。为实现坐标对齐,我们在 3DGS场景和 Isaac Sim 场景中同时在基座关节上方 1.6 米处放置向下的摄像机,通过比较从 BEV 视图渲染的

从图灵定义看,知识由感知、智能体环境交互获得,具身智能要拥有足够的知识完成机器人任务。从字面上理解就是具有身体的智能,可以从交互中学习并有可能涌现新能力。近期的具身智能更多和大模型和端到端有关,是通过学习的方式涌现的智能。

该论文提出了一个开源的通用机器人操作策略Octo,论文实验主要评估Octo在零样本多机器人控制和few-shot策略微调中的性能,以及不同设计决策的影响。Octo是一个基于大型transformer的策略预训练,它是迄今为止最大的机器人操作数据集,包含800k个机器人轨迹。Octo可以解决各种开箱即用的任务,Octo的组合设计能够调整新的输入和动作空间,使Octo成为广泛的机器人控制问题的通用初始

上海交通大学计算机科学与工程系特别研究员,曾任上海期智研究院PI。入选2016年度海外高层次青年引进人才,2018年被《麻省理工科技评论》评选为中国35位35岁以下科技精英(MIT TR35),荣获2019年度“求是杰出青年学者奖”, 2020年获上海市科技进步特等奖(排名第三)。担任《Science》,《Nature Machine Intelligence》审稿人,曾担任CVM 2018程序主

这篇文章引入了 RoboTwin,它是一个整合了现实世界和合成数据的基准,用于评估双臂机器人,解决了机器人领域专业训练数据严重短缺的问题。数据集是使用 AgileX Robotics 平台开发的,并通过由 Deemos’s Rodin 平台提供支持的生成式数字孪生进行了增强。文章建立了一个便捷的从现实到模拟的管道,只需一张现实世界的 RGB 图像就能生成目标物体和相应场景的 3D 模型。该数据集有

生成运动模型的最新进展取得了显著成果,使得从文本描述中合成逼真的人体运动成为可能。这些运动学方法虽然在视觉上很有吸引力,但通常会产生不符合物理约束的运动,从而产生阻碍现实世界部署的伪影。为了解决这个问题,我们引入了一种新方法,将运动学生成模型与基于物理的角色控制相结合。我们的方法首先训练一个奖励代理来预测下游不可微分控制任务的性能,提供一个高效且可微分的损失函数。然后,该奖励模型用于微调基线生成模
