文献翻译：RT-1

注：以下内容仅供交流学习使用，不可用于商业用途，并尊重原作者的一切权益。RT-1：用于现实世界的大规模控制的机器人变压器摘要通过将知识从大型、多样化、任务无关的数据集转移出来，现代机器学习模型可以解决特定的下游任务，以零射击或小的任务特定数据集转换到高水平的性能。虽然这种能力已经在计算机视觉、自然语言处理或语音识别等其他领域得到了证明，但在机器人技术中仍有待证明，由于机器人技术收集真实世界机器人数

thewordafter

1723人浏览 · 2023-12-22 09:34:36

thewordafter · 2023-12-22 09:34:36 发布

注：以下内容仅供交流学习使用，不可用于商业用途，并尊重原作者的一切权益。

RT-1：用于现实世界的大规模控制的机器人变压器

摘要

通过将知识从大型、多样化、任务无关的数据集转移出来，现代机器学习模型可以解决特定的下游任务，以零射击或小的任务特定数据集转换到高水平的性能。虽然这种能力已经在计算机视觉、自然语言处理或语音识别等其他领域得到了证明，但在机器人技术中仍有待证明，由于机器人技术收集真实世界机器人数据的差异，模型的泛化能力尤为关键。我们认为，这种通用机器人模型成功的关键之一在于开放式的与任务无关的训练，并结合了能够吸收所有不同的机器人数据的高容量架构。在本文中，我们提出了一个模型类，称为机器人变压器，它显示了很有前途的可扩展的模型特性。我们在对不同模型类的研究中验证了我们的结论，以及它们作为数据规模、模型规模和数据多样性的概括能力，基于对执行真实世界任务的真实机器人的大规模数据集。该项目的网站和视频可以在robotics-transformer.github.io上找到。

1介绍

端到端机器人学习，无论是模仿还是强化，通常包括在单任务中收集特定任务的数据（卡拉什尼科夫等人，2018；张等人，2018）或多任务（卡拉什尼科夫等人，2021b；张等人，2021），这些设置是根据机器人应该执行的任务进行定制的。这种工作流程反映了其他领域的监督学习的经典方法，如计算机视觉和NLP，在这些领域中，特定于任务的数据集将被收集、标记和部署来解决单个任务，而任务本身之间几乎没有相互作用。近年来，视觉、自然语言处理和其他领域发生了转变，从孤岛、小规模数据集和模型，转向在广泛、大型数据集上预先训练的大型、通用模型。这种模型成功的关键在于开放式的任务不可知的训练，并结合能够吸收大规模数据集中存在的所有知识的高容量架构。如果一个模型能够“吸收”经验来学习语言或感知中的一般模式，那么它就能使它们更有效地承担个人任务。虽然在监督学习中，消除对大型任务特定数据集的需求通常很有吸引力，但在机器人技术中却更为关键，在机器人技术中，数据集可能需要高工程级的自主操作或昂贵的人工演示。因此，我们会问：我们能在由各种机器人任务组成的数据上训练一个单一的、有能力的、大型的多任务主干模型吗？这样的模型是否享受到在其他领域观察到的好处，对新任务、环境和对象表现出零镜头泛化？

在机器人技术中建立这样的模型并不容易。尽管近年来在文献中提出了一些大型多任务机器人政策（Reed等，2022；张成泽等，2021年），这样的模型通常对真实任务的广度有限，如加托（里德等，2022年），或专注于训练任务而不是推广到新任务，如最近的指令遵循方法（施里达等，2021年；2022年），或在新任务上获得相对较低的性能（Jang等，2021年）。

(

(a)RT-1拍摄图像和自然语言指令，并输出离散的基础和手臂动作。尽管它的尺寸（35M参数），但它在3 Hz，由于它高效而高容量的架构：FiLM（Perez等人，2018）条件效率网（Tan & Le，2019）、令牌学习器（Ryoo等人，2021）和变压器（Vaswani等人，2017）。

(b)RT-1的大规模、真实世界的训练（130k演示）和评估（3000个真实世界的试验）显示了令人印象深刻的泛化、鲁棒性和从不同的数据中学习的能力。

图1：对RT-1的体系结构、数据集和评估的高级概述。

)

两个主要的挑战是组装正确的数据集和设计正确的模型。虽然数据收集和管理往往是许多大型机器学习项目的“无名英雄”（雷德福等人，2021；拉梅什等人，2021年），在机器人技术中尤其如此，数据集通常是机器人特有的，手动收集（Dasari等人，2019年；Ebert等人，2021年）。正如我们将在评估中所展示的那样，良好的泛化需要结合规模和广度的数据集，覆盖各种任务和设置。与此同时，数据集中的任务应该足够良好地连接，以实现泛化，这样模型就可以发现结构相似任务之间的模式，并执行以新的方式组合这些模式的新任务。我们利用了我们在17个月的时间里收集的数据集，包括13个机器人，包含∼130k集和超过700个任务，我们在评估中消融了这个数据集的各个方面。

第二个挑战在于模型本身的设计。有效的机器人多任务学习需要一个高容量的模型，而变压器（Vaswani et al.，2017）模型在这方面表现出色，特别是当需要学习许多任务条件时，如在我们的案例中，在语言指令上。然而，机器人控制器也必须足够高效地实时运行，这对变形金刚来说尤其是一个主要的挑战。我们提出了一种新的架构，我们称之为RT-1（机器人变压器1），通过编码高维输入和输出，包括相机图像、指令和电机命令到紧凑的令牌表示，允许在运行时有效的推理，使实时控制可行。

我们的贡献是RT-1模型，并利用该模型在一个大型而广泛的真实世界机器人任务数据集上进行了实验。我们的实验不仅表明，与之前的技术相比，RT-1可以表现出显著改进的泛化和鲁棒性，而且还评估和消除了模型和训练集组成中的许多设计选择。我们的结果表明，RT-1可以以97%的成功率执行超过700条训练指令，并且可以对新任务、干扰物和背景分别比次优基线好25%、36%和18%。这种水平的性能允许我们在SayCan（Ahn et al.，2022）框架中执行非常长时间的任务，包含多达50个阶段。我们进一步证明，RT-1可以合并来自模拟甚至其他机器人类型的数据，保留原始任务的性能，并提高对新场景的泛化。图1b2简要概述了RT-1的功能。

2相关工作

最近的一些工作已经提出了基于变压器的机器人控制策略。与RT-1一样，一些作品使用变形金刚处理的语言命令作为可靠的框架来指定和概括新任务（张& Chai，2021；2021年；帕什维奇等人，2021年；席尔瓦等人，2021年；张成泽等人，2021年；Ahn等人，2022年；Nair等人，2022年）。我们的工作进一步推动了变压器的应用，并将语言和视觉观察到机器人动作的映射视为一个序列建模问题，使用变压器来学习这个映射。这一想法直接受到了游戏领域的成功（Chen等人，2021年；Lee等人，2022年a）以及模拟机器人导航（Fang等人，2019年）、运动（Janner等人，2021年；Gupta等人，2022年）和操作（Jiang等人，2022年）环境的启发。我们注意到，其中一些工作不仅仅是文本调节，还使用变形金刚来概括机器人形态（例如Gupta等人（2022））和其他任务规范模式（例如Jang等人（2021）；Jiang等人（2022））。这些扩展是RT-1未来很有前途的发展方向。

除了基于变压器的策略之外，我们的工作的重点是可推广的和健壮的大规模真实机器人操作。现有的基于现实世界变压器的机器人操作的工作集中于从每个任务的一组演示中有效地学习任务（Shridhar等人，2022年）。行为变压器（Shafiullah等人，2022）和Gato（Reed等人，2022）主张在大规模机器人和非机器人数据集上训练单一模型。然而，这些工作在现实世界的机器人任务中受到限制；例如，Gato有效地学习单一任务（彩色块堆叠），而不评估对新任务或各种真实世界设置的泛化。在技术方面，我们的工作研究了如何构建基于变压器的策略，从而将高容量和泛化与实时控制所需的计算效率结合起来。

虽然使用高容量变压器模型来学习机器人控制策略是一项相当新的创新，但机器人在多任务和语言条件学习方面有着悠久的历史，RT-1建立在这些基础上。大量工作涉及机器人抓取的学习策略和预测模型（Saxena等人，2006年；Lenz等人，2015年；平托&古普塔，2016年；古普塔等人，2018年；Viereck等人，2017年），目的是推广到新对象。先前的工作试图通过结合语言解析、视觉和机器人控制的流水线方法来解决机器人语言理解问题（麦克马洪等人，2006年；科拉等人，2010年；Tellex等人，2011年）和端到端方法(Mei等人，2016年；斯特普等人，2020年；林奇和塞马内特，2020年；Ahn等人，2022年）。机器人学习（Chung等人，2015年；Raffin等人，2019年，2019年；朱根森等人，2020年；黄等人，2020），以及可以以离散集或其他参数化形式执行任务的学习策略（戴森罗等人，2014年；德文等人，2017；福克斯等人，2019年；卡拉什尼科夫等人，2021a)。之前在机器人技术方面的一些工作也集中于收集包含演示或试验的数据集（Sharma等人，2018年；Dasari等人，2019年；Yu等人，2020年；辛格等人，2020年；詹姆斯等人，2020年）。我们的工作进一步支持多任务、语言条件机器人学习的力量，在更大的规模和更多的行为、对象和场景，并提出新的架构和设计选择，使机器人学习在更大的规模。

3准备工作

机器人学习。我们的目标是从视觉中学习机器人策略来解决语言条件的任务。在形式上，我们考虑了一个顺序的决策环境。在时间步t=0，策略π有一个语言指令i和一个初始图像观察x0。该策略产生一个动作分布π（·| i，x0），从其中采样一个动作a0并应用于机器人。这个过程还在继续，策略通过从学习到的分布π（·| i，{xj} t j=0）中采样来迭代地产生动作，并将这些动作应用于机器人。当达到一个终止条件时，交互作用就结束了。从开始步骤t = 0到结束步骤T的完整交互作用i，{（xj，aj）} T j=0被称为一个事件。在某一集结束时，代理将得到一个二进制奖励r∈{0,1}，表明机器人是否执行了指令i。目标是学习一个策略π，最大化平均奖励，期望在一个分布的指令，开始状态x0，和过渡动态。

变压器。RT-1使用变压器（Vaswani等人，2017）来参数化策略π。一般来说，变压器是一种利用自注意层和全连接神经网络的组合，将输入序列{ξh} H h=0映射到输出序列{yk} K k=0的序列模型。虽然变形金刚最初是为文本序列设计的，每个输入ξj和输出yk代表一个文本标记，但它们已经扩展到图像（Parmar等人，2018）以及其他模式（Lee等人，2022a；Reed等人，2022年）。详细在下一节中，我们参数化π首先映射输入我，{xj} t j=0到一个序列{ξh} H h=0和行动输出到一个序列{yk} K k=0之前使用变压器学习映射{ξh} H h=0→{yk} K k=0。

模仿学习。模拟学习方法在演示数据集D上训练策略π（波莫洛，1988；Zhang等人，2018；Jang等人，2021年）。具体来说，我们假设访问一个数据集D = {（i (n)，{（x (n) t，a (n) t）} T (n) t=0）} N n=0，所有这些都是成功的（即，最终的奖励为1）。我们使用行为克隆来学习π（Pomerleau，1988），它通过最小化给定图像和语言指令下的动作的负对数可能性来优化π。

4系统概述

这项工作的目标是建立和演示一个通用的机器人学习系统，可以吸收大量的数据和有效地推广。我们使用了《日常机器人3》中的移动操作器，它有一个7个自由度臂，一个双指夹持器和一个移动底座（见图2 (d)）。为了收集数据和评估我们的方法，我们使用了三种基于厨房的环境：两个真实的办公室厨房和一个基于这些真实厨房建模的培训环境。训练环境，如图2 (a)所示，由部分计数器组成，并构建用于大规模的数据收集。如图2（b，c）所示的两个真实环境，与训练环境有相似的台面，但在照明、背景和全厨房几何形状上有所不同（例如，可能有一个橱柜而不是抽屉或水槽）。我们评估策略在这些不同环境中的性能，衡量策略的性能和泛化能力。

我们的训练数据由人类提供的演示组成，我们用机器人刚刚执行的指令的文本描述来注释每个情节。指令通常包含一个动词和一个或多个描述目标对象的名词。为了将这些指令组合在一起，我们将它们分成一些技能（例如，动词如“挑选”、“打开”或“直立”）和物体（例如，名词如“可乐罐”、“苹果”或“抽屉”）。我们在章节5.2中详细描述了我们的数据收集策略的细节。我们最大的数据集包含了超过130k个单独的演示，构成了超过700个不同的任务指令，使用了大量的对象（见图2 (f)）。我们在章节5.2中描述了中收集到的数据的细节。

我们的系统的主要贡献之一是网络架构，机器人变压器1（RT-1），这是一个高效的模型，可以吸收大量的数据，有效地泛化，并实时输出动作，用于实际的机器人控制。RT-1以一个短的图像序列和一个自然语言指令作为输入，并在每个时间步长中为机器人输出一个动作。为此，体系结构（如图1a所示)利用了几个元素：首先处理图像和文本，通过ImageNet预训练的卷积网络（Tan & Le，2019），条件是通过FiLM（Perez等人，2018），然后使用令牌学习者（Ryoo等人，2021）计算一组紧凑的令牌，最后使用变压器（Vaswani等人，2017）参与这些令牌并产生离散的动作令牌。动作包括手臂运动的七个维度（x、y、z、滚动、俯仰、偏航、夹具的打开），基础运动的三个维度（x、y、偏航）和一个离散的维度，在三种模式之间切换：控制手臂、基础或结束情节。RT-1执行闭环并以3 Hz的控制和命令动作，直到它产生一个“终止”动作或达到预先设定的时间步长限制。

5 RT-1：机器人变压器

在本节中，我们将描述如何对图像、文本和操作进行标记化，然后讨论RT-1模型体系结构。然后，我们将描述如何实现实时控制所需的运行时速度。最后，我们描述了在我们的数据集中的数据收集过程和技能和说明。

(

图2： (a)机器人教室，我们大规模收集数据；(b)是一个真正的办公室厨房，用于评估的两个现实环境之一（在论文的其余部分称为厨房1）；(c)用于评估的另一个办公室厨房（在论文的其余部分称为厨房2）；整个论文中使用的(d)移动操纵器；(e)一组用于扩大大多数技能多样性的技能的对象；(f)一组更多样化的对象，主要用于扩大挑选技能的对象多样性。

)

5.1模型

我们的模型建立在变压器架构上（Vaswani et al.，2017），并以图像和任务描述的历史作为输入和直接输出标记化的动作，如图1a所示，详细信息如图3所示。下面，我们将按照图3中从上到下的顺序来描述模型的组成部分。关于规模模型选择的更多细节见附录C.3。

指令和图像标记化。RT-1体系结构依赖于数据高效和紧凑的图像标记化和语言指令。RT-1通过将图像通过ImageNet预训练的高效Net-b3（Tan&Le，2019）模型来标记6张图像的历史，该模型将6张分辨率为300×300300的图像作为输入，并从最终卷积层输出形状为9×9×512的空间特征图。与Reed等人（2022年）不同，我们在将图像输入我们的变压器主干之前，不会将图像图案化为视觉令牌。相反，我们将来自高效网络的输出特征映射扁平化成81个视觉令牌，这些令牌被传递到网络的后期层。

为了包含语言指令，我们以预先训练的语言嵌入形式对自然语言指令进行条件，允许早期提取与任务相关的图像特征，提高RT-1的性能。该指令首先通过通用句子编码器嵌入（Cer等人，2018年）。然后，这种嵌入被用作身份初始化的FiLM层的输入（Perez et al.，2018），添加到预先训练的效率网中，以调整图像编码器。通常情况下，在预训练的网络内部插入一个FiLM层会破坏中间激活，并抵消使用预训练权值的好处。为了克服这个问题，我们初始化了产生FiLM仿射变换的密集层（fc和hC）的权值，允许FiLM层最初作为一个恒等式，并保留预训练的权值的函数。我们发现，在没有ImageNet预训练时，身份初始化的FiLM也会产生更好的结果，但它没有超过上述的初始化。图像标记化器的体系结构如图3所示。

RT-1的图像和指令标记化总共有16M参数，包含26层MBConv块和FiLM层，输出81个视觉语言标记。

标记学习者。为了进一步压缩RT-1需要参加的令牌数量，从而加快推断速度，RT-1使用了令牌学习者（Ryoo et al.，2021）。标记学习者是一个基本的注意模块，它学习将大量的标记映射到更少的标记中。这使得我们可以根据图像令牌的信息来软选择图像令牌，从而只将重要的令牌组合传递给后续的变压器层。令牌学习者的子样本包括来自预先训练的固定效率网层的81个视觉令牌，只有8个最终令牌，然后传递到我们的变压器层。

(

图3：RT-1的体系结构图。该指令被转换为USE嵌入，并用于通过FiLM层条件一个预先训练的效率网。由此产生的视觉语言令牌被令牌学习者减少，并输入一个仅解码器的转换器，输出令牌化操作。

)

Transformer然后将每张图像的8个标记与历史上的其他图像连接，形成48个标记（添加位置编码），输入RT-1的变压器主干。该变压器是一个仅限解码器的序列模型，有8个自注意层和19M的总参数，输出动作令牌。

操作标记化。为了标记化动作，RT-1中的每个动作维度被离散成256个箱子。如前所述，我们考虑的动作维度包括手臂运动的7个变量（x、y、z、滚动、俯仰、偏航、夹具的打开），三个基础运动的变量（x、y、偏航）和一个离散变量，以在三种模式之间切换：控制手臂、基础或结束事件。对于每个变量，我们将目标映射到256个箱子中的一个，其中的箱子均匀地分布在每个变量的范围内。

损失。我们使用了一个标准的类别交叉熵熵目标和因果掩蔽，这在之前的基于变压器的控制器中已经使用过（Reed等人，2022；Lee等人，2022a）。

推理速度。与许多大型模型的应用程序相比，如自然语言或图像生成，一个需要在真实机器人上实时运行的模型的独特要求之一是快速和一致的推理速度。考虑到执行这项工作中考虑的指令的人类速度（我们测量的速度在2-4秒的范围内），我们希望模型不会明显慢于此。根据我们的实验，这个要求对应于至少3Hz的控制频率和模型的推理时间预算，给定系统中的其他延迟，小于100 ms。

这个要求限制了我们可以使用的模型的大小。我们在实验中进一步探讨了模型大小对推理速度的影响。我们采用了两种技术来加速推断： (i)通过使用令牌学习者（Ryoo等人，2021）减少由预先训练的效率网络模型生成的令牌数量，（ii）只计算这些令牌一次，并将它们用于未来推断重叠的以下窗口。这两种方法都允许我们将模型推理的速度分别提高2.4倍和1.7倍。关于模型推理的更多细节见附录C.1。

5.2数据

(

表1：为RT-1收集的技能列表，以及他们的描述和示例说明。

)

我们的目标是建立一个具有高性能、对新任务的泛化、对干扰物和背景的鲁棒性的系统。因此，我们的目标是收集一个大型的、不同的机器人轨迹数据集，其中包括多个任务、物体和环境。我们的主要数据集包括∼130k机器人演示，在17个月的时间里由13个机器人组成的车队收集。我们在一系列的办公厨房部分中进行了大规模的数据收集，我们称之为机器人教室，如图2所示。关于数据收集的更多细节见附录C.2。

技能和说明。

虽然文献中对任务的定义仍然不一致，但在这项工作中，我们统计了系统可以执行的语言指令的数量，其中指令对应于一个由一个或多个名词包围的动词，如“将水瓶竖直放置”、“将可乐罐移到绿色薯片袋中”或“打开抽屉”。RT-1能够在多个真实的办公室厨房环境中执行超过700种语言指令，我们在实验中详细评估和描述这些指令。为了对评价进行分组并对系统的表现得出结论，我们根据评价中使用的动词对指令进行分组，我们称之为技能。表1显示了更详细的指令列表，其中包括示例和每个技能的指令数量。

目前的技能包括挑选、放置、打开和关闭抽屉，把东西进出抽屉，把细长的东西放在右边，把它们打翻，拉餐巾纸和打开罐子。我们选择这些技能来展示具有多个对象的多种行为（如图2(e)所示），以测试RT-1的各个方面，如对新指令的泛化和执行许多任务的能力。我们选择这些技能来展示具有多个对象的多种行为（如图2(e)所示），以测试RT-1的各个方面，如对新指令的泛化和执行许多任务的能力。然后，我们极大地扩展了“选择”技能的对象多样性，以确保这些技能泛化到不同的对象（参见图2(f)中扩展的对象集）。在我们进行烧蚀时，技能进一步扩展，包括表1最后一行添加的说明，用于Sec中描述的实验。6.4和6.3。这些额外的技能集中在办公室厨房里的现实的、长期的指导上。在附录C.4中描述了添加任务和数据的整个过程。由于我们在添加新指令时没有对特定技能做出任何假设，因此系统很容易扩展，并且我们可以不断地提供更多样化的数据来提高其能力。

6实验

我们的实验试图回答以下问题：

RT-1能否学会执行大量的指令，以及在零射击中推广到新的任务、对象和环境？（第6.2节）
我们能否通过合并异构数据源，如模拟数据或来自不同机器人的模拟数据，来进一步推动结果模型？（第6.3节）
各种方法如何推广到长期的机器人场景中？（第6.4节）
泛化指标如何随着数据量和数据多样性的变化而变化？（第6.5节）
在模型设计中有哪些重要的决策？它们如何影响性能和泛化？（附录第D.4节）

在本节中，我们将比较两种最先进架构的基线状态，Gato（Reed等人，2022年）和BC-Z（Jang等人，2021年）。重要的是，这两个方法都是根据我们在第二秒中详细描述的数据进行训练的。5.2（这是我们系统的一个重要组成部分），因为这些出版物中的原始模型不会显示出我们的评估任务所需的泛化属性。Gato类似于RT-1，基于变压器架构，但在多个方面与RT-1有所不同。首先，它计算不含语言概念的图像标记，每个图像标记嵌入分别计算每个图像补丁，而不是在我们的模型中进行早期的语言融合和全局图像嵌入。其次，它不使用预先训练好的文本嵌入来编码语言字符串。它也不包括在第二秒中所讨论的真实机器人所必需的推理时间考虑在5.1中提及，如标记学习者和消除自回归行为。为了运行Gato真实机器人在足够高的频率，我们也限制模型的大小与原始出版物相比，这是1.2B参数（导致机器人推理时间为1.9s），类似的大小RT-1（37M参数Gato和35mRT-1）。BC-Z基于ResNet架构，并在SayCan中使用（Ahn等人，2022年）。BC-Z与RT-1的不同之处在于，它是一个前馈模型，不使用以前的时间步长，并且它使用连续的动作而不是离散的动作令牌。除了原始的BC-Z模型大小外，我们还将我们的方法与一个更大版本的BC-Z进行了比较，它具有与RT-1数量相似的参数，并将其称为BC-Z XL。我们将在附录部分中研究和分析这些设计决策是如何改变性能D.4和D.5.

我们评估了实验中的成功率，以衡量训练指令的表现，对看不见的指令的泛化，对背景和干扰物的鲁棒性，以及在长期场景中的表现，具体如下。在本节中，我们通过超过3000个真实世界的试验来评估我们的方法和基线，使其成为迄今为止对机器人学习系统进行的最大规模的评估之一。

6.1实验装置

正如在第4节中提到的，我们在三种环境中使用一组来自日常机器人的移动操作器来评估RT-1：两个真实的办公室厨房和一个基于这些真实厨房建模的培训环境。如图2 (a)所示的训练环境由部分计数器组成，而图2（b，c）所示的两个真实环境具有与训练环境相似的计数器顶部，但在照明、背景和全厨房几何形状上有所不同（例如，可能有一个橱柜而不是抽屉或水槽）。这些策略被评估为对训练任务的性能、对新任务的泛化、对看不见的环境的健壮性，以及当链接在一起执行长期任务时的性能，如下所示。

看到任务性能。为了评估所见指令的性能，我们评估了从训练集采样的指令的性能。然而，请注意，这种评估仍然涉及改变物体的位置和设置的其他因素（例如，一天中的时间，机器人的位置），需要技能来概括环境中现实的可变性。在这个评估中，我们总共测试了超过200个任务： 36个用于挑选物体，35个用于敲除物体，35个直立放置，48个用于移动物体，18个用于打开和关闭各种抽屉，36个用于挑选物体并放入抽屉中。

看不见的任务泛化。为了评估对看不见的任务的泛化，我们测试了21个新颖的、看不见的指令。这些说明被分发给各种技能和对象。这确保了每个对象和技能至少有一些实例出现在训练集中，但它们将以新颖的方式组合在一起。例如，如果“拿起苹果”被拿出来，那么还有其他包括苹果在内的训练说明。所有未被看到的说明的列表可以在附录D.1中找到。

稳健性为了评估鲁棒性，我们执行了30个真实世界任务的干扰物鲁棒性，22个任务的背景鲁棒性。通过在新厨房（有不同的照明和背景视觉效果）和不同的柜台表面（例如，一个有图案的桌布）中进行评估，来测试背景的鲁棒性。鲁棒性评估场景的示例配置如图4所示。

多连续性任务场景。我们还评估了对更现实的长期场景的泛化，每个场景都需要执行一系列技能。这个评估的目标是结合多个泛化轴，如新的任务、对象、环境，并在现实的设置中测试整体的泛化能力。这些评估包括两个真实厨房的15个长期指令，需要执行由10个∼组成的不同步骤，每个步骤的范围大致相当。这些步骤是从更高级级别的指令中自动获得的，比如“你如何扔掉桌子上的所有项目？”通过使用SayCan系统（Ahn等人，2022年），详见第6.4节和附录D.3节。

(

图4：干扰物评价场景（第一行），从左到右：容易(0-5个干扰物），中（9个干扰物），硬（9个干扰物和遮挡物）；背景（第二行），从左到右：原始环境，图案桌布，新厨房；真实厨房（第三行），从左到右的泛化水平：L1、L2和L3。

)

6.2 rt-1是否能够学会执行大量的指令，并能够泛化到新的任务、对象和环境中？

为了回答我们的第一个问题，我们分析了RT-1与之前提出的模型相比的整体性能、泛化和鲁棒性能力。具体来说，我们将Gato（Reed et al.，2022）和BC-Z（Jang et al.，2021）使用的模型架构，以及一个更大的BC-Z版本，我们称之为BC-Z XL。但是，请注意，所有的模型都是在与RT-1相同的数据上进行训练的，并且评估只比较模型架构，而不是任务集、数据集或整个机器人系统。RT-1的能力在很大程度上是由数据集和任务集，我们认为显著改善之前的工作（例如BC-Z使用100任务和原始Gato模型训练堆叠任务与各种形状），因此这种比较应该被视为相当有利的模型，也受益于大量和不同的数据集和任务集。

(

表2：RT-1和基线在可见任务中的总体表现，对未可见任务的泛化，以及对干扰物和背景的鲁棒性。

)

结果如表2所示。在每个类别中，我们发现RT-1显著优于之前的模型。在可见任务中，RT-1能够成功执行200多条指令中的97%，比BC-Z多25%，比Gato多32%。在看不见的任务中，RT-1显示它能够推广到新的指令，执行76%的从未见过的指令，比下优基线多24%。虽然由于政策的自然语言条件，这种对新指令的概括成为可能，因为政策能够理解以前看到的概念的新组合，但所有基线也以自然语言为条件，原则上享有相同的好处。我们将在下一节中进一步消除RT-1的不同成分，以更好地理解我们的方法的哪些方面对这种差异的贡献最大。在干扰物和背景上，我们发现RT-1具有相当的鲁棒性，成功执行了83%的干扰物鲁棒性任务和59%的背景鲁棒性任务（分别比下优方案高36%和18%）。总的来说，我们发现RT-1具有较高的通用性能，同时表现出令人印象深刻的泛化程度和鲁棒性。我们在图5中展示了RT-1代理的示例，包括涵盖不同技能、环境和对象的指令。我们还在附录中给出了不同泛化测试的其他轨迹示例，其中包括背景（图10）和干扰物（图12）。

推广到现实的指令。接下来，我们测试我们的方法是否能在我们之前评估的所有不同轴上进行足够的概括，以便部署在真实的厨房中，它会同时产生多个分布变化，比如新的任务组合、对象干扰物以及新的环境。

为了在真实厨房的真实现实场景中评估我们的算法，我们构建任务序列来实现一些现实的目标。机器人在抽屉里放了几个零食，清理调味品瓶，关闭人类打开的抽屉，准备用橘子和餐巾做零食，从厨房的几个地方拿着丢失的太阳镜和一个章鱼玩具。在这些场景中使用的详细说明列在附录D.1中。办公室厨房涉及到一个从培训环境开始的戏剧性转变，我们对这些场景中的任务进行了不同层次的泛化分类：L1用于泛化到新的台面布局和照明条件，L2用于额外泛化到不可见的干扰物对象，L3用于额外泛化到极大的新任务设置，新的任务对象或在看不见的位置的对象，如水槽附近。图4的最后一行描述了与重新进货、准备零食和在真实的厨房中获取丢失的物品这三个任务相对应的三个层次。在图11的附录中给出了不同级别的轨迹示例。

我们报告了在这些现实场景中每个任务的成功率以及表3中不同的泛化水平，并发现RT-1在所有水平上都是最稳健的。Gato在第一级的泛化相当好，但对于更困难的泛化场景，它的性能显著下降。BC-Z及其XL等效物在L2水平表现相当好，在L3水平优于Gato，但仍未在RT-1的泛化水平。

6.3我们能否通过合并异构数据源，如模拟或来自不同机器人的数据，来进一步推动结果模型？

接下来，我们将探讨RT-1在利用高度异构性数据方面的局限性。我们将演示RT- 1如何从非常不同的数据源中合并和学习，并从这些数据中改进，而不牺牲这些数据中固有的不同任务的原始任务性能。为此，我们进行了两个实验： (1) RT-1在真实数据和模拟数据上进行了训练和测试 (2)RT-1在不同任务的大数据集上进行训练，最初是由不同的机器人收集的。关于每一个问题的更多信息见附录D.2。

(

图5：RT-1跨各种指令的评估轨迹示例。

表3：现实的泛化场景：我们比较了在一个现实的谷歌厨房场景中，跨三个泛化层次的模型成功率：L1用于泛化到新的台面布局和照明条件，L2用于额外泛化到不可见的干扰对象，L3用于额外泛化到全新的任务设置，新的任务对象或在看不见的位置，如水槽附近。

)

吸收模拟数据。表4显示了RT-1和基线吸收真实数据和模拟数据的能力。为了测试这一点，我们获取了所有真实的演示数据，但我们也提供了额外的模拟数据，其中包括机器人在现实世界中从未见过的物体。具体来说，我们指定了不同的泛化场景：对于具有真实对象的可见技能，训练数据具有该指令的真实数据（即，对可见任务的表现），对于使用sim对象的视觉技能，训练数据有该指令的sim数据（例如，“捡起一个sim对象”，这在sim中是存在的），和看不见的技能与sim对象训练数据模拟数据对象但没有指令的例子描述对象的技能在sim或现实（例如，“移动一个sim对象苹果”，尽管机器人只练习在选择sim对象和不移动附近的其他对象）。所有的评估都是在现实世界中完成的，但为了限制被评估的指令的数量，我们关注于选择和转向技能。

(

表4：在RT-1中加入模拟数据的实验结果。添加模拟数据不会影响真实对象的性能，同时显著提高了仅在模拟中引入的对象的实际性能（+64%）。它还改进了真实对象的泛化对象使用的技能只在真实世界中看到（+26%），例如“移动X到Y”，其中X只出现在模拟的“选择X”任务中。

)

我们在表4中发现，对于RT-1，与仅真实数据集相比，添加模拟数据时我们不会失去性能。然而，我们确实看到了仅在模拟中看到的对象和任务的性能显著提高（从23%到87%），到接近实际的性能，显示了令人印象深刻的领域转移程度。我们还看到看不见的指令的性能显著提高，从7%提高到33%；令人印象深刻的是，所讨论的对象从未在现实中未见过，指令也从未见过。总的来说，我们发现RT-1能够有效地吸收新的数据，即使是来自一个非常不同的领域。

从不同机器人的数据。为了提高RT-1的数据吸收极限，我们进行了一组额外的实验，其中我们结合了来自不同机器人的两个数据源： Kuka IIWA以及到目前为止在实验中使用的日常机器人移动操纵器。Kuka数据包含了QT-Opt（卡拉什尼科夫et al.，2018）中收集的所有成功例子，对应于209k集，其中机器人不加选择地在箱子中的物体(见表中Kuka集的例子。 5).为了测试RT-1是否能有效地吸收这两个非常不同的数据集，我们称之为标准的“课堂eval”，以及新构建的任务的性能，反映了库卡数据中的垃圾箱设置，我们称之为“eval”（见图6）。

我们想通过注意数据集之间的主要差异来强调这个设置的困难。收集数据的机器人不仅在外观和动作空间上有所不同，而且它们被部署的环境也有不同的外观和动态。此外，QT-Opt数据呈现了一个完全不同的行动分布——它是由一个RL代理收集的，而不是在我们的数据集中出现的人类演示。

结果如表5所示。我们观察到，混合RT-1数据和Kuka数据的模型只有原始任务的性能（即课堂eval），即2%。更重要的是，在垃圾箱过程中，我们观察到，在多机器人数据上训练的模型的性能为39%，而仅在RT-1数据上训练的模型为22%。这是一个17%的性能差异（几乎是2倍）。此外，RT-1对Kuka拾箱数据进行训练，并对日常机器人（EDR）机器人的拾箱任务进行评估，获得了0%的性能，证实了很难从另一个机器人形态转移行为。然而，混合来自两个机器人的数据可以让RT-1推断EDR机器人的正确动作，即使在面对Kuka机器人观察到的状态时也是如此。这是在EDR机器人上没有明确的垃圾箱挑选演示，并利用Kuka机器人过去收集的经验。这些结果表明，RT-1的吸收特性还包括通过观察其他机器人的经验来获得新技能的能力，并为未来的工作提供了一个令人兴奋的途径，我们结合更多的多机器人数据集来提高机器人的能力。

(

图6：在表5中，RT-1使用来自两个机器人平台的数据进行训练，并学习对它们进行泛化。

表5：混合两个不同机器人数据的实验结果。在RT-1中加入来自QT-Opt（卡拉什尼科夫等人，2018）的Kuka绑定数据，对标准课堂评估性能的影响最小，结果在日常机器人操纵器的泛化绑定评估（类似于库卡数据中的设置）方面几乎提高了2倍。这证明了在两种不同的机器人形态之间的有效转移。

)

6.4各种方法如何推广长范围的机器人场景？

在下一组实验中，我们评估我们的方法是否足够概括，以用于长期现实的厨房设置。为了回答这个问题，我们在两个不同的真实厨房中在SayCan（Ahn et al.，2022）框架中执行RT-1和各种基线。由于SayCan结合了许多低级指令来执行高级指令，可能的高级指令的数量与技能结合增加，因此可以完全看到RT-1的技能广度（关于SayCan算法的更多细节，请参考Ahn等人（2022））。长期任务的成功率也会随着任务的长度而呈指数级下降，因此操作技能的高成功率尤为重要。此外，由于移动操作任务同时需要导航和操作，因此策略对基础位置的稳健能力是至关重要的。更多细节见附录D.3。

表6显示了我们的结果（在附录表12中的说明中）。除原来的SayCan外，所有方法的规划成功率均为87%，RT-1表现最好，厨房1的执行成功率为67%。厨房2构成了一个更具挑战性的泛化场景，因为机器人教室的训练场景是仿照厨房1来建模的（见图2中的厨房图片）。由于这种泛化困难，Gato的SayCan无法完成任何长期任务，而BC-Z的SayCan能够达到13%的成功率。最初的声明纸并没有评估在一个新厨房的性能。令人惊讶的是，对于我们的方法，操纵性能没有从Kitchen1到Kitchen2的明显下降。.在补充视频中，我们展示了这使我们能够在厨房2中操作看不见的抽屉，并且我们可以使用SayCan-RT1来计划和执行超长视野任务，多达50个步骤。

(

表6：在厨房1和厨房2的长期任务。（*原始声明，eval使用了一个稍微不同的提示，所以规划的成功率较低。）

)

6.5泛化指标如何随着数据量和数据多样性的变化而变化？

虽然之前的工作已经显示了基于变压器的模型的扩展能力（Lee等人，2022a；Reed等人，2022；Jiang等人，2022）随着模型参数的数量，在许多机器人工作中，模型尺寸往往不是主要瓶颈，最大尺寸受到在真实机器人上运行此类模型的延迟要求的限制。相反，在本研究中，我们关注于数据集大小和多样性的影响，因为它们在传统的数据有限的机器人学习领域发挥着重要的作用。由于数据收集对于真实的机器人来说特别昂贵，因此量化我们的模型需要什么样的数据来实现一定的性能和泛化是很重要的。因此，我们的最后一个问题是关注具有不同数据属性的RT-1的缩放特性。

(

表7：RT-1在可见任务中的各种数据消融，对看不见任务的泛化，对干扰物和背景的鲁棒性。数据多样性对性能和泛化的影响高于数据量。

)

在表7中，我们展示了RT-1减少数据集大小和数据集多样性时，它的性能、泛化和鲁棒性。为了分离数据集大小和多样性的轴，我们通过从具有最大数据的任务中删除数据，限制每个任务的示例数，每个任务的示例数为200个（得到51%的数据），100个（37%的数据）和50个（22.5%的数据）。为了创建一个狭窄的数据集，我们删除了数据最少的任务，从而保留了97%的总体数据，但只保留了75%的任务。当我们减小数据集的大小时，我们可以看到性能下降的总体趋势和泛化下降的更陡峭的趋势。当我们使数据集更加狭窄时，我们看到了更大幅度的性能下降，特别是在泛化方面。事实上，在删除25%的任务的同时保留97%的数据时，可以实现与将数据集大小减少49%相同的泛化性能。因此，我们的关键结论是，数据的多样性比数据的量更重要。

7结论、局限性和未来的工作

我们提出了机器人变压器1，RT-1，一种机器人学习方法，可以有效地吸收大量的数据和数据量和多样性的规模。我们在一个大的演示数据集上训练RT-1，该数据集包含17个月来用13个机器人收集的超过13万集。在我们广泛的实验中，我们证明了我们的方法可以以97%的成功率执行超过700条指令，并且比以前发布的基线更好地有效地推广到新的任务、对象和环境。我们还证明了RT-1可以成功地吸收从模拟和其他机器人形态中获得的异构数据，而不牺牲原始任务的性能，同时提高对新场景的泛化能力。最后，我们展示了这种级别的性能和泛化如何允许我们在SayCan（Ahn et al.，2022）框架中执行非常长的任务，需要多达50个步骤。

虽然RT-1为使用数据吸收模型的大规模机器人学习迈出了很有希望的一步，但它也有一些局限性。首先，它是一种模仿学习方法，它继承了这类方法的挑战，比如它可能无法超过演示者的表现。其次，对新指令的推广仅限于以前看到的概念的组合，而RT-1还不能推广到一个以前从未见过的全新的运动。最后，我们的方法是提出在一个大的但不是很灵巧的操作任务集。我们计划继续扩展RT-1所支持和概括的指令集，以解决这一挑战。

在我们探索这项工作的未来发展方向时，我们希望通过开发方法，允许非专家通过定向数据收集和模型提示对机器人进行训练，从而更快地扩大机器人技能的数量。虽然当前版本的RT-1相当健壮，特别是对干扰对象，但它对背景和环境的鲁棒性可以通过极大地增加环境多样性来进一步提高。我们也希望通过可扩展的注意力和记忆来提高RT-1的反应速度和情境保留。

为了让研究社区在这项工作的基础上，我们开源了RT- 1 4的代码，我们希望这将为研究人员在未来扩大机器人学习的研究提供宝贵的资源。

总结：最为重点的应该是原文图3(第4页)的模型框架，内部整和了诸多模型。并描述了数据的多样性的重要性。

点击阅读全文