发展型机器人：由人类婴儿启发的机器人. 1.3 发展型机器人学的基本原则_人工智能_weixin

1.3 发展型机器人学的基本原则

由1.1节的描述可知，发展心理学的理论已经强烈地影响了发展型机器人学的研究领域。如前所述，尽管发展型机器人模型的建立更加强调环境和社会因素，但还是遵循基于先天主义和经验主义现象的相互作用的实现方法。对生物和遗传因素产生影响的思考包括：成熟现象在机器人系统的身体和大脑中的作用，感觉运动和心智功能获取的涉身性限制，以及内在动机和对他人模仿和学习的本能所起的作用。发展型机器人研究所考虑的经验主义与建构主义现象中，特别关注塑造发展中情境学习和社会与自身环境的贡献，以及在线的、开放式的和累积的认知技能的获取。此外，生物和环境因素以开放的和动态的方式耦合在一起，这种方式导致了认知策略的阶段化定性改变，其中认知策略依赖于基因、涉身性和学习现象的非线性动态系统的相互作用。

本书归纳出一系列反映机器人自主心智发展设计的因素和处理过程，还归纳了引导发展型机器人实践的通用原则。这些原则的分类见表1-1，后续章节将给出简单分析。

表1-1 发展型机器人的原则与特征原则特征1 作为动态系统的发展分散的系统

自组织和涌现

多因果关系

嵌套时间刻度2 系统发展和个体发展的交互成熟

关键期

学习3 涉身性与情境性的发展涉身性

情境性

生成性

形态计算

扎根性4 内在动机与社会学习内在动机

评价系统

模仿行为5 非线性、类似阶段化的发展定性阶段

U形条件6 在线开放式累积学习在线学习

累积学习

跨模态

认知加速

1.3.1 作为动态系统的发展

动态系统是从数学和物理学中借用的重要概念，它大大影响了人类发展的通用理论。在数学概念中，动态系统是以随着时间推移而在相态间产生复杂变化为特点的系统，并且这些变化是系统变量之间多方面交互自组织的结果。非线性现象的复杂交互导致了系统不可预知状态的产生，通常被称为涌现状态。涌现状态的概念是从发展心理学家特别是Thelen和Smith（1994；Smith和Thelen 2003）两位学者那里借来的，这个概念将儿童的发展解释为内在与动态交互的涌现产物，这种内在与动态的交互实际上是与儿童成长中的身体、大脑和外部环境有关的许多分散的和本地的相互作用。因此Thelen和Smith提出了儿童的发展应被视为在复杂动态系统中的变化，成长中的儿童可以通过与环境的交互生成新的行为，而这些行为状态的稳定性在复杂系统内是变化的。

这个理论中的一个关键概念是多因果关系，例如爬行和行走这样的行为，它们是由一定发展阶段的大脑、身体和外部环境多种因素的同步和动态结果共同决定的。Thelen和Smith使用在爬行和行走运动中出现的动态变化，作为儿童为了适应环境的改变以产生身体成长变化这样一个多因果关系变化的例子。当婴儿有了足够的力量和协调能力，可以通过手掌和膝盖的某种姿势支撑身体，但还不能直立行走时，婴儿就只能采用爬行策略在环境中移动。但是随着婴儿的成长，他们具备了更强和更稳定的腿部能力，站立和行走行为以稳定的6

～

7发展状态涌现出来，从而动摇并逐步取代爬行模式。这说明，相较于先控制爬行再控制行走这样预定义式的、自顶向下式的通用控制发展路径来说，儿童的移动行为应当是多种分散因素的自组织动态过程的结果，这些分散因素包含身体变化（更强壮的腿和更好的平衡性）及身体对环境的适应性。这就揭示了多个并行因素导致不同行为策略的多因果关系的原则。

Thelen和Smith的动态系统发展理论的另一个关键概念是嵌套时间刻度，换句话说，神经和涉身现象在不同的时间刻度上作用，并且都以复杂的、动态的方式来影响发展。例如，非常快的时间刻度上的神经活动动态（毫秒）是嵌套在较慢时间刻度上的动态中的，如动作的反应时间（秒或数百毫秒）、学习的反应时间（数小时或数天之后）以及身体增长的反应时间（以月为单位）。

Thelen和Smith采用最著名的发展心理学例子“A非B错误”来演示多因果关系和嵌套时间刻度概念的联合效应。这个例子是受Piaget的客体永久性实验启发的，在实验的第一部分，玩具被反复藏在位置A（右）的盖子里。在实验临近尾声时，实验者把那个玩具藏在位置B（左）一次，然后让被试婴儿去找玩具。12个月以上的婴儿都能在正确的位置B找到玩具，然而大部分8～10个月的婴儿会产生去位置A寻找物体这样奇怪的错误。这个错误只在隐藏和抓取物体之间存在短暂停留时才会产生。Piaget等心理学家用基于年龄（阶段）差异所对应的表征客体和空间能力中的定性变化来解释上述错误，同时，动态系统的计算模拟模型（Thelen等人 2001）表明，多种分散因素（多因果关系）和对时间的操作（嵌套时间刻度）也会导致这种情况。例如，隐藏和抓取物体之间的时间延迟，桌上盖子的属性，隐藏事件的显著性，婴儿的过去活动和婴儿的身体姿势。这些因素的系统性操作导致了“A非B错误”案例的出现、停止和转变。

将动态系统实现方法作为发展理论以及身体、神经与环境因素的通用动态链接机制，已经在机器人和智能系统相关领域中产生了重大影响（Beer 2000；Nolfi和Floreano 2000）。这一理论已经应用在诸如关注早期运动发展的发展型机器人模型中，比如Mori和Kuniyoshi（2010）在胎儿和新生儿中的身体表征和一般运动的自组织模拟系统（2.5.3节）。同样，

8早期单词学习的发展型机器人模型（Morse和Belpaeme等人，2010）也设计了一个类似于“A非B错误”的实验来探查涉身性因素与高阶语言发展现象之间的动态交互过程（7.3节）。

1.3.2 系统发展和个体发展的交互

动态系统实现方法的讨论强调了在发展过程中不同时间刻度的重要性，包括发生在几小时或几天的时间刻度上学习方面的个体发展现象，以及发生在几个月或几年的时间刻度上成熟的变化。一个额外的、更缓慢的用来考虑何时发展的时间刻度是系统发展时间维度，换句话说就是在发展过程中进化变化的影响。因此，应在发展型机器人模型中考虑个体发展和系统发展现象之间交互的额外含义。

在本节中，我们将讨论成熟变化的重要性，因为这些变化与系统发展变化联系得更紧密。此外，由学习新行为和技能所产生的累积变化的影响将在1.3.5节和1.3.6节中讨论。

成熟是指儿童的大脑与身体在解剖学和生理学上的改变，特别是在生命的第一年里。与大脑相关的成熟现象包括早期发展过程中大脑可塑性的降低，半球逐渐专业化与神经元和连接的修剪等现象（Abitz等人2007）。大脑成熟的变化也用来解释学习过程中的关键期。关键期指的是生物体生命期间的特定阶段（时间窗口），在这些关键期中，生物个体对外部刺激更敏感并能更有效地进行学习。然而，在一个关键期结束之后，学习会变得非常困难甚至不可能再实现。动物行为学中最有名的关键期（也称为敏感期）的例子是Konrad Lorenz的印迹研究，也就是说，雏鸭对鸭妈妈（或者说是Lorenz）产生依恋的时机，只可能出现在生命的最初几个小时并产生长期的影响。在视觉研究方面，Hubel和Wiesel（1970）展示了猫只有在生命的最初几个月被暴露在视觉刺激中，视觉皮层才能发展其接受域，而如果通过覆盖眼睛剥夺小猫的全部视觉刺激，它就不能发展接受域。在发展心理学中，最具研究价值的关键期就是语言学习的研究。Lenneberg（1967）是提出语言发展关键期假说的首批研究学者之一，该假说认为大脑在2～7岁间发生变化是为了应对在这个年龄之后语言学习过程中产生的问题，这里的大脑变化特别指的是在大脑左半球中逐渐引导语言功能偏侧性的大脑半球专门化效应。关键期假说也被用来解释人类在青春期之后学习第二语言的缺陷（Johnson和Newport 1989）。虽然在文献中这个假说仍然被激烈讨论，但是人们普遍认为，在青春期之前大脑成熟度的变化显著影响着语言学习的进程。9

从出生到青年阶段，儿童身体的成熟很显然是一种重要的形态变化。正如Thelen和Smith的爬行和行走动作分析一样，这些形态变化自然地影响着儿童的运动发展。发生在发展过程中的形态变化也对涉身性因素的探索具有重要意义，正如1.3.3节所讨论的，这些涉身性因素是形态计算的结果。

一些发展型机器人模型明确探讨了大脑和身体成熟变化的问题。例如，Schlesinger、Amso和Johnson（2007）研究了在对象认知技能发展过程中对神经可塑性的作用进行建模（4.5节）。对于身体形态发展的建模研究，在第4章关于运动发展的部分中也进行了广泛讨论。

由成熟和学习产生的个体发展变化，对由于进化产生的系统发展变化及二者的交互具有重要意义。身体形态和大脑可塑性的变化实际上可以解释为应对不断变化环境的物种进化适应性。所有这些现象都在研究中经过了分析，例如，影响个体发展现象时间程度的基因变化称为异时变化（McKinney和McNamara 1991）。异时分类是通过对个体发展的比较来实现的，这些比较用来区分不同增长的出现时机、增长时间的偏移量以及器官或生物学特性的增长率。换句话说，“预位移”和“延迟位移”这两个词分别对应了预测与延迟的形态增长的出现时机，“超期发展”和“初期发展”分别对应较迟和较早的增长时间偏移量，“加速成熟”和“幼态成熟”分别指更快和更慢的增长率。异时变化被用来解释在发展模型中先天与后天之间的复杂交互作用，在Elman等人（1996）的观点中，遗传因素在发展中的作用决定了控制后续学习过程的体系结构限制。这些限制可以解释大脑适应性和神经发展与成熟的结果。

个体发展和系统发展因素之间的交互是通过计算模型来进行研究的。例如，Hinton和Nowlan（1987）以及Nolfi、Parisi和Elman（1994）开发了仿真模型来解释进化过程中学习的作用，也就是鲍尔温作用。Cangelosi（1999）测试了在模拟机器人系统的神经网络架构进化过程中异时变化的作用。此外，为了应对系统发展和个体发展需求，对身体和大脑不同形态的进化建模也是“进化发展生物学”计算化实现方法的目标。这个目标就是为了在身体和大脑形态中，对发展与进化自适应的同步作用进行建模（如Stanley和Miikkulainen 2003；Kumar和Bentley 2003；Pfeifer和Bongard 2007）。发展型机器人模型通常是10基于机器人固定形态的，而且发展型机器人模型不能直接处理系统发展变化与个体发展形态学变化的同步建模问题。然而，多种后成机器人研究模型思考了学习和成熟的个体发展变化的进化起源，特别是对大脑形态学变化进行了研究。

1.3.3 涉身性、情境性和生成性的发展

越来越多的实验和理论证据出现在三个方面的研究中：身体在认知和智力中（涉身性）的基础性作用；身体与其外部环境之间的交互作用（情境性）；生物体世界模型通过感觉运动的交互之后的自主生成（生成性）。这种涉身性、情境性和生成性的观点强调这样一个事实：儿童的身体（或者是配备传感器和执行机构的机器人身体）及身体与环境的交互决定了表征、内部模型和学习到的认知策略的类型。Pfeifer和Scheier（1999）指出：“智能不能仅仅以抽象算法的形式存在，而是需要一个实际的载体，也就是身体。”

在心理学和认知科学中，涉身认知（也叫作扎根认知）的研究范畴包括对认知行为与神经涉身性基础的探索，特别是针对作为认知功能（如记忆和语言）基础的动作、感觉与情感作用的探索（Pecher和Zwaan 2005；Wilson 2002；Barsalou 2008）。在神经科学中，脑成像研究表明，像语言能力这些高阶功能需要共享与动作处理有关联的神经基质（Pulvermuller 2003）。这种情况符合与涉身性意识（Varela、Thompson和Rosch 1991；Lakoff和Johnson 1999）以及情境性和涉身性认知（Clark 1997）有关的哲学设想。

在机器人技术和人工智能中，涉身性与情境性认知也非常强调涉身性智能的实现方法（Pfeifer和Scheier 1999；Brooks 1990；Pfeifer和Bongard 2007；Pezzulo等人2011）。Ziemke（2001）和Wilson（2002）的研究工作分析了涉身性的不同观点，并提出了在计算模型和心理学实验中的一些思考。这些不同的观点涵盖广泛，从将涉身性考虑成身体与外部环境之间的“结构耦合”现象，到将涉身性考虑成更严格的“生物体”。这个观点是基于生命系统自我生成理论的，也就是说，认知实际上就是生命系统能够做什么来与其外部事件进行交互（Varela、Thompson和Rosch 1991）。依照相似的思想，生成性范式特别强调一些重要因素，这些因素是指：与外部环境交互的自主认识系统可以发展出它自己对外部事件的理解，能够生成自己对外部世界工作过程的理解的模式（Vernon 2010；Stewart、Gapenne和Di Paolo 2010）。

涉身性与情境性智能大大影响了发展型机器人学，并且几乎在所有发展模型中都体现了对机器人11身体（和大脑）与外部环境之间的关系的重视。涉身性关注纯粹的运动功能（形态计算），也关注高阶认知能力，如语言（扎根的）。形态计算（Bongard和Pfeifer 2007）是指生物体可以通过探索身体形态属性（如关节类型、四肢长度、被动/主动驱动器）以及与物理环境（如重力）交互的动力学来产生智能行为。最著名的例子之一是被动动态行走机器人，也就是没有任何动力装置的双足机器人可以走上斜坡，它不需要任何精确的控制，仅需要最少驱动力就可以开始动作（McGeer 1990；Collins等人2005）。形态计算的探索对优化机器人的能耗以及更多地使用可兼容驱动器和柔性机器人材料都有着重要意义（Pfeifer、Lungarella和Iida 2012）。

另一方面，高阶认知功能中的涉身性作用的例子，包括动作与知觉的词组扎根模型（Cangelosi 2010；Morse和Belpaeme等人2010，见7.3节），以及心理学与发展型机器人中空间表征和数值认知之间的关系（Rucinski、Cangelosi和Belpaeme 2011，见8.2节）。

1.3.4 内在动机和社交学习的本能

传统设计智能体的方法通常受到两种限制：第一，目的或目标（即评价系统）通常是由建立模块的人类设计者强加的，而不是由智能体本身决定的；第二，学习往往受到狭隘的限制去完成一个特定的、预定义的任务。针对这些局限性，发展型机器人探索了那些具有内在动机的智能体和机器人的设计方法。内在动机驱动的机器人自己决定要学习什么，自己决定想要达成什么样的目标，以完全自主的方式对环境进行探索。换句话说，内在动机能使智能体建立自己的评价系统。

内在动机的概念受到了在婴儿和儿童时代早期最先发展的多种行为和技能的启发，这些行为与技能包括对好奇、惊奇、新奇的探寻，以及使动作行为更精确的驱使力等多种现象。Oudeyer和Kaplan（2007）提出一个框架来指导内在动机模型的研究，该框架包括两大类：①基于知识的方法（细分为基于新奇性和基于预测两种方法），②基于能力的方法。在这个框架中，他们对大量的算法进行了定义和系统化比较。

基于新奇性的内在动机实现方法通常使用移动式的机器人，这种机器人通过探索和发现不寻常或意想不到的特征来学习它们所处的环境。检测新奇性比较有效的机制就是习惯化：12机器人通过把当前感觉状态与过去的经验相比较，而将其注意力转移到那些独特的或与以往经验不相符的情况上（如Neto和Nehmzow 2007）。

基于预测的内在动机实现方法要依赖于知识的积累，所以属于基于知识的内在动机的第二类型。因而，基于预测的模型可以显式地尝试预测世界的未来状态。一个简单的例子是机器人向桌子的边缘推动一个物体，并预测这个物体掉到地板上时会发出声响。这种方法的基本原则是不正确或不准确的预测可以被当作一种需要学习的信号，也就是说，那些不正确或不准确的预测表示机器人对当前事件了解甚少，还需要进一步分析和关注。作为这种方法的一个例子，Oudeyer等人（2005）描述了游乐场实验，在实验中，索尼AIBO机器人学习探测环境中的玩具并与其交互。

第三个内在动机的建模实现方法是基于能力的。根据这一观点，机器人是有目的地探索和开发那些能有效产生可靠结论的技能。基于能力的实现方法的一个关键因素是后效感知：这是检测一个人的行为何时对环境产生影响的能力。基于知识的实现方法是激励智能体去发现世界的属性，相比之下，基于能力的实现方法是激励智能体去探索它能对世界做什么。

儿童发展研究表明了社交学习能力（本能）的存在。比如新生儿刚出生就具有模仿他人行为的本能，并且还能够模仿复杂的面部表情（Meltzoff和Moore 1983）。此外，比较心理学研究已经证明，18～24个月大的儿童开始体现出无私的合作能力，而这种能力在黑猩猩中是观察不到的（Warneken、Chen和Tomasello 2006）。

正如我们将在第3章强调的，内在动机的发展直接影响婴儿如何感知他人并如何与他人互动。例如，婴幼儿能迅速明白自己环境中的其他人会偶尔回应他们的动作和声音。因此，婴儿可能是由内在动机驱使着去面对他人并与他人进行互动的。

第6章中所讨论的许多研究表明，发展型机器人特别强调社交学习的重要影响，该章还对许多具有联合注意力、模仿与合作能力的机器人模型进行了测试。

1.3.5 非线性、类似阶段化的发展

在有关儿童心理学的文献中，有很多研究工作提出了一系列发展阶段的理论和模型。每个发展阶段是根据特定行为和心理策略的获取方式来划分的，随着儿童历经这些阶段的发展，

13这些策略会变得更加复杂并且清晰。除了个体差异，这些发展阶段也与儿童的特定年龄阶段相对应。Piaget关于发展的四个阶段思想就是专门针对阶段化发展理论的典型例子（第8章）。现有的研究中也包含了许多其他基于阶段发展的案例，其中一些案例将在后面的章节中叙述，例如：Courage和Howe（2002）自我感知的时间刻度（第4章），Butterworth（1991）的联合注意力中的四个阶段，Leslie（1994）和Baron-Cohen（1995）的心智理论中的阶段（第6章），词汇与语法技能的顺序获取（第7章），以及数值认知和拒绝行为中的阶段（第8章）。

在大多数理论中，阶段间的过渡遵循非线性、定性的转变。在Piaget的发展四个阶段的案例中，每个阶段所采用的心智图式是存在定性区别的，因为那些心智模式是认知调整过程的产物，在调整过程中，需要为新知识的表征和操作而改变和适应图式。另一个著名的基于发展过程中定性变化的发展理论就是Karmiloff-Smith（1995）的表征重述模型。尽管Karmiloff-Smith明确避免使用在Piaget理论中出现的由年龄决定的阶段模型的定义，但是她的模型假定了从隐式表征的使用到不同程度显式知识表征策略的四个发展层次。当学习特定领域的新情况和新知识时，儿童发展出新的表征方法，这些表征能逐渐被重新描述，并逐渐增加孩子对世界的清晰理解。表征重述模型已经应用于物理、数学和语言等各种知识领域。

通过“U形”学习错误模式并结合词汇突增现象，人们对发展过程的非线性和在不同发展阶段儿童的心智策略与知识表示的定性转变都进行了广泛的探索。在儿童发展过程中，儿童在获得英语动词形态的过去时态能力时会产生很多模式错误，而U形现象典型案例的研究就是针对这些模式错误的。（倒）U形现象包含了初始学习中的低错误生成率，随之而来的是一个意想不到的错误率增长，在这之后又出现较好的表现和较低的错误生成率。在英语过去时态学习中，儿童在最初学习的时候仅产生很少的错误，比如他们能正确地说出高频不规则动词过去式，如“went”和正确的“ed” 规则动词的后缀形式。在稍后的过程中，儿童会经历一个“过度规律化”的阶段，并开始产生不规则动词的形态错误，如“goed”。但最终，儿童可以再次区分不规则动词过去时态的多种形态。心理学对这一现象进行了广泛研究，并且，这一现象还在基于规则的句法处理策略（Pinker和Prince 1988）的支持者和分布式表征策略的支持者之间引起了激烈辩论。其中，研究者使用了分布式表征的联结主义

14网络可以产生U形现象这一实验结果来支持分布式表征策略的方法（如Plunkett和Marchman 1996）。U形学习现象在其他领域也有报道，比如语音感知（Eimas等人1971；Sebastián-Gallés和Bosch 2009）、面部模仿（Fontaine 1984）以及Karmiloff-Smith（1995）用来解释由变化的表征策略引起的那些儿童行为和产生的错误。

出现在词汇获得过程中的词汇量突增现象是发展过程中非线性和定性改变的另一个例子。词汇量突增（也称为“命名爆炸”）发生在18～24个月大的时期，在这段时期中，儿童从每月仅能学会少量词组的缓慢词汇学习的初始模式，切换到到快速映射策略模式，即以每周几十个单词的速度进行快速学习（如Bloom 1973；Bates等人1979；Berk 2003）。词汇量突增通常发生在当儿童学会了大约50～100个单词的时期。在词组学习中的这种策略变化是由各种潜在的认知策略导致的，这些认知策略包括在词汇检索中对词组拆分或活用能力的掌握（Ganger和Brent 2004）。

许多发展型机器人研究的目标是在机器人发展过程中对阶段化的过程进行建模，并且有些研究直接将发展阶段中的非线性现象问题处理成学习动态过程的产物。比如Nagai等（2003）对由Butterworth（1991）提出的联合注意力阶段化进行显式建模。然而，这个模型显示：在这些阶段之间的定性变化是机器人神经与学习体系结构逐渐变化的结果，而不是为机器人注意策略专设的操作过程（见6.2节）。还有一些模型也直接对U形现象进行了建模，如Morse 等人（2011）的语音处理错误模式的模型。

1.3.6 在线开放式累积学习

人类发展的特点是在线的、多模态的、连续的、开放式的学习。在线学习指的是学习是发生在儿童与环境交互过程中的，而不是离线模式的。多模态指的是不同模式与认知域是在儿童与其他儿童交互过程中并行获得的。例如，在1.3.3节关于涉身性的讨论中，感觉运动与语言能力之间的相互作用就是一个很好的证明。连续和开放式指的是学习和发展不会在特定的阶段才开始和停止，而是形成终身式的学习。事实上，发展心理学这门学科就是构建在从出生到衰老整个生命周期的更广泛的心理学领域中的。

终生学习意味着儿童不断地积累知识，因此学习永远不会停止。正如前面内容所述，这种连续学习

15和知识的积累会导致认知策略的定性变化，如在语言词汇量突增现象中，以及在由Karmiloff-Smith实现的通过表征重述模型的从隐式到显性知识转变的理论。

开放式累积学习的结果之一就是认知引导。在发展心理学中，认知引导被广泛地应用于数值认知（Carey 2009；Piantadosi、Tenenbaum和Goodman 2012）。根据这一理念，儿童可以从学习过的概念（如数值量和计算方式）中获得知识和表征方式，然后归纳使用这些知识并以更高的效率来定义随后学习到的新的数字词汇的含义。同样的想法可以应用到词汇量突增现象，其中，在最初的50～100个单词的缓慢学习过程中所获得的知识和经验导致了单词学习策略的重新定义。此外，类似的想法也用于语法引导：通过语法引导，儿童可以使用动词学习过程中的句法线索和词组上下文关系来确定新的动词的含义（Gleitman 1990）。Gentner（2010）也提出通用的认知引导是通过对类比推理的使用和符号关系知识的获取来实现的。

在线学习已经广泛应用于发展型机器人系统中，并且下一章中出现的大多数研究都会对在线学习的实现进行演示。然而，导致认知引导现象的多模态、累积、开放式的学习应用却很少探及。大多数现有模型通常只关注单个任务或单个模态（感知、语音或语义等）的获取，很少考虑并行发展以及多模态与认知功能之间的交互。因此，真正的在线的、多模态的、累积的、开放式的发展型机器人建模方法的研究仍然是该领域的一个根本性挑战。

发展型机器人模型和实验的各种案例综述将展示上述那些原则如何指导认知结构的设计，并说明发展型机器人的实验设置。