Li Z , Liu J , Huang Z , et al. Adaptive Impedance Control of Human-Robot Cooperation Using Reinforcement Learning[J]. IEEE Transactions on Industrial Electronics, 2017:1-10.

This paper presents human–robot cooperation with adaptive behavior of the robot, which helps the human operator to perform the cooperative task and optimizes its performance. A novel adaptive impedance control is proposed for the robotic manipulator, whose end-effector's motions are constrained by human arm motion limits. In order to minimized motion tracking errors and acquire an optimal impedance mode of human arms, the linear quadratic regulation (LQR) is formulated; then, integral reinforcement learning (IRL) has been proposed to solve the given LQR with little information of the human arm model. Considering human–robot interaction force during the robot performing manipulation, a novel barrier-Lyapunov-function-based adaptive impedance control incorporating adaptive parameter learning is developed for physical limits, transient perturbations, and time-varying dynamics. Experimental results validate that the proposed controller is effective in assisting the operator to perform the human–robot cooperative task.

本文提出了具有自适应行为的人机协作,这有助于操作员执行协作任务并优化其性能。 针对机器人机械手提出了一种新型的自适应阻抗控制,其末端执行器的运动受到人体手臂运动极限的限制。 为了最小化运动跟踪误差并获得最佳的人体阻抗模式,制定了线性二次调节(LQR)。 然后,提出了整体强化学习(IRL)来解决给定的LQR,而几乎没有人手臂模型的信息。 考虑到机器人在执行操作过程中的人机交互作用,针对物理极限,瞬态扰动和时变动力学,开发了一种新型的基于屏障-李雅普诺夫函数的自适应阻抗控制,并结合了自适应参数学习。 实验结果证明,所提出的控制器可以有效地协助操作员执行人机协作任务。

introduction

如今,已经创建了各种各样的机器人来帮助人类。 为了实现此设计目标,机器人必须与外部环境进行交互。 根据任务的要求,机器人可以与包括人类在内的多种对象进行交互,它不仅应能控制位置,而且还应能控制交互作用力。 由于人类的本性极为复杂,因此大量的研究致力于理解,设计和评估用于人机交互的机器人系统。 研究了阻抗参数的调整,其中考虑了系统稳定性[I],控制转矩[2],最小化性能指标3和人为估计[8]。但是,上述方法忽略了个体差异。 然后,在[4]-[6]中提出了一种称为人类自适应机电一体化的方法,该方法通过基于估计的人体动力学来调节机器人的阻抗系数来考虑个体差异。 文献[7] [8]已经完成了对人体手臂动力学参数的识别。 可以调整阻抗参数以确保系统稳定性。 应该注意的是,稳定性是受控系统的必要条件,例如在[10]和[11]中,作者基于估计人的手臂阻抗参数来调整阻抗。 但是,应优先调整这些阻抗参数以实现系统的最佳性能。

在本文中,我们提出了具有机器人自适应行为的人机协作,这有助于人机执行协作任务并优化其性能。考虑到人机,我们提出了人机协作中的两个控制环, 内部控制回路是一个面向机器人的回路,可以处理未知的动力学或人类手臂感知到的规定的机器人阻抗模式。对于外部回路,它是一个面向任务的回路,旨在优化阻抗模型的参数 ,它被公式化为线性二次调节器(LQR),并采用强化学习(RL)来找到给定的LQR的优化参数,而该模型的人手模型信息很少。因此,该工作认为机器人末端执行器仍位于任务空间,受人类手臂的物理限制。 考虑到屏障李雅普诺夫函数(BLF),以将对机器人末端执行器的约束保持在物理限制内,结合自适应参数学习的新型基于BLF的自适应阻抗控制是开发用于物理极限,瞬态扰动和时变动力学。 实验结果验证了所提出的控制器能够有效地协助操作员执行人机协作任务

overview of human-robot cooperation

human-robot cooperation

在人机合作中,与人互动的机器人能够通过适应自身的行为,适应人的行为并获得人的意图并弥补人为的错误(可能由于疲倦,压力等)来辅助人。 在[12]中,设计了一种基于频域稳定性观察器的方法来检测不稳定行为,并通过使用对人机交互的控制增益进行在线调整来稳定机器人。[13]中,低阻抗机制特别提出了由被动关节组成的人机合作,并且实验证明有效阻抗大大降低了。为了在训练期间提高人机合作,提出了一种基于阻抗的交互式训练范式 轻巧的脚踝机器人。 在[15]中,已经提出了一种用于处理大负载的辅助机器人设备,该设备基于最小化的惯性,平行的电缆/皮带布线系统以及可变的静态平衡。 在16中,已经提出了通过蓝牙接口来控制上肢机械臂的脑电图仪。 在17中,为了识别患者的运动意图,利用了外骨骼腿关节位置和扭矩传感器的信息,并对腿的动力学建模和识别进行了研究。

在以上工作中,机器人可以在力量,精度甚至安全性方面增强人机系统的性能。 例如,熟练的操作员可以容易地以较小的阻尼系数处理高速运动。 因此,期望机器人能够调节阻尼系数,使得系统的响应类似于人。 因此,对于开发这样的人-机器人系统,一个重要的问题是如何设计用于人-辅助机器人系统的自适应控制,从而可以为人提供更好的性能和很少的人和机器人知识的安全和协助。

为了开发这种优化的人机协作辅助系统,我们提出了一种控制结构,该结构将面向机器人的控制和面向任务的控制进行了划分,其中面向任务的环路包括任务信息,以及针对人类操作者的优化的阻抗模型。 而面向机器人的控件则处理未知的动力学,从而使机器人的行为像阻抗模型一样。

developed system of human-robot cooperation

在这里,人与机器人合作的发展是受文献8和9中human-in-loop的启发。 首先,使用计算出的转矩控制器来消除对人类的需求并学习面向机器人的模型。 第二,施加辅助输入以放大人类的力,以使人类以最佳的性能和最小的努力来完成规定的任务。

为了实现这些目标,我们设计了一个具有双环的控制结构,如图1所示。 内部是面向机器人的内部循环,不需要任何已执行任务的知识。 外部是一个面向任务的循环,其中包含人和机器人的动态以及任务信息。 内部的设计是让未知的机器人表现得像人类感知到的所需阻抗模型,因此,人类与阻抗模型进行交互不需要在内圈中追踪轨迹,从而可以自由组合外环中的任务信息

考虑到面向机器人的内环设计,我们可以获得从面向任务的外环中学习的阻抗模型,这可以使跟踪误差最小化,并帮助人们以最小的力完成任务。必须考虑未知的人类动力,并且人机协作系统的预期性能取决于任务。

c6a97bfb-0617-eb11-8da9-e4434bdf6706.png

robot-oriented control design

图1演示了双回路设计的内部。控制的目的是使机器人的行为与指定的阻抗模型相匹配。 与现有的自适应阻抗控制方法相比,设计的内环控制存在两个主要差异。 首先,与传统的轨迹跟踪控件相比,设计的控件不需要所需的轨迹。即,通过设计的控制,可以使阻抗模型的输出与机器人的运动之间的模型匹配误差最小,而无需任何任务信息。 第二,在设计控件中,采用的控制转矩几乎不需要机器人阻抗模型的信息,这使我们能够将机器人控制设计与任务导向控制设计脱钩。

考虑关节坐标q,人机协作的动力学可以认为是

c9a97bfb-0617-eb11-8da9-e4434bdf6706.png

其中M是对称惯性矩阵,C是科里奥利力和向心力的矢量,G是重力转矩的矢量,tau是控制输入矢量,fh是 在人的输入力,其增益为Kh。在动力学(1)中,我们假设安装在末端执行器上的力传感器用于测量人的力,该力在被施加到机器人之前会被增益Kh放大。

机器人阻抗模型可以表示为

caa97bfb-0617-eb11-8da9-e4434bdf6706.png

其中,所需阻抗模型的输出用

表示,所需惯性,阻尼和刚度参数矩阵用
表示。 辅助输入
是与轨迹相关的输入,稍后将定义。让我们将滑模信号定义为

cca97bfb-0617-eb11-8da9-e4434bdf6706.png

具有恒定参数AI和A2。 然后,可以将控制转矩设计为

cea97bfb-0617-eb11-8da9-e4434bdf6706.png

然后,容易获得参考信号以指示动态回归

cfa97bfb-0617-eb11-8da9-e4434bdf6706.png

d1a97bfb-0617-eb11-8da9-e4434bdf6706.png

在(23)中,由于V(0)是有界的,所以

成立; 我们得到
,即
。因此,r和
都是有界的; 由于初始误差满足
,所以V(0)是有界的,因此,V是有界的,这意味着r和c都是有界的。首先我们假设存在一些t = T,使得
增长到它们各自的约束
。然后我们得到V由r(T)上升到无穷大。但是,我们知道(22)证明v是有界的。根据矛盾,我们得到约束
对于任何大于0的t成立。由于整个Lyapunov函数V有界,所以闭环系统中的所有信号,即r和
有界

task-oriented adaptive impedance control

在本节中,为了最大程度地减少帮助操作员完成给定任务并跟踪错误的工作,需要优化规定的机器人阻抗模型(2)中的参数。 在不计算辅助机器人阻抗模型的参数的情况下,我们首先使用优化参数来制定LQR,然后使用RL获得这些优化参数。 另一方面,为了最大程度地减少人工控制力fh并根据任务优化跟踪性能,通过使用面向任务的控制器,我们需要获得规定阻抗参数

, 操作员增益Kh(如果Kh = 1,则为
),以及辅助输入
.

task-oriented outer-loop control

首先,通过求解代数Riccati方程(ARE),可以更容易地获得这些参数,从而用B,K和Kh的最优值来公式化LQR问题。

定义跟踪误差为:

d2a97bfb-0617-eb11-8da9-e4434bdf6706.png

其中

已经证实,人类动力学具有简单的线性传递特征,因此,我们选择人胳膊的阻抗模型为

d3a97bfb-0617-eb11-8da9-e4434bdf6706.png

增益Kd,Kp和ke未知,这些增益因人而异,具体取决于特定任务。 很容易将(29)重写为

d5a97bfb-0617-eb11-8da9-e4434bdf6706.png

d8a97bfb-0617-eb11-8da9-e4434bdf6706.png

daa97bfb-0617-eb11-8da9-e4434bdf6706.png

dba97bfb-0617-eb11-8da9-e4434bdf6706.png

dca97bfb-0617-eb11-8da9-e4434bdf6706.png

e0a97bfb-0617-eb11-8da9-e4434bdf6706.png

从上面的方程式中,我们可以看到向量K包括针对机器人和人类手臂的阻抗模型参数Ka和Kh。 因此,所提出的LQR问题的解决方案可以给出机器人和人手臂力的最佳阻抗值

定理2:考虑由(42)描述的动力学。 给定加权矩阵Q = Q'> 0,R = R'> O,如果存在满足ARE(45)的对称正定矩阵P = P'> 0,则反馈控制

保证所有变量 闭环系统有界并获得跟踪性能定理2的证明可以在附录B中找到.

Optimal Parameter Using integral Reinforcement Learning

考虑到线性系统的最优控制问题,在不需要任何系统动力学知识的情况下,已经提出了各种无模型的RL方案。从(45)可以看出,解决方案需要矩阵A和人类的手臂模型; 但是,不可能事先获取这些信息。 因此,在本文中,通过迭代策略迭代算法(其中有两个迭代步骤),借用了非策略整体强化学习(IRL)算法[12] 来找到给定LQR问题的解决方案。 包括:I)策略评估; 2)策略的完善。 第一步,使用IRL Bellman方程来计算与固定策略相关的值函数,该函数不涉及机器人的动力学。第二步,使用在策略评估步骤中获得的值来改进策略

本文使用了[12],[20]和[21]中提出的IRL Bellman方程。 它仅需要系统状态的测量结果提供的信息以及效用函数在有限的强化间隔中的积分即可评估控制策略。 通常,对于给定的LQR问题,IRL Bellman方程包括探测噪声,即

e2a97bfb-0617-eb11-8da9-e4434bdf6706.png

IRL Bellman方程表达为

e3a97bfb-0617-eb11-8da9-e4434bdf6706.png

需要注意的是,(49)显式包含探测噪声,这被称为离线贝尔曼方程。 因此,我们提出以下基于IRL的算法

online implementation

为了计算与策略Ki相关的成本函数的优化参数(矩阵Pi),我们可以将

改写为

e5a97bfb-0617-eb11-8da9-e4434bdf6706.png

e6a97bfb-0617-eb11-8da9-e4434bdf6706.png

e7a97bfb-0617-eb11-8da9-e4434bdf6706.png

e8a97bfb-0617-eb11-8da9-e4434bdf6706.png

eaa97bfb-0617-eb11-8da9-e4434bdf6706.png

eba97bfb-0617-eb11-8da9-e4434bdf6706.png

eca97bfb-0617-eb11-8da9-e4434bdf6706.png

experimental results

通过使用开发的机器人外骨骼进行实验以验证建议的人机协作阻抗控制。 图3演示了人体与机器​​人交互操作的人体机器人实验。根据人体上肢的运动学结构开发设计的外骨骼,并跨越肩关节和肘关节。 该关节配备了Maxon DC脂肪无刷电机EC45和用于机器人系统的谐波传动装置。 电机驱动器来自elmo SOLWHI5 / 60E0I。 控制系统运动的采样频率设置为122 Hz(每个回路8.2 ms)。 选择年龄在24至25岁之间的三名受试者(三名男性)参加我们的实验。 他们都不了解人机协作控制。 受试者事先收到了对实验的解释。 在此实验中,三名受试者与机器人外骨骼合作。

eda97bfb-0617-eb11-8da9-e4434bdf6706.png

图4到14示出了三个对象的实验结果。 图4到6示出了在面向任务的回路中规定的阻抗控制的轨迹与所需轨迹的关系。 图7到9示出了机器人的轨迹与期望轨迹的关系。 从这些图中,我们可以看到,在实验开始时,实际轨迹不能完美地跟踪所需的轨迹。 但是,在学习最佳阻抗模型之后。 人机协作可以完美完成,实际轨迹几乎没有偏差地跟踪所需轨迹。 输入控制转矩信号如图10所示。

根据这些图,可以看出,首先使用一组非最优参数来初始化所需的阻抗模型,此时系统的性能是不可接受的。但是,在人与机器人之间的短暂协作之后,面向任务的控制器可以学习所需阻抗模型的最佳参数; 因此,人机交互系统成功地跟踪了所需的轨迹。 人与人之间相互作用力的变化如图12到14所示。 可以看出,随着学习机制的生效,交互作用力减小,并且面向任务的控制器可以确定阻抗模型的最佳阻抗参数。

最后,我们针对课题3进行了对比实验。 在比较中,我们考虑了没有RL技术的自适应阻抗控制。 预先选择阻抗模型中的参数M,B,K和Kh。 预先选择阻抗模型中的参数M = 1.0,B = 6.91,K = 10.99和Kh = 0.03。 比较实验结果示于图 9和14; 显然,控制性能比使用IRL提出的自适应控制要差。 此外,我们已经表明在不违反约束的情况下实现了轨迹跟踪,并且在对初始位置误差的要求下,所有闭环信号均保持有界

eea97bfb-0617-eb11-8da9-e4434bdf6706.png

efa97bfb-0617-eb11-8da9-e4434bdf6706.png

f2a97bfb-0617-eb11-8da9-e4434bdf6706.png

f4a97bfb-0617-eb11-8da9-e4434bdf6706.png

conclusion

在本文中,我们提出了具有适应性机器人行为的人机协作,该协作可完成人机协作任务并优化其性能。 作品的新颖性可以总结如下

  1. 设计了一种双环控制框架来实现人机协作,包括面向机器人的控制和面向任务的控制
  2. 在面向任务的控制中,制定了LQR以建立单个手臂的最佳仿真模型
  3. 在面向机器人的控制中,考虑位置约束,针对机器人外骨骼提出了一种基于BLF的自适应阻抗控制方法。,这样就永远不会越过定义的约束区域

与以前的机器人控制方法相比,所提出的面向机器人的回路忽略了任务知识或规定的阻抗参数,从而将面向机器人的控制设计与面向任务的控制区分开了。在面向任务的回路中进行设计时,提出通RL识别的阻抗参数,以估计规定阻抗参数的最佳参数,这些参数在不同的任务和交互力下会改变,可以帮助人类以更少的精力和最佳的性能完成任务。 最后,进行了广泛的实验以验证所提出的控件在人机协作任务中的有效性。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐