您现在的位置是:首页 >人工智能 > 2021-04-23 23:12:16 来源:

用现实世界的机器人进行深度强化学习

导读 我们宣布发布我们最先进的非政策模型免费强化学习算法,软扮演评论家(SAC)。该算法是在加州大学伯克利分校和谷歌大脑联合开发的,我们一直

我们宣布发布我们最先进的非政策模型免费强化学习算法,软扮演评论家(SAC)。该算法是在加州大学伯克利分校和谷歌大脑联合开发的,我们一直在内部使用它进行机器人实验。据我们所知,软演员评论家是当今最有效的无模型算法之一,使其特别适合现实世界的机器人学习。在这篇文章中,我们将针对最先进的无模型RL算法对SAC进行基准测试,并展示一系列真实世界的机器人示例,从操作到运动。我们还发布了SAC的实施,这是专门为现实世界的机器人系统设计的。

真实机器人深度RL的理想特性

是什么使得真实世界系统的理想深度RL算法?真实世界的实验带来了额外的挑战,例如数据流中的持续中断,对低延迟推理的要求以及平滑探索以避免机器人的机械磨损,这对算法和实施都提出了额外的要求。算法。

关于算法,需要几个属性:

样本效率。现实世界中的学习技能可能需要相当长的时间。原型设计新任务需要多次试验,学习新技能所需的总时间很快就会增加。因此,良好的样本复杂性是成功获得技能的第一个先决条件。

没有敏感的超参数。在现实世界中,我们希望避免参数调整,原因很明显。最大熵RL提供了一个强大的框架,可以最大限度地减少对超参数调整的需求。

非政策学习。如果我们可以重用为另一个任务收集的数据,则算法是非策略的。在典型情况下,我们需要在对新任务进行原型设计时调整参数并确定奖励功能,并且使用非策略算法允许重用已经收集的数据。

下面描述的软扮演者评论家(SAC)是一种非政策性的无模型深度RL算法,它与这些要求完全一致。特别是,我们展示了它的样本效率足以在几个小时内解决现实世界的机器人任务,对超参数具有鲁棒性,并且可以在具有单组超参数的各种模拟环境中工作。

除了所需的算法属性之外,现实世界中的实验还为实现设置了额外的要求。我们的版本支持许多这些功能,我们发现这对于使用真实机器人学习至关重要,也许最重要的是:

异步采样。推理需要快速以最小化控制环路中的延迟,并且我们通常希望在环境重置期间继续训练。因此,数据采样和培训应该在独立的线程或进程中运行。

停止/恢复训练。使用真正的硬件时,无论出现什么问题,都会出错。我们应该期望数据流中断。

动作平滑。典型的高斯探测使得执行器在高频下抖动,可能会损坏硬件。因此,在时间上相关的探索是重要的。

软性演员 - 评论家

软作家评论家是基于最大熵强化学习框架,它考虑了熵增强目标

Ĵ(π)= E.π[ ΣŤr (sŤ,aŤ)- α 日志(π(aŤ| 小号Ť)) ],

其中和是状态和动作,期望策略和系统的真实动态。换句话说,最优政策不仅最大化了预期收益(第一个加权),而且最大化了自身的预期熵(第二个加权)。两者之间的权衡取决于非负温度参数,我们总是可以通过设置来恢复传统的最大预期回报目标。在技术报告中,我们表明我们可以将此目标视为预期收益的熵约束最大化,并自动学习温度参数,而不是将其视为超参数。小号Ť一个Ťαα = 0

这个目标可以用几种方式解释。我们可以将熵项视为政策之前的无信息(统一)先验,但我们也可以将其视为规范者或尝试在探索(最大化熵)和利用(最大化回报)之间进行权衡。在我们之前的文章中,我们提供了更广泛的概述和提出的最大熵RL独有的应用程序,并在最近的教程中讨论了目标的概率视图。软作家评论家通过使用神经网络参数化高斯策略和Q函数来最大化该目标,并使用近似动态编程来优化它们。我们将软性演员评论家的进一步细节推迟到技术报告中。在这篇文章中,我们将目标看作是一种基础方法,可以获得更好的强化学习算法,这些算法具有一致性并且样本效率足以适用于真实世界的机器人应用程序,并且 - 或许令人惊讶地 - 可以产生这样的状态。在模拟基准测试中,常规,最大预期回报目标(无熵正则化)下的艺术表现。

模拟基准

在我们进入实际实验之前,我们将标准基准任务上的SAC与其他流行的深度RL算法,深度确定性策略梯度(DDPG),双延迟深度确定性策略梯度(TD3)和近端策略优化(PPO)进行比较。下图比较了来自OpenAI Gym的三个具有挑战性的运动任务的算法,HalfCheetah,Ant和Humanoid。实线表示总平均回报,阴影对应于五个随机种子的最佳和最差试验。实际上,以蓝色显示的柔和的演员评论家可以获得最佳性能,而且对于真实世界的应用程序来说更重要 - 它在最坏的情况下也表现良好。我们在技术报告中包含了更多基准测试结果。

真实世界中的深度RL

我们通过从头开始解决三个任务而不依赖于模拟或演示来测试现实世界中的软扮演者 - 评论家。我们的第一个实际任务涉及Minitaur机器人,一个带有八个直接驱动执行器的小型四足动物。动作空间由摆动角度和每个支腿的延伸部分组成,然后将其映射到所需的电动机位置并用PD控制器跟踪。观察结果包括电机角度以及基座的侧倾角和俯仰角以及角速度。这项学习任务为现实强化学习提出了重大挑战。机器人是欠驱动的,因此必须精确地平衡腿上的接触力以促进前进。未经训练的政策可能失去平衡和摔倒,太多的跌落最终会损坏机器人,从根本上提高样本效率。下面的视频说明了学到的技能。虽然我们仅在平坦地形上训练我们的政策,但我们在不同的地形和障碍物上进行了测试。由于软性演员 - 评论家学习强有力的政策,由于培训时的熵最大化,政策可以很容易地推广到这些扰动,而无需任何额外的学习。

Minitaur机器人(Google Brain,Tuomas Haarnoja,Sehoon Ha,Jie Tan和Sergey Levine)。

我们的第二个真实世界的机器人任务涉及训练一个3指灵巧的机器人手来操纵一个物体。这只手是基于Dynamixel Claw手,在另一篇文章中讨论过。这手牌有9个DoF,每个都由一个Dynamixel伺服电机控制。该策略通过发送车载PID控制器的目标关节角度位置来控制手。操作任务需要手旋转“阀门” - 类似对象,如下面的动画所示。为了感知阀门,机器人必须使用右下方插图中显示的原始RGB图像。机器人必须旋转阀门,使彩色挂钩朝右(见下面的视频)。对于每一集,阀门的初始位置被随机均匀地重置,迫使策略学习使用原始RGB图像来感知当前的阀门方向。阀门上连接有一个小型电动机,可自动复位,并为确定奖励功能提供地面真实位置。该电机的位置未提供给该政策。

用灵巧的手旋转阀门,直接从原始像素(加州大学伯克利分校,Kristian Hartikainen,Vikash Kumar,Henry Zhu,Abhishek Gupta,Tuomas Haarnoja和Sergey Levine)学习。

在最后的任务中,我们训练了一个7-DoF Sawyer机器人来堆叠乐高积木。该策略接收关节位置和速度,以及作为输入的末端效应器力,并将扭矩命令输出到七个关节中的每一个。最大的挑战是在施加向下的力之前准确地对准螺柱以克服它们之间的摩擦。

与Sawyer(加州大学伯克利分校,Aurick Zhou,Tuomas Haarnoja和Sergey Levine)叠加乐高积木。

柔软的演员 - 评论家迅速解决了所有这些任务:Minitaur运动和砌块堆叠任务都需要2个小时,而来自图像观察的阀门旋转任务需要20个小时。我们还通过提供实际阀门位置作为对策略的观察,学习了没有图像的阀门旋转任务的策略。柔软的演员评论家可以在3小时内学习这个更简单的阀门任务版本。为了进行比较,之前的工作使用PPO在7.4小时内学习了没有图像的相同任务。

结论

柔软的演员 - 评论家是向现实世界机器人迈向可行的深度RL的一步。仍然需要完成将这些方法扩展到更具挑战性的任务的工作,但我们相信我们正在接近关键点,即深度RL可以成为机器人任务的实用解决方案。同时,您可以将机器人连接到我们的工具箱并开始学习!