基于视觉模型的强化学习作为通用机器人的途径

2021-04-23 16:59:56 来源：用户：

只需很少的明确监督和反馈，人类就可以通过简单地通过感官与世界互动并观察世界来学习各种运动技能。虽然在构建能够学习复杂技能并基于图像像素等原始感官信息学习的机器方面取得了重大进展，但获得大量且多样化的一般技能仍然是一个开放的挑战。我们的目标是建立一个通才：一个可以执行许多不同任务的机器人，比如安排物品，拿起玩具和折叠毛巾，并且可以在现实世界中使用许多不同的物体来完成，而无需为每个物体或任务重新学习。

虽然这些基本运动技能比掌握国际象棋甚至使用刮刀更简单，更不令人印象深刻，但我们认为能够通过单一模型实现这种通用性是智能的一个基本方面。

获得普遍性的关键是多样性。如果您在狭窄的封闭世界环境中部署学习算法，则代理将恢复仅在较窄范围的设置中成功的技能。这就是为什么训练出来玩Breakout的算法会在图像或游戏的任何变化时发生变化。实际上，图像分类器的成功依赖于像ImageNet这样的大型，多样化的数据集。然而，让机器人自主地从大型和多样化的数据集中学习是非常具有挑战性的。虽然收集各种感官数据相对简单，但是对于一个人来说注释所有机器人的体验是不切实际的。收集完全无标签的体验更具可扩展性。然后，只给出感官数据，类似于人类所拥有的，你能学到什么?对于原始的感官数据，没有进步，奖励或成功的概念。不像Breakout这样的游戏，

我们开发了一种算法，可以使用未标记的感官体验学习通用预测模型，然后使用这个单一模型执行各种任务。

在这篇文章中，我们将描述它是如何工作的。我们将讨论如何仅基于原始感官交互数据(即图像像素，无需物体检测器或手工设计的感知组件)来学习。我们将展示如何使用学到的东西来完成许多不同的用户指定任务。并且，我们将演示这种方法如何从原始像素控制真实机器人，执行任务以及与机器人以前从未见过的对象进行交互。

学会从无监督的互动中预测

我们首先需要一种收集各种数据的方法。如果我们训练机器人用单个物体实例执行单一技能，即使用特定的锤子击中特定的钉子，那么它将只学习那个狭窄的设置; 特别的锤子和钉子是它的整个宇宙。我们如何建造能够学习更多通用技能的机器人?我们可以让机器人在不同的环境中学习，而不是在狭窄的环境中学习单个任务，类似于孩子玩耍和探索。

如果一个机器人可以自己收集数据并完全自主地学习这种经验，那么它不需要一个人监督，因此可以在一天中的任何时间收集经验并了解世界，甚至一夜之间!此外，多个机器人可以同时收集数据并分享他们的经验 - 数据收集是可扩展的，因此可以收集具有许多对象和动作的各种数据。为了实现这一点，我们有两个机器人通过随机采取各种对象，包括玩具和杯子等刚性物体，以及布和毛巾等可变形物体，并行收集数据：

在数据收集过程中，我们观察机器人的传感器测量的内容：图像像素(视觉)，手臂的位置(本体感受)以及发送到机器人的动作命令(动作)。我们无法直接测量物体的位置，它们对被推动的反应，速度等。此外，在这些数据中，没有进步或成功的概念。与Breakout游戏或敲钉子游戏不同，我们不会获得分数或目标。在现实世界中进行交互时，我们必须学习的是我们的感官提供的东西，或者在这种情况下，机器人的传感器。

那么，只有给予我们的感官，我们才能学到什么?我们可以学习预测 - 如果机器人以一种方式移动其手臂而不是另一种方式，世界将会是什么样子或感觉?

预测允许我们学习关于世界的一般事物，例如物体和物理。而这样的通用知识正是突破游戏代理所缺失的。预测还允许我们从我们拥有的所有数据中学习：动作和图像流有很多隐含的监督。这很重要，因为我们没有得分或奖励功能。无模型强化学习系统通常仅从奖励函数提供的监督中学习，而基于模型的RL代理利用他们观察到的像素中可用的丰富信息。现在，我们如何实际使用这些预测?我们接下来会讨论这个。

计划执行人为指定的任务

如果我们有一个世界的预测模型，那么我们可以用它来计划实现目标。也就是说，如果我们了解行为的后果，那么我们就可以利用这种理解来选择导致预期结果的行动。我们使用基于抽样的程序来计划。特别地，我们对许多不同的候选动作序列进行抽样，然后选择最顶层的计划 - 最有可能导致期望结果的行动 - 并通过从适合顶级候选动作序列的动作分布重新采样来迭代地改进我们的计划。一旦我们提出了我们喜欢的计划，我们就会在现实世界中执行我们计划的第一步，观察下一张图像，然后在发生意外情况时进行重新计划。

现在一个自然的问题是 - 用户如何为机器人指定目标或期望的结果?我们已经尝试了许多不同的方法来实现这一目标。我们发现的最简单的机制之一是简单地点击初始图像中的像素，并通过单击另一个像素位置来指定应该移动与该像素对应的对象的位置。我们还可以给出一对以上的像素来指定其他所需的对象运动。虽然有些目标无法以这种方式表达(我们已经探索了更多通用的目标规范，例如目标分类器)，但我们发现指定像素位置可用于描述各种各样的任务并且非常容易提供。需要说明的是，在数据收集过程中不使用这些用户提供的目标规范，

实验

我们在Sawyer机器人上尝试了这种整体方法，收集了2周的无人监督经验。重要的是，训练期间唯一的人类参与是为机器人提供各种各样的物体(周期性地交换物体)和编码用于收集数据的随机机器人运动。这使我们能够以极少的努力每天24小时收集多个机器人的数据。我们在所有这些数据上训练单个动作条件视频预测模型，包括两个摄像机视点，并使用前面描述的迭代规划程序来规划和执行用户指定的任务。

由于我们着手实现通用性，我们在涉及机器人以前从未见过的对象和机器人以前没有遇到的目标的各种任务上评估相同的预测模型。