您现在的位置是:首页 >人工智能 > 2022-05-16 15:48:28 来源:

为现实世界训练更智能的机器人

导读 2021 年秋天,数十名计算机科学家将他们最好的作品提交给了由神经信息处理系统会议 (NeurIPS) 主办的 AI 机器人挑战赛,这是一项面向

2021 年秋天,数十名计算机科学家将他们最好的作品提交给了由神经信息处理系统会议 (NeurIPS) 主办的 AI 机器人挑战赛,这是一项面向杰出研究人员的年度机器学习活动。参与者花了几个月的时间准备他们的代理人,以便在 Minecraft 虚拟世界中的四项“几乎栩栩如生”的任务上胜过竞争对手:

为了模仿现实世界情况的复杂性,组织者要求比赛中的每个代理通过观看人类演示来学习任务,而不使用通常会强化所需机器人行为的奖励。与之前的比赛规则相比,这是一个重大变化,这意味着大多数团队将不得不应对更慢、更复杂的机器人训练过程。

对于 在截止日期前几周作为黑曜石队参加比赛的Divyansh Garg和 Edmund Mills 来说,这项要求提供了一个大放异彩的机会。与其他团队相比,他们用更少的时间和更少的资源登上了排行榜的榜首,并在模仿学习类别中排名第一(指定为与环境交互以学习奖励或政策的代理)。令他们惊讶的是,黑曜石团队也获得了第二名——这是一项值得注意的成就,因为他们的代理在玩游戏时没有使用人工反馈来提高其性能,而他们的许多竞争对手却这样做了。

黑曜石团队取得显著成功的关键是一种突破性的模仿学习方法,称为 IQ-Learn。在正式称为 MineRL 解决几乎逼真任务 (BASALT) 挑战的代理的比赛前几个月,Garg 与 计算机科学系副教授Stefano Ermon合作开发了这种新方法在斯坦福。 IQ-Learn 已经可以比人类专家更好地玩经典的 Atari 游戏。它正迅速成为训练在动态环境中工作的 AI 代理的最先进技术。

对深度学习的热情

今天的工业机器人非常擅长通过称为行为克隆的过程来学习重复精确的任务。但是当机器以前没有遇到过的环境发生变化时,它就无法即时调整。错误加剧,机器永远无法恢复。如果我们期望有一天人工智能智能体能够驾驶汽车、洗碗或洗衣服,和人类一样或更好,我们需要不同的方式来教它们。

作为斯坦福大学计算机科学专业的学生,​​在机器人学习和生成建模方面拥有丰富经验,Garg 认识到智能机器的下一个前沿将涉及构建能够学习在不断变化的环境中完成复杂任务的多功能代理。

“人类可以在一小时内学会的东西,机器人需要 10 年,”他说。“我想设计一种算法,可以像人类一样有效地学习和转移行为。”

模仿专家

在 Apple 与机器学习研究员 Ian Goodfellow 实习期间,Garg 逐渐了解了几个关键概念,这些概念为科学家们如何训练更智能的代理提供了依据:

强化学习(RL) 方法使代理能够与环境进行交互,但研究人员必须包含一个奖励信号,让机器人学习策略或期望的动作。

RL 的一个子领域称为 Q Learning ,它允许代理从已知奖励开始,然后学习深度学习社区所谓的基于能量的模型或 Q 函数。借用统计物理学领域,Q 函数可以在小数据集中找到关系,然后推广到遵循相同模式的更大数据集。通过这种方式,Q 函数可以代表机器人遵循的预期策略。

一种称为 模仿学习的相关方法 很有希望,因为它使代理能够通过观看专家(人类)执行任务的视觉演示来学习策略。

在过去的五年中,逆强化学习 一直被认为是最先进的,因为从理论上讲,它使模仿学习更进了一步。在这种情况下,代理的目标不是尝试学习策略,而是找出解释人类示例的奖励。这里的问题是逆强化学习需要一个对抗性强化过程——这意味着模型必须在数学上解决两个未知变量:奖励和策略。根据 Garg 的说法,这个过程很难稳定,并且不能很好地扩展到更复杂的情况。

以这些概念为背景,Garg 开始思考如何通过更简单的模仿学习方法获得更好的结果。一个烦人的问题让他彻夜难眠:“如果你可以只求解一个未知变量而不是两个呢?” 他推断,如果奖励和政策这两个变量可以用一个隐藏的 Q 函数来表示,并且如果代理通过观看人类演示来学习这个 Q 函数,它就可以避免对有问题的对抗性训练的需求。

Garg 用他的寒假研究了一种算法并对其进行编码。当它第一次奏效时,他感到很惊讶。经过一个月的开发,该算法在简单任务上击败了所有其他现有方法,并且被证明非常稳定。

他回忆说,“Ermon 教授看着结果说,‘这很好,但为什么会奏效?’ 我们不知道任何可以解释它的理论,所以我接受了挑战,编写了一个可以证明算法是最优的数学框架。”

专家级性能

快进到 2021 年夏天,这种新的逆软 Q 学习方法(简称 IQ-Learn)的性能比以前的人类学习方法好 3 到 7 倍。Garg 和他的合作者首先用几个基于控制的视频游戏(Acrobot、CartPole 和 LunarLander)测试了代理的能力。在每场比赛中,代理都比任何其他方法更快地达到专家级表现。

接下来,他们在几款经典的 Atari 游戏(Pong、Breakout 和 Space Invaders)上测试了该模型,发现他们的创新在更复杂的游戏环境中也能很好地扩展。Garg 回忆说:“我们比以前的最佳表现高出 5 倍,同时需要的环境步骤减少了三倍,达到了接近专家级的性能。” (环境步骤是指代理为达到此性能水平而引入的状态的许多变化。)

由此产生的科学论文获得了进入 2021 年 NeurIPS 会议的 Spotlight 称号。正是凭借这种自信和动力,Garg 提议在 MineRL 挑战中尝试 IQ-Learn。

没有人参与的成功

可以肯定的是,Minecraft 中的一些“几乎栩栩如生”的任务对于黑曜石团队来说是困难的。在挑战的某一时刻,他们的 AI 机器人意外地通过平铺栅栏建造了一座摩天大楼。它还设法将一个村民而不是动物关在笼子里。但加格对结果很满意。他们的人工智能机器人成功地学会了建造墙壁、建造柱子和安装火把。第一名的团队总共使用了 82,000 张人工标记的图像来帮助识别游戏中的场景,并花费了大约五个月的时间为每项任务编写领域专业知识。相比之下,Garg 和 Mills 在没有向模型添加任何领域知识的情况下赢得了他们的位置,并且只用了三周的时间进行准备。

“IQ-Learn 的表现超出了我们的预期,”Garg 说。“这是一种扩展智能机器的新范例,它将能够完成从自动驾驶到帮助提供医疗保健的所有工作。”

Garg 设想有一天,我们将能够教机器人如何在任何情况下抓取物体,只需向它们展示人类捡起物体的视频,甚至可以通过响应语音命令来实现。如果我们想训练代理在多维世界中感知和行动,我们需要在有限的数据和时间的情况下启用运行良好的更快模型。效率似乎是决定机器人在现实生活中的用途的决定因素。