您现在的位置是:首页 >人工智能 > 2021-04-27 23:52:29 来源:

机器人通过反复试验掌握新技能

导读 加州大学伯克利分校的研究人员已经开发出算法,使机器人能够通过试验和错误学习运动任务,使用的过程更接近人类学习的方式,标志着人工智能

加州大学伯克利分校的研究人员已经开发出算法,使机器人能够通过试验和错误学习运动任务,使用的过程更接近人类学习的方式,标志着人工智能领域的一个重要里程碑。

他们展示了他们的技术,一种强化学习,让机器人完成各种任务 - 将衣架放在架子上,组装玩具飞机,拧上水瓶盖等等 - 没有预先编程的细节关于它的周围环境

“我们在这里报道的是一种赋予机器人学习能力的新方法,”加州大学伯克利分校电子工程与计算机科学系教授Pieter Abbeel说。“关键是,当机器人面对新事物时,我们不必重新编程。完全相同的软件,编码机器人可以学习的方式,用于让机器人学习我们提供的所有不同任务它。”

这项工作是加州大学社会利益信息技术研究中心(CITRIS)新的人员和机器人计划的一部分。新的多校区,多学科研究计划旨在保持人工智能,机器人和自动化在人类需求方面的令人眼花缭乱的进步。

“大多数机器人应用都处于受控环境中,物体处于可预测的位置,”Darrell说。“将机器人置于现实环境中的挑战,如家庭或办公室,是这些环境不断变化。机器人必须能够感知并适应周围环境。”

神经启发

帮助机器人通过3D世界的常规但不切实际的方法包括对其进行预编程以处理各种可能的场景或创建机器人操作的模拟环境。

取而代之的是,加州大学伯克利分校的研究人员转向了一种新的人工智能分支,称为深度学习,当人类大脑感知并与世界相互作用时,它会受到人类大脑神经回路的启发。

“尽管我们的多功能性,人类并非天生具有可以像瑞士军刀那样部署的行为,我们不需要编程,”莱文说。“相反,我们从经验和其他人类学习生活过程中的新技能。这种学习过程深深植根于我们的神经系统,我们甚至无法准确地与另一个人沟通如何执行所产生的技能。他们最多希望能够在他们自己学习的同时提供指导和指导。“

在人工智能领域,深度学习程序创建“神经网络”,其中人工神经元层处理重叠的原始感觉数据,无论是声波还是图像像素。这有助于机器人识别正在接收的数据中的模式和类别。在他们的iPhone上使用Siri,谷歌的语音到文本程序或谷歌街景的人可能已经从深度学习在语音和视觉识别方面取得的重大进步中获益。

然而,将深度强化学习应用于运动任务更具挑战性,因为任务超越了对图像和声音的被动识别。

“在非结构化的3D环境中移动是一个完全不同的球赛,”芬恩说。“没有标记的方向,也没有提前解决问题的例子。没有像语音和视觉识别程序那样的正确解决方案的例子。”

实践是完美的

在实验中,加州大学伯克利分校的研究人员使用Willow Garage Personal Robot 2(PR2),他们昵称为BRETT,或伯克利机器人,以消除繁琐的任务。

他们为BRETT提供了一系列电机任务,例如将块放入匹配的开口或堆叠乐高积木。控制BRETT学习的算法包括奖励功能,该功能根据机器人对任务的处理程度提供分数。

BRETT接收现场,包括相机所看到的自己手臂和手的位置。该算法基于机器人的运动通过分数提供实时反馈。使机器人更接近完成任务的移动得分高于不完成任务的移动。分数通过神经网络反馈,因此机器人可以了解哪些动作更适合手头的任务。

这种端到端的培训过程是机器人自学的能力的基础。当PR2移动其关节并操纵物体时,该算法计算出需要学习的神经网络的92,000个参数的良好值。

使用这种方法,当给定任务开始和结束的相关坐标时,PR2可以在大约10分钟内掌握典型的分配。当机器人没有给出场景中物体的位置并且需要一起学习视觉和控制时,学习过程大约需要三个小时。

Abbeel表示,随着处理大量数据的能力的提高,该领域可能会有显着的改进。

“随着更多的数据,你可以开始学习更复杂的东西,”他说。“在我们的机器人可以学会清理房屋或分类洗衣房之前,我们还有很长的路要走,但我们的初步结果表明,这些深度学习技术在使机器人能够完全从中学习复杂的任务方面具有变革性的影响。在接下来的五到十年中,我们可能会看到通过这一系列工作在机器人学习能力方面取得了重大进展。“