您现在的位置是:首页 >人工智能 > 2021-04-28 12:49:36 来源:

计算机系统预测物体对物理力的反应

导读 麻省理工学院大脑和认知科学教授Josh Tenenbaum负责研究智能,智能和机器中心的智力发展,该中心是麻省理工学院的一个多学科,多学科项目

麻省理工学院大脑和认知科学教授Josh Tenenbaum负责研究智能,智能和机器中心的智力发展,该中心是麻省理工学院的一个多学科,多学科项目,旨在解释和复制人类智能。

在今年的神经信息处理系统会议上展示他们的工作,Tenenbaum和他的一个学生吴嘉俊是四篇论文的共同作者,这些论文研究了智能代理人驾驭世界所需的基本认知能力:辨别不同的对象和推断他们如何应对物理力量。

通过构建开始接近这些能力的计算机系统,研究人员相信他们可以帮助回答有关人类在发展的哪个阶段使用什么信息处理资源的问题。在此过程中,研究人员还可能会产生一些对机器人视觉系统有用的见解。

“这里的共同主题是学会理解物理学,”Tenenbaum说。“首先要看到完整的三维物体形状,一个场景中的多个物体,以及它们的物理特性,如质量和摩擦力,然后推断这些物体将如何随时间推移而移动。嘉俊的四篇论文涉及整个空间总之,我们开始能够建造能够捕捉越来越多人对物理世界的基本了解的机器。“

其中三篇论文涉及从视觉和听觉数据中推断出有关物体物理结构的信息。第四部分涉及预测对象在该数据的基础上的行为方式。

双向街道

将所有四篇论文结合在一起的其他东西是他们不寻常的机器学习方法,这是一种计算机通过分析大量训练数据来学习执行计算任务的技术。在典型的机器学习系统中,训练数据被标记:例如,人类分析员将在视觉场景中识别对象或者转录口语句子的单词。系统试图了解数据的哪些特征与哪些标签相关,并且判断它标记以前看不见的数据的程度。

在Wu和Tenenbaum的新论文中,系统经过训练,可以推断出世界的物理模型 - 例如,大多数隐藏在视野中的物体的三维形状。但后来它向后工作,使用模型重新合成输入数据,并根据重建数据与原始数据的匹配程度判断其性能。

例如,使用可视图像在场景中构建对象的三维模型需要剥离任何遮挡对象; 滤除混杂的视觉纹理,反射和阴影; 并推断看不见的表面的形状。然而,一旦Wu和Tenenbaum的系统构建了这样的模型,它就会在空间中旋转并添加视觉纹理,直到它可以逼近输入数据。

实际上,研究人员的四篇论文中有两篇论述了从视觉数据推断三维模型的复杂问题。在这些论文中,麻省理工学院的其他四位研究人员,包括威廉弗里曼,帕金斯电气工程和计算机科学教授,以及DeepMind,上海科技大学和上海交通大学的同事也加入了这些研究。

分而治之

研究人员的系统基于麻省理工学院神经科学家David Marr的有影响力的理论,他于1980年在悲惨的年龄35岁时去世.Marr假设在解释视觉场景时,大脑首先创造了他所谓的2.5-D草图。它包含的对象 - 表示面向观察者的对象的表面。然后,在2.5-D草图的基础上 - 不是关于场景的原始视觉信息 - 大脑推断出物体的完整的三维形状。

“这两个问题都非常困难,但有一种很好的方法可以解开它们,”吴说。“你可以一次做一个,所以你不必同时处理它们,这更难。”

吴和他的同事的系统需要接受数据训练,包括视觉图像和图像描绘的物体的三维模型。构建真实照片中描绘的物体的精确三维模型将非常耗时,因此最初,研究人员使用合成数据训练他们的系统,其中视觉图像是从三维模型生成的,而不是相反。创建数据的过程就像创建计算机动画电影一样。

然而,一旦系统接受了合成数据的训练,就可以使用真实数据对其进行微调。这是因为它的最终性能标准是重建输入数据的准确性。它仍在构建三维模型,但它们不需要与人工构建的模型进行性能评估。

在评估他们的系统时,研究人员使用了一种称为交叉过度的测量方法,这在该领域很常见。在这一措施上,他们的系统优于其前辈。但是,给定的交叉结合分数为3-D模型的平滑度和形状的局部变化留下了很大的空间。因此吴和他的同事们也对模型对源图像的保真度进行了定性研究。在该研究的参与者中,74%的人更喜欢新系统的重建与其前身的重建。

一切都在下降

在Wu和Tenenbaum的另一篇论文中,他们再次由Freeman和麻省理工学院,剑桥大学和上海科技大学的研究人员加入,他们培训了一个系统来分析被丢弃物体的录音,以推断出诸如物体的形状,构成和落下的高度。同样,系统被训练以产生对象的抽象表示,而该对象又用于合成当从特定高度掉落时对象将产生的声音。根据合成声音和源声音之间的相似性来判断系统的性能。

最后,在他们的第四篇论文中,DeepMind和牛津大学的Wu,Tenenbaum,Freeman及其同事描述了一个系统,该系统开始模拟人类对作用于世界物体的物理力的直观理解。本文回顾了之前论文所留下的内容:假设系统已经推导出物体的三维形状。

这些形状很简单:球和立方体。研究人员训练他们的系统执行两项任务。第一个是估计在台球桌上行进的球的速度,并在此基础上预测它们在碰撞后的行为方式。第二个是分析堆叠立方体的静态图像,并确定它们是否会掉落,如果是,立方体将落在何处。

吴开发了一种代表性的语言,他称之为场景XML,可以定量地描述视觉场景中物体的相对位置。系统首先学会用该语言描述输入数据。然后它将该描述提供给称为物理引擎的东西,该物理引擎模拟作用于所表示对象的物理力。物理引擎是计算机动画的主要部分,它们产生衣服,坠落物体等的运动,以及科学计算,它们用于大规模的物理模拟。

在物理引擎预测了球和盒子的运动之后,该信息被馈送到图形引擎,其输出再次与源图像进行比较。与视觉辨别工作一样,研究人员在使用真实数据进行精炼之前,先对合成数据进行系统训练。

在测试中,研究人员的系统再次优于其前辈。事实上,在一些涉及台球的测试中,它也经常胜过人类观察者。