您现在的位置是:首页 >财经 > 2021-04-28 11:28:17 来源:

麻省理工学院CSAIL设计可以随时间跟踪对象的AI

导读 人类利用对物理世界的隐含理解来预测物体的运动 - 并推断它们之间的相互作用。如果你看到三个框架显示罐头倾倒 - 一个罐子整齐地堆叠在

人类利用对物理世界的隐含理解来预测物体的运动 - 并推断它们之间的相互作用。如果你看到三个框架显示罐头倾倒 - 一个罐子整齐地堆叠在一起,第二个用手指在堆栈的底部,第三个显示罐子在它们的侧面 - 你可能会猜到手指对他们的死亡负有责任。

麻省理工学院CSAIL设计可以随时间跟踪对象的AI

机器人努力实现这些逻辑上的飞跃。但在麻省理工学院计算机科学与人工智能实验室的一篇论文中,研究人员描述了一个系统 - 被称为时间关系网络(TRN) - 它基本上学习了物体如何随时间变化。

他们不是第一个这样做的人 - 百度和谷歌是调查人工智能辅助时空建模的公司之一 - 但麻省理工学院的团队声称他们的方法在以前方法的准确性和效率之间取得了很好的平衡。

“我们建立了一个人工智能系统来识别物体的变形,而不是物体的外观,”该报的第一作者Bolei Zhou告诉麻省理工学院新闻。“系统不会遍历所有帧 - 它会拾取关键帧[原文如此],并使用帧的时间关系识别正在发生的事情。这提高了系统的效率,使其准确实时运行。“

研究人员在三个数据集上训练了卷积神经网络 - 一类非常擅长分析视觉图像的机器学习模型:TwentyBN的Something-Something,包含174个动作类别中的20,000多个视频; 杰斯特,有15万个视频,有27个手势; 和卡内基梅隆大学的Charades,包括10,000个视频,包括157个分类活动。

然后,他们将网络放在视频文件上,它通过按组排序帧进行处理,并指定屏幕上的对象与学习活动相匹配的概率 - 例如撕开一张纸或举手。

那怎么办?由于信息量有限,该模型设法实现了Jester数据集的95%%准确率,并且在预测活动方面优于现有模型。在处理了25%%的视频帧后,它超越了基线,甚至设法区分了“假装打开书”和“打开书”之类的行为。

在未来的研究中,团队计划通过实现对象识别和添加“直观物理”来改进模型的复杂性 - 即理解对象的真实世界属性。

“因为我们知道这些视频中的很多物理知识,我们可以训练模块来学习这些物理定律,并用它来识别新的视频,”周说。“我们还开源所有代码和模型。活动理解现在是一个令人兴奋的人工智能领域。