Google的VideoBERT算法可一次预测未来的烹饪视频

2020-10-21 11:39:17 来源：用户：

Google LLC今天推出了VideoBERT，这是一种人工智能，它可以观看视频的一部分并像人类一样推断未来几秒钟内将发生的事情。

要使计算机具备从视觉场景中理解和得出正确结论的能力，就需要非常复杂的算法。但是，对于Google的研究人员而言，挑战不是建立算法，而是找到足够的数据进行训练。机器学习模型必须吸收大量信息才能理解甚至是基本概念，并且通常必须手动准备信息。

对于VideoBERT而言，这是不可行的，因为教授模型如何预测未来事件需要更多的示例视频，而这些视频是Google研究人员可以手工组装的。他们还必须为每个剪辑的每个单独的帧编写描述，以便AI可以跟踪正在发生的事情。因此，团队提出了一个替代方案：免费提供的教学视频。

在显示如何烹饪煎蛋或填充轮胎的视频中，演示任务的人通常会在执行任务时对每个步骤进行解释，并叙述了研究人员用来替代他们本应做的逐帧描述否则为AI创建。该团队编辑了超过一百万个剪辑，涵盖烹饪和园艺等类别。然后，他们将他们喂给VideoBERT，以教该模型如何跟踪常见活动的进度。

培训后，该模型被放到了一系列从未见过的烹饪视频上。当视频片段显示一碗面粉和可可粉的视频片段时，VideoBERT巧妙地预测到这些成分将被放入烤箱，变成布朗尼蛋糕或蛋糕。研究人员还设法利用算法的观察技巧从视频中提取食谱，其中厨师解释了如何烹饪牛排。

Google开发的训练VideoBERT的方法最终可以在更严重的应用程序中找到用处。例如，如果自动驾驶汽车能够准确预测未来几秒钟内附近的车辆的位置，它们可能会变得更加安全。对于那些在人类工人附近操作的无人机和工业机器人来说，这种远见也可能是一项重要资产。

标签： Google

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！