您现在的位置是:首页 >要闻 > 2020-12-08 08:55:27 来源:

预测神经网络的扩展能力

导读 尽管研究人员在机器学习方面帮助我们完成了紧缩数字,驾驶汽车和检测癌症等工作所取得的所有进步,但我们很少考虑维护大型数据中心使这种工

尽管研究人员在机器学习方面帮助我们完成了紧缩数字,驾驶汽车和检测癌症等工作所取得的所有进步,但我们很少考虑维护大型数据中心使这种工作成为可能的能源消耗。实际上,2017年的一项研究预测,到2025年,连接互联网的设备将使用世界20%的电力。

机器学习的低效率部分取决于如何创建此类系统。神经网络通常通过生成初始模型,调整一些参数,再次尝试然后漂洗和重复来开发。但是这种方法意味着,在任何人都不知道它是否真正起作用之前,在该项目上花费了大量时间,精力和计算资源。

麻省理工学院的研究生乔纳森·罗森菲尔德(Jonathan Rosenfeld)将其比作寻求了解重力和行星运动的17世纪科学家。他说,在没有这样的理解的情况下,我们今天开发机器学习系统的方式具有有限的预测能力,因此效率很低。

“目前还不是预测一个神经网络将如何执行给予一定的因素,如模型的形状,或者它被训练的数据量的统一,”罗森菲尔德,谁最近研制说,一个新的框架的话题与麻省理工学院计算机科学与人工智能实验室(CSAIL)的同事们。“我们想通过尝试理解影响网络准确性的不同关系来探讨是否可以使机器学习向前发展。”

CSAIL团队的新框架以较小的规模查看给定的算法,并且基于其形状等因素,可以预测其在较大规模上的性能。这使数据科学家可以确定是否值得继续投入更多的资源来进一步培训系统。

麻省理工学院教授尼尔·沙维特(Nir Shavit)说:“我们的方法告诉我们,诸如架构要实现特定目标性能所需的数据量,或者数据与模型大小之间在计算上最有效的折衷”。与Rosenfeld,约克大学前博士研究生Yonatan Belinkov和Amir Rosenfeld合作。“我们认为这些发现对本领域具有深远的影响,它可以使学术界和行业的研究人员更好地了解开发深度学习模型时必须权衡的不同因素之间的关系,并在有限的计算资源下做到这一点。可供学者使用。”

该框架使研究人员可以使用少50倍的计算能力来准确预测大型模型和数据规模的性能。

团队关注的深度学习性能方面是所谓的“泛化错误”,它是指对真实数据测试算法时产生的错误。该团队利用了模型缩放的概念,该概念涉及以特定方式更改模型形状以查看其对误差的影响。

下一步,该团队计划探索使特定算法的性能成败的基础理论。这包括尝试其他可能影响深度学习模型训练的因素。