您现在的位置是:首页 >要闻 > 2020-12-14 08:19:30 来源:

AI系统可最佳地在数千台服务器之间分配工作负载

导读 麻省理工学院的研究人员开发的新型系统可以自动学习如何在数千台服务器上调度数据处理操作,而这通常是由不精确的人工设计算法完成的任务。

麻省理工学院的研究人员开发的新型系统可以自动“学习”如何在数千台服务器上调度数据处理操作,而这通常是由不精确的人工设计算法完成的任务。这样做可以帮助当今耗电的数据中心更加高效地运行。

数据中心可以包含数以万计的服务器,这些服务器不断运行来自开发人员和用户的数据处理任务。群集调度算法可实时跨服务器分配传入的任务,以有效利用所有可用的计算资源并快速完成工作。

然而,传统上,人们会基于一些基本准则(“策略”)和各种折衷来微调那些调度算法。例如,他们可以对算法进行编码,以快速完成某些任务,或者在任务之间平均分配资源。但是工作负载(意味着组合任务的组)各种各样。因此,人类几乎不可能针对特定的工作负荷优化其调度算法,因此,他们常常无法发挥其真正的效率潜力。

麻省理工学院的研究人员将所有的手动编码卸载到了机器上。在SIGCOMM上发表的一篇论文中,他们描述了一种利用“强化学习”(RL)(一种反复试验的机器学习技术)来针对特定服务器集群中的特定工作负载量身定制调度决策的系统。

为此,他们构建了可以在复杂工作负载上进行训练的新颖RL技术。在培训中,系统尝试了多种可能的方式来跨服务器分配传入的工作负载,最终在利用计算资源和快速处理速度方面找到了最佳折衷方案。除了简单的说明(例如“最小化工作完成时间”)之外,不需要人工干预。

与最佳的手写调度算法相比,研究人员的系统完成工作的速度提高了约20%到30%,而在交通繁忙的时候完成速度则提高了两倍。但是,大多数情况下,系统会学习如何有效压缩工作负载而几乎没有浪费。结果表明,该系统可以使数据中心使用更少的资源,以更高的速度处理相同的工作负载。

“如果您有使用机器进行反复试验的方法,他们可以尝试以不同的方式安排作业,并自动找出哪种策略比其他方法更好,”博士学位的洪子茂说。电气工程与计算机科学系(EECS)的学生。“这可以自动提高系统性能。利用率的任何小幅提高,即使提高1%,也可以节省数百万美元,并为数据中心节省大量能源。”