首页 >> 要闻 >

AI系统可最佳地在数千台服务器之间分配工作负载

2020-12-14 08:19:30 来源：用户：

麻省理工学院的研究人员开发的新型系统可以自动“学习”如何在数千台服务器上调度数据处理操作，而这通常是由不精确的人工设计算法完成的任务。这样做可以帮助当今耗电的数据中心更加高效地运行。

数据中心可以包含数以万计的服务器，这些服务器不断运行来自开发人员和用户的数据处理任务。群集调度算法可实时跨服务器分配传入的任务，以有效利用所有可用的计算资源并快速完成工作。

然而，传统上，人们会基于一些基本准则(“策略”)和各种折衷来微调那些调度算法。例如，他们可以对算法进行编码，以快速完成某些任务，或者在任务之间平均分配资源。但是工作负载(意味着组合任务的组)各种各样。因此，人类几乎不可能针对特定的工作负荷优化其调度算法，因此，他们常常无法发挥其真正的效率潜力。

麻省理工学院的研究人员将所有的手动编码卸载到了机器上。在SIGCOMM上发表的一篇论文中，他们描述了一种利用“强化学习”(RL)(一种反复试验的机器学习技术)来针对特定服务器集群中的特定工作负载量身定制调度决策的系统。

为此，他们构建了可以在复杂工作负载上进行训练的新颖RL技术。在培训中，系统尝试了多种可能的方式来跨服务器分配传入的工作负载，最终在利用计算资源和快速处理速度方面找到了最佳折衷方案。除了简单的说明(例如“最小化工作完成时间”)之外，不需要人工干预。

与最佳的手写调度算法相比，研究人员的系统完成工作的速度提高了约20%到30%，而在交通繁忙的时候完成速度则提高了两倍。但是，大多数情况下，系统会学习如何有效压缩工作负载而几乎没有浪费。结果表明，该系统可以使数据中心使用更少的资源，以更高的速度处理相同的工作负载。

“如果您有使用机器进行反复试验的方法，他们可以尝试以不同的方式安排作业，并自动找出哪种策略比其他方法更好，”博士学位的洪子茂说。电气工程与计算机科学系(EECS)的学生。“这可以自动提高系统性能。利用率的任何小幅提高，即使提高1%，也可以节省数百万美元，并为数据中心节省大量能源。”

标签： AI系统工作负载

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！