您现在的位置是:首页 >教育 > 2020-11-19 17:16:27 来源:

DeepMind的AlphaZero为古老的棋艺注入了新的活力

导读 国际象棋大师威廉·纳皮尔(William Napier)曾说:对于象棋来说,生命还不够长,但这是生命的错,而不是象棋。该游戏的棋本身已经有一个光

国际象棋大师威廉·纳皮尔(William Napier)曾说:“对于象棋来说,生命还不够长,但这是生命的错,而不是象棋。”该游戏的棋本身已经有一个光荣使用寿命长,具有最早在公元600年恢复古老的游戏约会的文物是古代波斯萨珊王朝。

几个世纪以来,该游戏经历了数百次修改,调整和增强。在估计的2,000种游戏变体中,大多数只是在最近几年才开发出来。一个单独的版本本身称为Chess960(由世界象棋冠军Bobby Fischer创建),具有960种游戏变体,每个版本都重新排列了所有游戏棋子的标准位置。

游戏的吸引力是普遍的。在过去的几十年中,随着计算机播放器的推出,引起了人们的兴趣。计算机被证明是强大的,最终是无与伦比的敌人。1997年,IBM庞大的Deep Blue击败了卫冕世界国际象棋冠军Gary Kasparov,取得了空前的胜利。到2007年,一部手机已经以9次胜利和1次平局征服了比赛挑战者。

但是近年来,随着玩家越来越依赖计算机象棋引擎进行游戏的制定和策略,越来越多的游戏爱好者表示了惊ster 。决定性比赛的数量也明显减少。

正如国际象棋大师弗拉基米尔·克拉姆尼克(Vladimir Kramnik)最近对《连线》杂志说的那样:“对于很多最高级别的游戏来说,一半的游戏(有时是一整场游戏)的记忆力不足。您计算机的准备工作。”

谷歌的DeepMind AI项目的人们开始为此做点事情。他们邀请Kramnik与AI研究人员合作,因为他们发布了AlphaZero.AlphaZero在2017年自学成败于象棋,围棋和将棋等游戏的专家。他们的目标是:“创造性地探索和设计新的国际象棋变体”,同时保留游戏的基本原理。

给AlphaZero提供了九个参数,这些参数可以改变游戏的主要动作,然后独自学习游戏并制定新的取胜策略。

DeepMind在周三发布的博客中说:“通过不断地从自身经验中学习,该系统可以从头开始为任何规则集学习近乎最优的策略,”

除了这9个变量之外,AlphaZero还从头开始学习国际象棋。例如,它不知道它可以捕获对手的棋子。它基本上是在几个小时内学会了人类需要数年才能掌握的知识。

引入的变量为游戏带来了新的深度,其中包括禁止掷骰子(此举可以保护国王的身后几步之类的动作)和自我俘获的概念,在这种情况下,人们可以击败自己的民兵来实现战略优势。 。鱼雷的另一个新元素是鱼雷,它允许棋子在整个游戏中一次移动两个空间。

DeepMind博客指出:“通过使用AlphaZero为每种变体学习接近最佳的策略,我们确定了如果采用了这些变体,则在强大的人类玩家之间的游戏会是什么样子。我们的发现证明了现代规则之外的丰富可能性棋。”

随着AlphaZero的发展,它从本质上重建了游戏的历史性战略发展,但是却在几个小时而不是几个世纪的时间内进行了重建。

有人说,AlphaZero战略比老式象棋引擎更自然地进行。英国大师马修·萨尔德(Matthew Salder)惊叹于AlphaZero的娱乐性和对看似无限的国际象棋策略的探索。他说,这就像“发现过去某个伟大球员的秘密笔记本”。

分析AlphaZero的策略,应用变体,甚至重新设计棋盘(就像Fischer日益流行的Chess960所做的那样),都在推动人们将其视为对百年国际象棋艺术的重塑。