a 当前位置：前瞻网 » 资讯 » 产经

史上最强棋类AI！AlphaZero“通杀”三大棋类世界冠军朝通用AI之路挺进

分享到：

olivia chan • 2018-12-07 14:28:52　来源：前瞻网　E1814G0

前瞻经济学人

大约一年前，DeepMind－－谷歌母公司Alphabet旗下英国人工智能部门－－发布的预印本研究（《自学掌握象棋和将棋的通用强化学习算法》）登上头条新闻，它描述AlphaZero系统——能教自己如何掌握日本将棋和中国围棋游戏。在每一个案例中，它都打败了一个世界冠军，展示了一种最先进的技巧，即通过完美的信息来学习二人对弈游戏——也就是说，在游戏中，任何决定都被告知之前发生的所有事件。

DeepMind的声明之前的确令人印象深刻，但它们没有经过同行评审。但现在情况出现了新变化。DeepMind今天宣布，经过数月的反复修改，它在AlphaZero上的工作已经被《科学》(Science)杂志接受，并登上了头版。

AlphaZero的首席研究员David Silver在2018年蒙特利尔NeurIPS大会上表示“几年前，我们的程序AlphaGo以四比一击败了18届世界围棋冠军李世石。但对我们来说，这实际上是建立一个通用学习系统的开始，这个系统可以自己学习，玩很多不同的游戏，达到超人类的水平。AphaZero是这段旅程的下一步。它从零开始，打败了Gi、国际象棋和将棋的世界冠军项目。一开始，除了游戏规则，它什么都不知道。”

Silver解释说，之所以选择这些游戏，不仅是因为它们的复杂性，还因为之前关于它们的人工智能研究有着丰富的历史。

他说:“国际象棋……代表了人工智能传统方法在达到绝对极限时所能达到的效果，所以我们想看看，我们能否使用一种完全有原则的自学方法来推翻传统方法，即我们使用大量手工制作。我们选择将棋的原因是，就难度而言，它是除围棋外为数不多的几款非常、非常具有挑战性的棋盘游戏之一，即便是对专门的程序和电脑程序来说也具有挑战性。在过去的一两年里，才出现了能够与人类世界冠军相匹敌的计算机程序。”

为此，本周发表的论文描述了DeepMind是如何利用深层神经网络(一种分层的数学功能，模仿人类大脑中神经元的行为)而不是手工制定的规则，从而超越像Stockfish、Elmo和IBM深蓝(Deep Blue)等玩国际象棋和将棋算法的引擎。它的动态游戏模式产生了创造性和非常规的策略，启发了两届英国国际象棋冠军、特级大师Matthew Sadler和国际女子象棋大师Natasha Regan即将出版的一本书。

Sadler表示:“传统的引擎非常强大，很少出现明显的错误，但在没有具体和可计算的解决方案的情况下，它们可能会不稳定……令人印象深刻的是，(AlphaZero)成功地将自己的玩法应用于非常广泛的位置和开局。正是在这种需要‘感觉’、‘洞察力’或‘直觉’的位置上， AlphaZero风格应运而生。”

例如，在国际象棋中，AlphaZero发现了诸如开局(象棋游戏的初始动作)、国王的安全(保护国王的方法)和卒结构(棋盘上的棋子的配置)等主题。它倾向于向对手国王周围棋子下手，最大化其棋子的机动性，同时最小化敌人棋子的机动性。就像人类一样，它愿意为了长期目标牺牲自己的一部分。

教AlphaZero如何玩这三款游戏中的每一款，都需要模拟数百万场比赛，这一过程被称为强化学习，在这个过程中，一套奖惩系统会驱使AI代理朝着特定的目标前进。AlphaZero一开始玩得很随意，但最终通过调整参数以适应某种游戏风格避免了损失。

训练AlphaZero所需的总时间因游戏而异。系统最少需要700000训练步骤与5000个第一代TPU和16个第二代TPU——谷歌设计的专用集成电路优化机器学习，国际象棋的训练时间为9个小时，将棋和围棋的训练量分别为12个小时和13天。

为了测试经过充分训练的AlphaZero, DeepMind的研究人员将其与前述的Stockfish和Elmo游戏引擎(除了它的前身AlphaGo Zero)进行了竞争。AlphaZero在一台拥有44个处理器核和4个谷歌第一代TPU的机器上运行——这些硬件的推理能力与一台拥有几个英伟达 Titan V图形处理单元（GPU）的工作站大致相当——AlphaZero在每场3小时的比赛中轻松赢得了多数比赛。

在象棋中，在与Stockfish的1000场比赛中，AlphaZero赢了155场，输了6场。此外，它在以人类常见的下棋策略为开局的游戏中也名列前茅。

与此同时，在将棋游戏中，AlphaZero以91.2%的几率击败了2017年CSA世界冠军版本的Elmo。在Go与AlphaGo的对弈中，它赢了61%的比赛。

DeepMind的首席执行官兼联合创始人Hassabis表示，国际象棋界正在利用AlphaZero的观点来推动有关马格努斯·卡尔森 (Magnus Carlsen，世界一流的国际象棋棋手) 和Fabiano Caruana（意大利国际特级大师）之间最近举行的世界国际象棋锦标赛比赛的争论。

Regan说：“看到AlphaZero的分析与顶级国际象棋引擎甚至顶级象棋大师的分析有何不同，这很有意思。我花了好几个月的时间来探索AlphaZero的象棋游戏，我觉得自己对这款游戏的概念和理解已经改变和丰富了。AlphaZero为我们提供了一种检查工具，检查我们人类在国际象棋比赛中自学的所有知识，它可能成为整个社会的一种强大的教学工具。”

当然，该系统最终目的不仅仅是创造超人类的象棋程序。Hassabis说，目标是利用AlphaZero项目的经验来开发能够解决社会最严峻挑战的系统。

最近，DeepMind的AlphaFold——一种能够预测复杂蛋白质结构的人工智能系统——在CASP13蛋白质折叠竞赛的98个竞争者中排名第一。

Hassabis说:“AlphaZero是我们通往通用人工智能之路的垫脚石。我们测试自己和所有这些游戏的原因是……它们为我们开发算法提供了非常便利的试验场……最终，(我们正在开发的算法可以)转化为现实世界，解决真正具有挑战性的问题……并帮助这些领域的专家。”

本文来源前瞻网，转载请注明来源。本文内容仅代表作者个人观点，本站只提供参考并不构成任何投资及应用建议。（若存在内容、版权或其它问题，请联系：service@qianzhan.com）　品牌合作与广告投放请联系：0755-33069875 或 hezuo@qianzhan.com