a 当前位置：前瞻网 » 资讯 » 产经

盘点2018年在游戏里大杀四方的人工智能最强算法攻克《蒙特祖玛的复仇》

分享到：

Emma Chou • 2019-01-02 15:35:55　来源：前瞻网　E1781G0

前瞻经济学人

几十年来，游戏一直是检测人工智能(AI)的试金石。

1996年，IBM的Deep Blue在国际象棋中震动四方，它成为第一个在常规时间控制下击败卫冕世界冠军(加里·卡斯帕罗夫)的程序。但真正的游戏是在2013年开始，谷歌子公司DeepMind展示了一个人工智能系统，可以在超人的水平上玩《乒乓球》，《打砖块》，《太空入侵者》，《深海游戈》，《Beamrider》，《Enduro》和《Q*bert》。 2016年3月，DeepMind的AlphaGo在与李世石的三场比赛中大获全胜，李世石是世界排名最高的围棋手之一。仅仅一年之后，该系统的改进版(AlphaZero)在国际象棋比赛时轻松击败冠军和前身Go，这是一种日本国际象棋，名为将棋。

据DeepMind联合创始人Demis Hassabis等人说，这些进步不仅仅是推进游戏设计。相反，他们正在为将来有一天诊断疾病、预测复杂蛋白质结构和分割CT扫描的系统的发展提供信息。 “AlphaZero是我们通用人工智能的垫脚石。” Hassabis在最近的采访中告诉VentureBeat， “我们自己测试所有这些游戏的原因是......它们是我们开发算法的一个非常方便的试验场。 ......最终，[我们正在开发可以转化到真实世界的算法，以解决真正具有挑战性的问题......并帮助这些领域的专家。”

考虑到这一点，并且随着2019年的快速到来，我们回顾了2018年的一些AI游戏集锦。在此，可以为你带来一些阅读乐趣，以下排名不分先后。

《蒙特祖玛的复仇》

《蒙特祖玛的复仇》是一款1984年平台游戏，来自发行商帕克兄弟的雅利达2600、Apple II、Commodore 64和其他平台中，玩家扮演勇敢的探险家巴拿马·乔，在阿兹特克皇帝蒙特祖马二世的迷宫中进行洞穴探险。游戏里充满了激光门、传送带、绳索、梯子、消失的地板和火坑等障碍物，更不用说骷颅、蛇、蜘蛛、火把和剑。我们的目标是通过寻找宝石，杀死敌人，以及打开隐藏房间大门的钥匙，到达宝藏库，并一路获得积分。

《蒙特祖玛的复仇》以其困难而闻名(仅第一关就由24个房间组成)，人工智能系统长期以来一直面临着巨大的挑战。 2015年，DeepMind开创性的Deep-Q学习网络取得了突破，在《Enduro》和《乒乓球》游戏中超过人类大师级选手，但在《蒙特祖玛的复仇》中，人类玩家平均得分4,700，Deep-Q为0。

研究人员将其归咎于游戏的“备用奖励”。完成一关需要学习复杂的任务，但反馈并不频繁。因此，即使是训练有素的人工智能agent也会在短期内最大限度地提高奖励，而不是朝着大局目标努力，例如，反复击中敌人而不是靠近出口处攀爬绳索。但今年一些人工智能系统设法避免了这个陷阱。

DeepMind

在5月份在预印本服务器Arxiv.org上发表的一篇论文(“通过观看YouTube玩艰难的探索游戏”)中，DeepMind描述了一种机器学习模型，它实际上可以从YouTube视频中学习《蒙特祖玛的复仇》。在“观看”专家玩家的视频片段后，并使用将游戏状态观察嵌入到共同嵌入空间中的方法之后，它以41,000的分数通过了第一关。

同一个月在网上发表的第二篇论文中(“观察和进一步观察：实现Atari的一致性能”)，DeepMind科学家提出了对上述Deep-Q模型的改进，增强了其稳定性和能力。最重要的是，它们使算法能够考虑“不同密度和规模”的奖励信号，从而扩展其人工智能agent的有效规划范围。此外，他们还使用人类示范来增强人工智能agent的探索过程。

最终，它在游戏的第一关获得了38,000分。

OpenAI

OpenAI是一家位于旧金山的非营利性人工智能研究公司，由埃隆·马斯克、Reid Hoffman和Peter Thiel支持，今年6月在博客文章中分享了训练《蒙特祖玛的复仇》人工智能系统的方法。非常新颖的是，它利用人类示范来“重启”人工智能agent：AI玩家角色在游戏结束时开始，并在每次重启时都通过人类玩家的轨迹向后移动。这使它们接触到一些人类已经过关的部分游戏中，并帮助它们获得了74,500分。

8月，OpenAI在其以前的工作基础上，在一篇论文(“好奇心驱动学习的大规模研究”)中描述了一个可以赢过大多数人类玩家的模型。表现最好的版本在第一关的24个房间中找到了22个，偶尔会找到所有24个房间。

让它与众不同的是一种强化学习技术，称为随机网络蒸馏(RND)，它使用奖励来激励人工智能agent探索它们通常不会探索的游戏地图区域。 RND还讨论了强化学习方案中的另一个常见问题 - 所谓的嘈杂电视问题 - 其中AI代理在寻找随机数据中的模式时陷入困境。

“好奇心促使人工智能agent发现新的房间，并找到增加游戏内得分的方法，这种外在奖励促使它在培训后期重新访问这些房间。”OpenAI在一篇博客文章中解释道，“好奇心为我们提供了一种更简单的方式来教授代理与任何环境进行交互，而不是通过广泛设计的任务特定奖励功能，我们希望这些功能与解决任务相对应。”

平均而言，OpenAI的人工智能agent在九次运行中获得了10,000分，平均回报率为14,500分。在一项长期运行的测试中甚至达到了17500分。

Uber

OpenAI和DeepMind并不是唯一能够在今年创造出熟练玩《蒙特祖玛的复仇》AI的公司。在11月下旬发表的一篇论文和随附博客文章中，旧金山乘车共享公司Uber的研究人员推出了Go-Explore，这是一个所谓的质量多样性AI模型系列，得分超过200万，平均分数超过40万。在测试中，模型能够“可靠地”解决整个游戏，达到159级，平均找到37个房间。

为了达到这些天文数字，研究人员实施了一种创新的训练方法，包括两个部分：探索和优化。在探索阶段，Go-Explore建立了一个不同游戏状态的存档 – 单元格 - 以及导致它们各种轨迹或分数。它选择了一个细胞，返回到那个单元格，探索单元格，并且对于它所访问的所有单元格，如果它表现更好(即分数更高)，则更换给定的新轨迹。

这个“探索”阶段带来了几个优势。由于上述存档，Go-Explore能够记住并返回“有前景”的区域进行探索。在从单元格中进行探索之前，它首先返回单元格(通过加载游戏状态)，从而避免了过度探索容易到达的地方。由于Go-Explore能够访问所有可达状态，因此不太容易受到欺骗性奖励功能的影响。

同时，优化步骤起到了抵御噪音的作用。如果Go-Explore的解决方案对噪声的抵抗不稳健，那么就可以通过模仿学习算法将它们优化为深度神经网络。

“Go-Explore的最高分数远高于人类世界纪录1,219,200，甚至达到了'超人表现'的最严格定义”。该团队表示， “这对于传统的RL算法和模仿学习算法都是《蒙特祖玛的复仇》的最新技术水平，这些算法都以人类演示的形式提供了解决方案。”

在另一款也以难度出名的游戏《Pitfall》上，Go-Explore的平均分超过了21000分，远远超过了人类的平均成绩，并且在所有学习算法上，首次得到超过0分的成绩。在此之前还没有算法在Pitfall上得到大于0的分数。要做到这一点，智能体需要穿过40个房间，摇摆于水上的绳索，跳过鳄鱼、陷阱以及滚动桶等。

Dota 2

Valve的Dota 2在2013年首次亮相，是《远古遗迹守卫》(DotA)的后续之作，也是以暴雪《魔兽争霸III：混乱之王》创造的社区模式。这就是众所周知的多人在线战术竞技游戏，或称之为MOBA 。两组各有五名队员，每个人都有一个基地用来占据和防守，试图摧毁对方基地的一个古老建筑。玩家角色(英雄)具有一组独特的能力，并收集经验点和物品，以解锁新的攻击和防御技能。

游戏实际玩起来远比听起来更复杂。平均匹配包含80,000个单独的帧，在此期间每个角色可以执行数十个170,000个可能的操作。场上的英雄每帧平均完成10,000次移动，这使得游戏的总体尺寸超过20,000。

OpenAI解决Dota 2的难题已经有一段时间了，并在2017年8月，演示了一个MOBA游戏机器人的早期迭代版本，它在一对一的比赛中击败世界顶级玩家之一Danil“Dendi”Ishutin。但在今年6月，OpenAI Five将玩游戏的水平又提升了一个档次。这是一个改进的系统，能够与顶级人类玩家进行五对五的比赛。它击败了五组玩家：一个OpenAI员工团队，一个观看OpenAI员工比赛的观众团队，一个Valve员工团队，一个业余团队和一个半专业团队，在初夏，并在八月对阵世界排名名列前茅的团队时，三局两胜赢得了比赛。

为了自我提升，OpenAI Five每天都要在256张Nvidia Tesla P100显卡和128000个处理器内核上玩180年的游戏——80%是针对自己，20%是针对过去的自己。它由五个单层1024个单元的长短期记忆(LSTM)递归神经网络组成，这些神经网络被分配给一个英雄，并使用深度强化模型进行训练。深度强化模型会奖励“英雄”网络实现的目标，比如最大限度地杀死敌人、最大限度地减少死亡以及帮助队友。

经过全面培训的OpenAI Five代理非常复杂精致。尽管无法相互沟通(“团队精神”超参数值取决于每个代理优先考虑团队奖励以及个人奖励多少)，但他们是车道防御和农业等基本战略的大师，甚至会像在地图上切换英雄和从对手那里偷走符文的先进战术。

“游戏确实是检验人工智能研究的基准。”布罗克曼在早些时候的一次采访中告诉VentureBeat，“这些复杂的策略游戏是我们......一直努力前进的里程碑，因为它们开始捕捉现实世界的方方面面。”

《星际争霸II》

暴雪的《星际争霸II》在大约四年内分三部分发布。这是一款实时策略游戏，被誉为该类型游戏中最伟大的游戏之一((尽管它从未获得像最初那样的成功)，这在很大程度上归功于它的难度。在游戏中，必须不断收集资源，建造单位、保护单位、维护建筑物，并且虽然匹配目标最终取决于所选择的游戏类型，但有效的星际争霸策略通常要求玩家不仅要处理单位数量和移动，还要兼顾经济和升级。

人工智能系统需要处理的很多，但中国科技巨头腾讯在9月取得了一些进展。在一份白皮书中，该公司的研究人员描述了两个AI代理--TSTARBOT1和TSTARBOT2--它们一起被训练来玩一对一的游戏，让同一种族(虫族)的两个团队互相对抗。

它需要训练，大量的训练。根据该论文的作者，超过1,920个并行参与者和3,840个处理器在80台机器上，以每秒16,000帧的速度生成重放转换。它们整天处理了数十亿帧视频。

结果说明了一切。 TSTARBOTs - 其中一个跟踪整体战略，而另一个执行较低级别的任务，如单位管理，在最高难度10级，90%的时候击败《星际争霸II》的AI。此外，它们还与达到白金和钻石等级的人类玩家进行较量，后者比最高级别(大师级)低两级。

《雷神之锤III竞技场》

《雷神之锤III竞技场》与《星际争霸II》和Dota 2不同，是一款以其简约设计著称的第一人称射击游戏。先进的运动功能，如弹射和火箭跳跃;一系列独特的武器;快节奏的发挥;并强调多人游戏。在竞技场中，多达16名选手在场上对垒，或者两名选手在锦标赛模式时一对一战斗。

在7月的博客文章中，DeepMind分享了其在雷神之锤III中的研究和实验结果。它透露它训练了一个AI代理- 被称为“为了胜利(FTW)” -击败了“大多数”人类玩家。在完成了近450,000场涉及多个I代理的比赛(多达30场比赛，在某些情况下，最多同时参加了四场比赛)之后，在“抢夺旗帜”中如果只有人类队伍参与，它则一直稳赢不败;在对阵人类与机器合作的队伍时，赢得了95%的比赛。

“我们训练AI agent，让它们作为个体学习和行动，但他们必须能够在团队中与任何其他特工合作或对抗，无论是人类或人类参与的团队。” 论文的作者写道，“从多智能体的角度来看，成功夺旗需要玩家既要与队友合作，又要与对方团队竞争，同时还要对可能遇到的任何游戏风格稳定发挥。”

AI agent没有事先提供游戏规则，并且唯一的增强信号是胜利条件 - 即在五分钟内抢到最多的旗帜。但随着时间的推移，随着DeepMind研究人员调整地形类型，海拔高度和运动等参数，FTW开始学习像主场基地防守一样的策略，跟随一个队友，并在对手的基地扎营，以在旗子被抢后标记它们。它甚至还掌握了标记的诀窍 - 即触碰对手，将它们送回它们的复活点。

奖励回合：游戏设计中的AI

年最先进的游戏算法不仅仅是打败了人类，它们还展示了游戏设计的技巧。

例如，意大利米兰理工大学的研究人员描述了一个可以自动生成Doom级别的系统。

为了“训练”他们的两个GAN系统如何创建新的阶段，他们采购了一个公共数据库，其中包含来自Doom和Doom 2的所有官方级别以及社区贡献的9,000多个级别。从这些中，他们1)制作了一组图像 - 每个级别一个 - 捕获的特征包括墙壁、物体、地板高度、可步行区域，以及2)以数字形式表示关键等级特征的向量，如大小、面积、房间数量。

经过36,000次迭代后，该模型能够生成“捕捉[手工制作的] Doom级别的内在结构”的新级别 - 这可能有朝一日让人类设计师将注意力集中在“高级功能”上。 ”

“我们有希望的结果虽然是初步的，但它代表了未来改进的良好起点，并突出了经典程序生成的可行替代方案。” 他们写道， “由于Doom地图的典型特征(如狭窄的隧道和大房间)的存在，大多数生成的关卡都被证明是有趣的探索和游戏。”

他们并不是唯一一个在AI级别上取得成功的人。 12月，英伟达揭开了一个能够从视频源自动制作数字环境的系统。

开发团队通过训练对象分类算法来识别场景中的特定对象(例如建筑物，行人，树木和汽车)，从而完成了这一壮举。接下来，他们使用GAN以三维方式虚拟地对这些对象进行建模。

“这是一种新的渲染技术，输入基本上只是草图，对象的高级表示以及它们在虚拟环境中的交互方式。”英伟达应用深度学习副总裁Bryan Catanzaro在电话中告诉VentureBeat专访， “然后，模型实际上会处理细节，精心设计纹理，以及照明，等等，以便制作完整的渲染图像。”

这样的模型有望减轻游戏开发者的负担。目前，《荒野大镖客：救赎》和《侠盗猎车手5》等大制作将需要数百人的团队来创建，有时耗费近十年时间。