A前瞻官网
前瞻网
a 当前位置: 前瞻网 » 资讯 » 产经

阿尔法狗再进化!不依赖人类数据自学成才 未来它还能做这些事

分享到:
 黄粱 • 2017-10-22 19:49:30 来源:前瞻网 E893G0
100大行业全景图谱

前瞻经济学人

谷歌的AI子公司DeepMind推出了最新版本的围棋软件AlphaGo Zero。Zero是比今年早些时候击败围棋天才柯洁的AlphaGo更加高端先进,但最为关键的是,它是完全自学的。 DeepMind表示,这意味着公司距离创建通用算法更接近,可以智能地解决科学中最困难的一些问题,从设计新药到更准确地模拟气候变化的影响。

原来的AlphaGo表现出超人的围棋能力,但需要借助人类棋手的专业知识才能到达那个水平。也就是说,它利用超过100,000个围棋游戏的数据集作为自己知识的起点。相比之下,AlphaGo Zero仅按照围棋的基本规则编程。所有的一切都是它自学的。如在科学杂志《自然》发表的论文中所描述的那样,Zero通过与自己竞争来发展其围棋技能。起初,它在棋盘上随意落字,但是每次赢棋后,Zero会更新自己的系统,再次重复。不停地下棋,重复上百万次。

经过三天的自我对局,Zero变得足够强大,可以击败原来版本的AlphaGo, AlphaGo曾轻松打败世界冠军李世石。 40天后,它与最初级AlphaGo软件的最高版本相比有90%的胜率。 DeepMind说,可以说Zero是历史上最强的围棋选手。

前瞻经济学人

“既未使用人类数据——也不以任何方式利用人类专业知识,实际上我们已经消除了人类知识的限制。” AlphaGo Zero的主要程序员David Silver在新闻发布会上说, “因此,它能够从第一原则创造知识本身;从一张白纸 [...]这也使得它比以前的版本更强大。”

Silver解释说,随着Zero的自行发挥,它重新发现了人类在数千年来开发围棋的策略。他说:“开始像人类初学者一样玩起来非常天真,但是随着时间的推移,很难讲它与专业人士进行区分。”他说。在开发从未有过的策略之前,该计划在自我对局中击中了众多众所周知的模式和变化。他说:“它发现了人类的这些下棋方式,进行了尝试,然后最终找到了它喜欢的东西。”与早期版本的AlphaGo一样,DeepMind希望Zero将作为专业人士的灵感,提出新的下棋方式和策略,并融入他们的对弈中。

除了作为一个更好的选手,Zero与早期版本相比还有其他重要的优势。首先,它需要的计算能力更少,运行在只有四个TPU(由谷歌构建的专门AI处理器),而早期版本使用48个。Silver说,这允许一个可以改进的更灵活的系统,省了很多事,“在一天结束的时候,我们想要取得进展,这才是真正重要的事情。”其次,因为Zero是自学的,它表明我们可以开发尖端的算法而不依赖于数据堆栈。

对于该领域的专家,这些发展是使这项新研究令人兴奋的重要组成部分。那是因为他们对当代AI的持续批评进行强有力的反驳:它最近的大部分收益主要来自廉价的计算能力和大量的数据集。领域中像先驱者杰弗里·亨顿(Geoffrey Hinton)这样的怀疑论者认为,机器学习是独翼。夸大打桩数据和计算有助于提供新功能,但目前的进步速度是不可持续的。 DeepMind的最新研究提供了一些反驳,表明通过专注于算法可以做出重大改进。

“这项工作表明,现有技术的结合可能比现实中的大多数人都想到的要多,尽管技术本身并没有根本的新意。” 埃隆·马斯克支持的OpenAI研究所的研究主管Ilya Sutskever告诉The Verge, “但最终,重要的是研究人员不断推进领域,如果这个目标是通过开发全新的技术来实现的,或者以巧妙和意想不到的方式应用现有的技术,那就不那么重要了。”

就AlphaGo Zero来说,最聪明独特之点在于消除对系统中人力资源的任何需求。计算机科学教授Satinder Singh撰写了关于DeepMind研究的一篇文章发表在《自然》上,赞扬了该公司的“优雅”工作,并将其细细列出。

Singh告诉The Verge,这是增强学习领域的重大胜利 ——AI的一个分支,程序通过获得达成某些目标的奖励而学习,但没有提供如何到达目的的指导。相比监督学习(程序被标注数据并从中学习),这是一个不太成熟的领域,但它具有较大的回报。毕竟,一个机器可以在没有人力指导的情况下教会自己,越好越好,Singh说。

“过去五六年来,增强学习已经出现在了学术界,对更广阔的世界产生更广泛的影响,而DeepMind则可以为此做出一些贡献。” Singh说, “事实上,他们能够通过简单的增强学习,在数据量、计算量和时间上减少一个数量级,从而建立一个更好的围棋选手,这是一个相当大的成就。而由于增强学习是AI的一大部分,这是一大进步。”

前瞻经济学人

这些算法的应用是什么?据DeepMind联合创始人Demis Hassabis介绍,他们可以向社会提供类似于科学研究的思维引擎。 Hassabis在新闻发布会上说:“很多AlphaGo团队正在转移到其他项目上,尝试将这项技术应用于其他领域。”

Hassabis解释说,您可以将AlphaGo看作是非常善于搜索复杂数据的机器。而在Zero的情况下,该数据由围棋游戏中的可能走法组成。但是因为Zero没有特意经过编程去了解围棋,它可以重新编程,以发现其他领域的信息:药物发现、蛋白质折叠、量子化学、粒子物理学和材料设计。

Hassabis建议,AlphaGo Zero的后代可用于搜索室温超导体—— 一种允许电流以零损失流动的假设物质,从而建成非常有效的电力系统。 (超导体是存在的,但它们目前仅在极冷的温度下工作。)与下围棋一样,该算法将通过组合不同的输入(在这种情况下,各种材料的原子组成及其相关的质量)开始进行,直到发现人类已经错过了的东西。

“也许会有室温超导体出现。当我还是个孩子的时候,看着我的物理书,曾经这么梦想着。” Hassabais说,“但是材料的组合只有这么多,很难知道这样的东西是否存在。”

当然,这比将AlphaGo Zero简化为维基百科页面的化学和物理要复杂得多,并且说“拥有它”。尽管如此复杂,围棋像所有的棋盘游戏一样容易让计算机了解。规则是有限的,没有运气的元素,没有隐藏的信息,最重要的是——研究人员可以获得对游戏的完美模拟。这意味着AI可以运行数百万次测试,并确保它不会丢失任何内容。找到符合这些标准的其他领域限制了Zero智能的适用性。 DeepMind并没有创造出一个神奇的思维机器。

除了这些注意事项之外,半开玩笑地来讲,DeepMind最近发表的研究还只是处于解决两份任务声明上半部分的状态。第一部分:解决智能;第二部分:利用它来使世界变得更美好。 “我们正在努力建立通用算法,虽然只是向前迈了一步,但这是一个令人振奋的一步。”Hassabis说。

本文来源前瞻网,转载请注明来源。本文内容仅代表作者个人观点,本站只提供参考并不构成任何投资及应用建议。(若存在内容、版权或其它问题,请联系:service@qianzhan.com) 品牌合作与广告投放请联系:0755-33069875 或 hezuo@qianzhan.com

p18 q0 我要投稿

分享:

品牌、内容合作请点这里:寻求合作 ››

前瞻经济学人微信二维码

前瞻经济学人

专注于中国各行业市场分析、未来发展趋势等。扫一扫立即关注。

前瞻产业研究院微信二维码

前瞻产业研究院

如何抓准行业的下一个风口?未来5年10年行业趋势如何把握?扫一扫立即关注。

前瞻经济学人 让您成为更懂趋势的人

想看更多前瞻的文章?扫描右侧二维码,还可以获得以下福利:

  • 10000+ 行业干货 免费领取
  • 500+ 行业研究员 解答你的问题
  • 1000000+ 行业数据 任君使用
  • 365+ 每日全球财经大事 一手掌握
  • 下载APP

  • 关注微信号

前瞻数据库
企查猫
前瞻经济学人App二维码

扫一扫下载APP

与资深行业研究员/经济学家互动交流让您成为更懂趋势的人

下载APP
前瞻经济学人APP

下载前瞻经济学人APP

关注我们
前瞻经济秀人微信号

扫一扫关注我们

我要投稿

×
J