围棋击败AlphaZero!各类游戏测试碾压前辈,谷歌DeepMind AI再添新员

围棋击败AlphaZero!各类游戏测试碾压前辈,谷歌DeepMind AI再添新员

智东西(公众号:zhidxcom)
编 | 云鹏

智东西11月21日消息,谷歌DeepMind近日推出人工智能MuZero。MuZero使用了可自我学习的高性能机器学习模型,目前在国际象棋、围棋、将棋、Atari游戏等领域取得了领先的成绩。

据DeepMind研究人员称,MuZero使用了基于模型的强化学习算法,目前在围棋领域的性能已经略超AlphaZero。在75场Atari游戏中的得分高于先前各类算法,且所需训练时间极大减少。以下是Venturebeat报道的原文编译。

一、“自学成才”的MuZero

谷歌DeepMind在去年年底发表在《科学》杂志上的一篇论文中,详细介绍了AlphaZero,这是一种人工智能系统,可以通过自学掌握国际象棋、日本“将棋(shogi)”以及中国的棋盘类游戏“围棋”的玩法。

在每个项目中,它都击败了世界冠军,这说明了学习具有充分信息(perfect information)的两人游戏是有诀窍的——在游戏中,任何决策都是由先前发生的所有事件来决定的。

但是AlphaZero的优势是知道它要玩的游戏的规则。为了追求能够自学游戏规则的高性能机器学习模型,DeepMind设计了MuZero,它结合了基于树的搜索(tree-based search)与学习模型,树是一种数据结构,用于从集合中查找信息。

MuZero预测与游戏计划最相关的数量(quantities),从而在57种不同的Atari游戏中达到行业领先的性能,并且性能与AlphaZero在围棋,象棋和将棋中的表现相当。

研究人员说,MuZero为许多实际领域中的学习方法铺平了道路,尤其是那些缺乏规则说明模拟器或环境动力学模拟器(simulator that communicates rules or environment dynamics)的领域。

科学家在描述他们工作时写道:“规划算法(Planning al围棋rithms)在人工智能领域取得了巨大成功。但是,这些规划算法都依赖于对环境动态(environment’s dynamics)的了解,例如游戏规则或精确的模拟器(accurate simulator)。”

“基于模型的学习(Model-based learning)通过首先学习环境动力学模型,然后针对所学模型进行规划来解决问题。”

二、基于模型的强化学习

从根本上说,MuZero会接收观察结果(如围棋的棋盘或Atari屏幕的图像)并将其转换为隐藏状态(hidden state)。该隐藏状态通过接收先前状态和假设的下一个动作的过程进行迭代更新,并且模型在每个步骤中都会预测策略(例如,下棋),价值函数(例如,预期的获胜者)和即时奖励(例如,通过移动获得分数)。

围棋击败AlphaZero!各类游戏测试碾压前辈,谷歌DeepMind AI再添新员

▲整个国际象棋,将棋,围棋和Atari训练中对MuZero的评估,y轴显示Elo等级。

直观上,MuZero内部生成了(internally invent)导致精确规划的游戏规则或动力。

正如DeepMind研究人员所解释的那样,强化学习的一种形式——模型,是MuZero和AlphaZero的核心技术,通过奖励使AI系统朝着目标前进。

首先将一个给定环境(given environment)作为中间步骤,再用状态转换模型(state transition model) 预测下一步,最后用一个奖励模型(reward model)预测奖励。

通常,基于模型的强化学习侧重于直接在像素级别对观察流进行建模,但是这种粒度级别在大规模环境中,计算上是非常昂贵的。

实际上,没有一种现有的方法可以构建一个模型来促进在Atari等视觉复杂领域中的计划工作。即使在数据效率方面,结果也落后于经过良好调整的无模型方法(well-tuned model-free methods)。

对于MuZero,DeepMind采用了一种侧重于价值函数的端到端预测(end-to-end prediction)的方法,在该方法中,他们对算法进行了训练,以使期望的总和与实际操作中的期望值相匹配。

该系统没有环境状态的语义(semantics),而仅输出策略,价值和回报预测,类似于AlphaZero搜索的算法。MuZero使用该算法来生成推荐政策和估算价值,这些值反过来又用于告知已玩游戏中的动作和最终结果。

三、性能表现全面超越前代

DeepMind团队将MuZero应用于经典棋盘游戏围棋,国际象棋和将棋,作为挑战性计划问题的基准,并应用于开源Atari学习环境中的所有57款游戏,作为复杂视觉强化学习领域的基准。

他们对系统进行了五个假设步骤的训练,并在棋盘游戏中使用了100万个微型批次(即小批量的训练数据),大小为2,048,而Atari中的大小为1,024。在围棋,象棋,和将棋中每步模拟800次,在Atari中每步模拟50次。

关于围棋,尽管使用了较少的整体计算(overall computation),MuZero的性能还是略超过AlphaZero的性能。研究人员说,这证明它可能已经对其位置有了更深入的了解(deeper understanding of its position)。

至于Atari,MuZero在57场比赛中的均值和中位数归一化得分均达到了新的水平,其中42场的表现均优于先前的最新方法(R2D2),并且比所有游戏中基于模型(model-based approach)的方法表现都要好。

围棋击败AlphaZero!各类游戏测试碾压前辈,谷歌DeepMind AI再添新员

▲MuZero 在围棋(A),所有57个Atari Games(B)和吃豆游戏(C、D)的评估。

围棋击败AlphaZero!各类游戏测试碾压前辈,谷歌DeepMind AI再添新员

▲MuZero与Atari中以前的AI的比较。

dawei

【声明】:180手机网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

相关文章

本站内容转载自互联网,其发布内容言论不代表本站观点,如果其链接、内容的侵犯您的权益,烦请提交相关信息发邮件至xwei067@foxmail.com我们将及时予以处理。

建议您使用1366×768 分辨率、Microsoft Internet Explorer 11浏览器以获得本站的突出浏览效果

Copygight © 2017-2023 https://www.180shouji.com All Rights Reserved. 180手机网

站长:xwei067#foxmail.com(请把#换成@)