新闻
您现在的位置:首页 > 新闻 > DeepMind的MuZero教自己如何在Atari,国际象棋,将棋和围棋中获胜
  • 第三批专项债六月底发完 项目完成审核

    第三批专项债六月底发完 项目完成审核

    发布时间:2020/04/06

    财政部副部长许宏才4月3日在新闻发布会上表示,今年以来,根据全国人大常委会授权,财政部提前下达了2020年部分新增专项债券额度12900亿元。截至2020年3月31日,全国各地发行新增专项债券1.08万亿元,占84%,发行...

  • 国美零售转型加速 携拼多多“迎战”零售业大考

    国美零售转型加速 携拼多多“迎战”零售业大考

    发布时间:2020/04/06

    随着国内疫情初步得到控制,零售消费市场也在逐渐恢复运转。日前,国务院联防联控机制举办新闻发布会。商务部消费促进司负责人王斌在会上指出,将千方百计促进消费回补和潜力释放,壮大新型消费和升级消费,扩大...

  • 美新冠疫情蔓延,建霖家居等IPO企业受累

    美新冠疫情蔓延,建霖家居等IPO企业受累

    发布时间:2020/04/06

    编者按: 随着疫情蔓延,全球新冠肺炎确诊病例已突破百万,累计死亡超5万例,其中,美国确诊超过23万例,欧洲确诊超过50万例。作为全球经济重要力量的欧美地区,其疫情将对IPO企业产生什么影响? “有一天美国将成...

  • 信托代销哪家强?招行去年赚64亿

    信托代销哪家强?招行去年赚64亿

    发布时间:2020/04/04

    证券时报记者 杨卓卿 随着银行年报密集披露,一些行业巨头代销信托产品的情况也浮出水面。 证券时报记者注意到,“零售之王”招商银行2019年代销的信托产品规模超过3000亿元,借此实现64.32亿元的手续费及佣金收入...

DeepMind的MuZero教自己如何在Atari,国际象棋,将棋和围棋中获胜

发布时间:2019/11/22 新闻 浏览次数:823

 
谷歌母公司Alphabet的DeepMind在去年年底发表在《科学》杂志上的一篇论文中,详细介绍了AlphaZero,这是一种人工智能系统,可以教自己如何掌握国际象棋,日本象棋shogi的变体以及中国的棋盘游戏Go。在每种情况下,它都击败了世界冠军,证明了学习具有完美信息的两人游戏的诀窍-也就是说,可以将先前发生的所有事件告知任何决定的游戏。
但是AlphaZero的优势是知道它要玩的游戏规则。为了追求一种能够自学规则的高性能机器学习模型,DeepMind的团队设计了MuZero,该模型将基于树的搜索(其中树是用于从集合中定位信息的数据结构)与学习的模型相结合。 。 MuZero预测与游戏计划最相关的数量,从而使其在57种不同的Atari游戏中达到行业领先的性能,并与Go,象棋和将棋中的AlphaZero的性能相匹配。
研究人员说,MuZero为许多实际领域中的学习方法铺平了道路,尤其是那些缺乏交流规则或环境动态性的模拟器的领域。
科学家在描述其工作的预印论文中写道:“计划算法……在人工智能领域取得了巨大成功……但是,这些计划算法都依赖于环境动态知识,例如游戏规则或精确的模拟器。” “基于模型的学习旨在通过首先学习环境动力学模型,然后针对所学模型进行规划来解决此问题。”
基于模型的强化学习
从根本上说,MuZero会接收观察结果(即Go木板或Atari屏幕的图像)并将其转换为隐藏状态。该隐藏状态通过接收先前状态和假定的下一个动作的过程进行迭代更新,并且在每个步骤中,模型都会预测政策(例如,下棋),价值函数(例如,预期的获胜者)和即时行动。奖励(例如,通过打法得分)。
正如DeepMind研究人员所解释的那样,强化学习的一种形式-模型是MuZero和AlphaZero的核心技术,通过奖励使AI代理朝着目标前进。该表单使用预测下一步的状态转换模型和预测奖励的奖励模型,将给定环境建模为中间步骤。
通常,基于模型的强化学习侧重于直接在像素级别对观察流进行建模,但是这种粒度级别在大规模环境中在计算上非常昂贵。实际上,没有一种现有的方法可以构建一个模型来促进在Atari等视觉复杂领域中的计划。即使在数据效率方面,结果也落后于经过良好调整的无模型方法。
对于MuZero,DeepMind而是采用了一种侧重于价值函数的端到端预测的方法,在该方法中,对算法进行了训练,以使期望的总和与实际操作中的期望值相匹配。该系统没有环境状态的语义,而仅输出策略,价值和回报预测,类似于AlphaZero搜索(虽然已推广到允许单代理域和中间回报)的算法使用该算法来生成推荐的政策和估算价值。这些反过来又用于告知已玩游戏中的动作和最终结果。
DeepMind团队将MuZero应用于经典棋盘游戏Go,国际象棋和将棋作为挑战性计划问题的基准,并应用于开源Atari学习环境中的所有57款游戏,作为视觉上复杂的强化学习领域的基准。他们对系统进行了五个假设步骤的训练,并在棋盘游戏中使用了100万个小批量(即小批训练数据),其中棋盘游戏的大小为2,048,而Atari中的大小为1,024,每次搜索,围棋,象棋,和Shogi,并在Atari中为每次搜索提供50个模拟。
关于Go,尽管使用了较少的整体计算,MuZero的性能还是略超过AlphaZero的性能,研究人员说,这证明它可能已经对其位置有了更深入的了解。至于Atari,MuZero在57场比赛中的均值和中位数归一化得分均达到了新的水平,在57场比赛中的42场中表现优于先前的最新方法(R2D2),并且表现优于先前的最佳模型所有游戏中基于方法的方法。
接下来,研究人员评估了MuZero的一个版本-MuZero Reanalyze,该版本已进行了优化,可提高采样效率,并将其应用于75场Atari游戏中,每场游戏总共拥有2亿帧经验。他们报告说,它管理的标准化分数中位数为731%,而之前的最新无模型方法IMPALA,Rainbow和LASER分别为192%,231%和431%,同时所需的培训时间大大减少(12小时与Rainbow的10天相比)。
最后,为了更好地了解该模型在MuZero中扮演的角色,团队将重点放在Go和Pac-Man女士身上。他们将使用完美模型的AlphaZero搜索与使用学习模型的MuZero的搜索性能进行了比较,他们发现MuZero甚至在进行比经过训练的搜索更大的搜索时,也可以匹配完美模型的性能。实际上,每步仅进行6次模拟-少于每次执行的模拟次数,不足以覆盖吃豆女士的所有8种可能的行动-MuZero学会了有效的政策并“迅速得到改善”。
研究人员写道:“人工智能的许多突破都基于高性能计划。” “在本文中,我们介绍了一种结合了两种方法的优势的方法。我们的算法MuZero在其所喜欢的领域(逻辑复杂的棋类游戏,如国际象棋和围棋)都与高性能规划算法的超人性能相匹配,并且在性能上优于最新的无模型[强化学习]算法他们喜欢的领域-外观复杂的Atari游戏。”