新闻
您现在的位置:首页 > 新闻 > Google Brain和DeepMind研究人员攻击强化学习效率
  • 第三批专项债六月底发完 项目完成审核

    第三批专项债六月底发完 项目完成审核

    发布时间:2020/04/06

    财政部副部长许宏才4月3日在新闻发布会上表示,今年以来,根据全国人大常委会授权,财政部提前下达了2020年部分新增专项债券额度12900亿元。截至2020年3月31日,全国各地发行新增专项债券1.08万亿元,占84%,发行...

  • 国美零售转型加速 携拼多多“迎战”零售业大考

    国美零售转型加速 携拼多多“迎战”零售业大考

    发布时间:2020/04/06

    随着国内疫情初步得到控制,零售消费市场也在逐渐恢复运转。日前,国务院联防联控机制举办新闻发布会。商务部消费促进司负责人王斌在会上指出,将千方百计促进消费回补和潜力释放,壮大新型消费和升级消费,扩大...

  • 美新冠疫情蔓延,建霖家居等IPO企业受累

    美新冠疫情蔓延,建霖家居等IPO企业受累

    发布时间:2020/04/06

    编者按: 随着疫情蔓延,全球新冠肺炎确诊病例已突破百万,累计死亡超5万例,其中,美国确诊超过23万例,欧洲确诊超过50万例。作为全球经济重要力量的欧美地区,其疫情将对IPO企业产生什么影响? “有一天美国将成...

  • 信托代销哪家强?招行去年赚64亿

    信托代销哪家强?招行去年赚64亿

    发布时间:2020/04/04

    证券时报记者 杨卓卿 随着银行年报密集披露,一些行业巨头代销信托产品的情况也浮出水面。 证券时报记者注意到,“零售之王”招商银行2019年代销的信托产品规模超过3000亿元,借此实现64.32亿元的手续费及佣金收入...

Google Brain和DeepMind研究人员攻击强化学习效率

发布时间:2020/02/19 新闻 浏览次数:765

 
强化学习是一种训练形式,可促使AI通过奖励或惩罚来完成目标,从而使机器人技术,语音合成等获得了增长。不幸的是,它是数据密集型的,它激发了研究团队的动力—一个来自Google Brain(Google的AI研究部门之一)和另一个来自Alphabet的DeepMind的研究团队—制定了更有效的执行方法的原型。在一对预印本论文中,研究人员提出了自适应行为策略共享(ABPS),一种允许共享从AI代理池中自适应选择的经验的算法以及一种框架-通用价值函数近似器(UVFA),该框架可以同时学习具有相同AI的定向勘探策略,但在勘探和开发之间要权衡取舍。
这些团队声称ABPS在几款Atari游戏中均表现出色,将顶级特工的差异减少了25%。至于UVFA,它在许多相同游戏中的“艰苦探索”中使基础特工的性能翻了一番,同时在其余游戏中保持了高分;它是第一种无需人工演示或手工制作的功能即可在Pitfall中获得高分的算法。
ABPS
正如研究人员所解释的那样,强化学习在实际应用中面临着实际的限制,因为从计算上来说,强化学习通常很昂贵且很耗时。超参数(其值是在学习过程开始之前设置的)的调整是优化强化学习中算法的关键,但它们需要通过与环境的交互来收集数据。
ABPS旨在通过允许从多个代理中选择的行为策略(即状态-动作映射,其中“状态”代表世界状态,而“动作”是指应采取的动作)来分享经验,从而加快这一过程训练有不同的超参数。具体来说,它包含一个强化学习代理,该代理根据策略从法律集中选择一项操作,然后获得奖励和下一个状态所确定的观察结果。
训练上述代理涉及生成一组超参数,其中选择了一组AI体系结构和优化超参数(例如学习速率,衰减周期等)。目标是找到最佳集合,以使用该集合训练的代理获得最佳评估结果,同时通过同时训练代理并在每个步骤中仅选择一个要部署的行为代理来提高超参数调整中的数据效率。
所选代理的策略用于对操作进行采样,并且过渡存储在共享空间中,该共享空间会不断评估以减少策略选择的频率。在培训结束时获得一组代理,然后从中选择一个或多个绩效最高的代理进行服务。与其检查训练期间收集的行为策略奖励,不如在每个训练时期为每个特工运行一个单独的50集在线评估,以便在线评估奖反映池中特工的表现。
在一个实验中,该团队训练了四个特工的合奏,每个人在Pong和Breakout上使用一种候选架构,而在拳击中则使用了八种特工的小型架构的变体。他们报告说,ABPS方法在所有三个游戏上都具有更好的性能,并且即使使用与单个代理相同的环境操作数,随机策略选择也可以达到相同的性能水平。
紫外线
探索仍然是强化学习中的主要挑战之一,部分原因是由于馈赠薄弱奖励的特工有时无法学习任务。 UVFA不能完全解决这个问题,但是它试图通过共同学习源自同一AI的单独的勘探和开发策略来解决该问题,以使开发策略可以专注于最大化外部奖励(解决手头的任务)而探索者不断探索。
正如研究人员所解释的那样,UVFA对探索性政策的学习有助于建立一个共享的体系结构,即使在没有内在的或自然的奖励的情况下,这种体系结构仍会继续发展。强化学习有助于近似于与多个内在奖励相对应的最佳功能,从而鼓励特工访问环境中的所有状态,同时定期在几个情节中重新访问熟悉(但可能未充分探索)的状态。
它可以通过两个模块来实现:情景新颖性模块和可选的终身新颖性模块。情节新颖性模块包含情节记忆和嵌入功能,该功能将当前观察结果映射到学习的表示形式,以便代理在每个步骤中都计算出情节内在奖励,并将与当前观察结果相对应的状态附加到记忆中。至于终生的新颖性模块,它提供了一个信号来控制跨多个情节的探索量。
具体而言,内在报酬直接作为对代理人的输入,而代理人维护一个内部状态表示,该情节总结了情节中所有输入(状态,动作和奖励)的历史。重要的是,奖励不会随着时间的流逝而消失,以确保所学政策始终部分地受其推动。
在实验中,研究小组报告说,拟议的特工在包括Pitfall在内的所有Atari“艰苦探索”游戏中均取得了高分,同时在一系列基准游戏中仍保持了较高的平均分。他们说,通过在分散的培训体系结构上运行几天的大量计算,这些体系结构可以在不同的环境中并行地从参与者那里收集经验,他们说UVFA使代理能够展现“卓越”的性能。