新闻
您现在的位置:首页 > 新闻 > DeepMind提出了一种新颖的方法来训练“安全”强化学习AI
  • 第三批专项债六月底发完 项目完成审核

    第三批专项债六月底发完 项目完成审核

    发布时间:2020/04/06

    财政部副部长许宏才4月3日在新闻发布会上表示,今年以来,根据全国人大常委会授权,财政部提前下达了2020年部分新增专项债券额度12900亿元。截至2020年3月31日,全国各地发行新增专项债券1.08万亿元,占84%,发行...

  • 国美零售转型加速 携拼多多“迎战”零售业大考

    国美零售转型加速 携拼多多“迎战”零售业大考

    发布时间:2020/04/06

    随着国内疫情初步得到控制,零售消费市场也在逐渐恢复运转。日前,国务院联防联控机制举办新闻发布会。商务部消费促进司负责人王斌在会上指出,将千方百计促进消费回补和潜力释放,壮大新型消费和升级消费,扩大...

  • 美新冠疫情蔓延,建霖家居等IPO企业受累

    美新冠疫情蔓延,建霖家居等IPO企业受累

    发布时间:2020/04/06

    编者按: 随着疫情蔓延,全球新冠肺炎确诊病例已突破百万,累计死亡超5万例,其中,美国确诊超过23万例,欧洲确诊超过50万例。作为全球经济重要力量的欧美地区,其疫情将对IPO企业产生什么影响? “有一天美国将成...

  • 信托代销哪家强?招行去年赚64亿

    信托代销哪家强?招行去年赚64亿

    发布时间:2020/04/04

    证券时报记者 杨卓卿 随着银行年报密集披露,一些行业巨头代销信托产品的情况也浮出水面。 证券时报记者注意到,“零售之王”招商银行2019年代销的信托产品规模超过3000亿元,借此实现64.32亿元的手续费及佣金收入...

DeepMind提出了一种新颖的方法来训练“安全”强化学习AI

发布时间:2019/12/16 新闻 浏览次数:702

 
强化学习代理程序(或通过奖励(或惩罚)逐步推动实现目标的AI)构成了自动驾驶汽车,灵巧机器人和药物发现系统的基础。但是,由于他们倾向于探索陌生的状态,因此他们容易受到所谓的安全探索问题的困扰,从而使他们陷入了不安全的状态(例如,移动机器人驶入沟渠)。
因此,Alphabet的DeepMind研究人员在论文中研究了一种奖励建模方法,该方法分为两个阶段运行,并且适用于代理商不知道可能处于不安全状态的环境。研究人员说,他们的方法不仅成功地训练了奖励模型以检测不安全状态而不访问它们,而且还可以在部署代理之前纠正奖励黑客行为(奖励规范中的漏洞),即使是在新的陌生环境中也是如此。
有趣的是,他们的工作是在位于旧金山的研究公司OpenAI的Safety Gym发布后不久进行的。这是一套用于开发AI的工具,该AI在培训时尊重安全约束,并将其“安全性”与在学习中避免错误的程度进行了比较。安全体育馆同样以“约束强化学习”为目标,针对强化学习代理,该范式要求AI系统进行权衡以实现确定的结果。
DeepMind小组的方法鼓励代理人通过两个系统生成的假设行为来探索一系列状态:初始状态的生成模型和正向动力学模型,这两个系统都接受了随机轨迹或安全专家演示等数据的训练。主管人员用奖励来标记行为,代理人以交互方式学习策略以最大化其奖励。只有在代理成功学会了预测奖励和不安全状态后,他们才被部署执行所需的任务。
正如研究人员所指出的那样,关键思想是从头开始对假设行为进行主动综合,使它们尽可能多地提供信息,而无需与环境直接交互。 DeepMind团队称其为通过轨迹优化或ReQueST奖励查询综合,并解释说它总共产生四种类型的假设行为。第一种最大化奖励模型集合的不确定性,而第二种和第三种最大化预测的奖励(为具有最高信息值的行为贴上标签),并最小化预测的奖励(对奖励模型可能不正确的表面行为)预测)。至于行为的第四类,它使轨迹的新颖性最大化,从而无论预期的回报如何都鼓励探索。
最后,一旦奖励模型达到令人满意的状态,便会部署基于计划的代理,该代理利用模型预测控制(MPC)来选择针对学习的奖励进行了优化的操作。与通过试错法学习的无模型强化学习算法不同,此MPC通过使用动力学模型来预测动作的后果,使代理能够避免不安全状态。
该研究的合著者写道:“据我们所知,ReQueST是第一种安全地了解不安全状态的奖励建模算法,并且可以扩展到在具有高维,连续状态的环境中训练神经网络奖励模型。” “到目前为止,我们仅通过相对简单的动力学就证明了ReQueST在模拟域中的有效性。未来工作的一个方向是在3D领域中使用更逼真的物理学和在环境中起作用的其他代理来测试ReQueST。”