新闻
您现在的位置:首页 > 新闻 > DeepMind研究人员介绍了解决机器人控制问题的混合解决方案
  • 第三批专项债六月底发完 项目完成审核

    第三批专项债六月底发完 项目完成审核

    发布时间:2020/04/06

    财政部副部长许宏才4月3日在新闻发布会上表示,今年以来,根据全国人大常委会授权,财政部提前下达了2020年部分新增专项债券额度12900亿元。截至2020年3月31日,全国各地发行新增专项债券1.08万亿元,占84%,发行...

  • 国美零售转型加速 携拼多多“迎战”零售业大考

    国美零售转型加速 携拼多多“迎战”零售业大考

    发布时间:2020/04/06

    随着国内疫情初步得到控制,零售消费市场也在逐渐恢复运转。日前,国务院联防联控机制举办新闻发布会。商务部消费促进司负责人王斌在会上指出,将千方百计促进消费回补和潜力释放,壮大新型消费和升级消费,扩大...

  • 美新冠疫情蔓延,建霖家居等IPO企业受累

    美新冠疫情蔓延,建霖家居等IPO企业受累

    发布时间:2020/04/06

    编者按: 随着疫情蔓延,全球新冠肺炎确诊病例已突破百万,累计死亡超5万例,其中,美国确诊超过23万例,欧洲确诊超过50万例。作为全球经济重要力量的欧美地区,其疫情将对IPO企业产生什么影响? “有一天美国将成...

  • 信托代销哪家强?招行去年赚64亿

    信托代销哪家强?招行去年赚64亿

    发布时间:2020/04/04

    证券时报记者 杨卓卿 随着银行年报密集披露,一些行业巨头代销信托产品的情况也浮出水面。 证券时报记者注意到,“零售之王”招商银行2019年代销的信托产品规模超过3000亿元,借此实现64.32亿元的手续费及佣金收入...

DeepMind研究人员介绍了解决机器人控制问题的混合解决方案

发布时间:2020/01/07 新闻 浏览次数:795

 
机器人技术的基本问题既涉及离散变量(如控制模式或齿轮切换的选择),又涉及连续变量(如速度设定点和控制增益)。由于通常并不总是最适合哪种算法或控制策略,因此通常很难解决这些问题。这就是为什么Google母公司Alphabet的DeepMind的研究人员最近提出了一种技术-连续离散混合学习-可以同时优化离散和连续动作,以其本机形式处理混合问题。
在预印本服务器Arxiv.org上发表的一篇论文详细介绍了他们的工作,该论文已于2019年10月在日本大阪举行的第三届机器人学习会议上接受。“许多最先进的方法都经过优化,可以工作共同作者写道:“无论是离散的还是连续的动作空间,它都能很好地完成任务,但是很少能同时处理这两个……或者在一个参数化中比另一个参数执行得更好。” “能够使用同一算法强大地处理离散和连续动作,使我们能够针对任何给定问题选择最自然的解决方案策略,而不是让算法上的便利性来决定这种选择。”
团队的无模型算法-利用强化学习,或奖励自主代理商实现目标的培训技术-通过连续和离散动作空间解决控制问题,并通过受控和自主切换解决混合最优控制问题。此外,它通过使用“元动作”或其他类似方案来扩大动作空间(分别定义了代理可能感知和采取的可能状态和动作的范围),从而为解决现有的机器人问题提供了新颖的解决方案,从而实现了可以解决的策略AI训练期间的机械磨损等挑战。
研究人员在一系列模拟和现实基准测试中验证了他们的方法,包括Rethink Robotics Sawyer机器人手臂。据说,给定达到,抓取和提升立方体的任务,其中奖励是三个子任务的总和,因此它们的算法要优于无法解决任务的现有方法。
那是因为到达魔方需要特工打开手臂的抓具,而抓住方块需要关闭抓具。共同作者写道:“ [基线]政策最初将大部分概率集中在较小的行动价值上,因此将努力使抓手的手指移动到足以看到任何抓手奖励的程度,从而解释了学习曲线上的平稳期。” “另一方面,[我们的方法]始终以全速操作抓爪,因此改进了探查性,使机器人可以完全解决任务。”
在一个单独的实验中,团队将其算法设置为参数化动作空间马尔可夫决策过程(PAMDP)或一个分层问题,在该问题中,代理首先选择离散动作,然后为该动作选择连续的参数集。在这种情况下,特工的任务是操纵机器人手臂,以便将钉子插入孔中,然后根据孔的位置和运动学来计算奖励。
他们说,他们的方法比精细方法和粗略方法都获得了更大的回报,他们断言它可以作为将来“更多”应用混合强化学习的基础。他们写道:“对于专业设计师而言,事先选择合适的模式可能很困难。” “ [我们的方法是有益的,因为它只需要一个实验,而[替代方案]……则需要通过消融进行验证。”