-
营销与经营深度一体,巨量引擎助力品牌撬动全渠道增长
发布时间:2024/01/30
过去十年,中国企业在数字营销上的投入快速增长。根据eMarketer的数据,2023年国内数字广告的投入将达到1361亿美元,增长14.8%。数字营销已经成为品牌方最大的经营成本之一。面对如此巨大的投入,品牌方的管理层...
-
路特斯TYPE 136于广州车展正式上市 首批铂金限量版开启发售
发布时间:2023/11/18
【中国广州,2023年11月18日】承袭赛道基因,铸就破风典范。近日,路特斯携旗下全球首台灵活动力公路自行车TYPE 136于广州车展荣耀上市,并正式开启限量发售。首批车主将升级铂金限量版,全球仅发售136台。路特斯...
-
助力蔗糖产业长足发展!招商期货参与的孟连县白糖“保险+期货”试点项目启动
发布时间:2022/11/23
11月4日,招商期货有限公司(以下称“招商期货”)参与的郑商所2022年孟连县白糖“保险+期货”试点项目在孟连县举行启动仪式,本次项目由招商期货与光大期货、中信建投期货、中国人寿财产保险股份有限公司云南省分公...
-
门窗行业复刻定制家居高光时刻,森鹰窗业上市成起点?
发布时间:2022/09/25
据悉,9月26日,森鹰窗业股份有限公司(以下简称森鹰窗业)将举办上市敲钟仪式,正式登陆深交所。 森鹰窗业是目前沪深两市第一家细分行业为“C2032木门窗制造”的上市公司。 这让笔者不禁想起2011年定制家居行业首...
-
第三批专项债六月底发完 项目完成审核
发布时间:2020/04/06
财政部副部长许宏才4月3日在新闻发布会上表示,今年以来,根据全国人大常委会授权,财政部提前下达了2020年部分新增专项债券额度12900亿元。截至2020年3月31日,全国各地发行新增专项债券1.08万亿元,占84%,发行...
-
国美零售转型加速 携拼多多“迎战”零售业大考
发布时间:2020/04/06
随着国内疫情初步得到控制,零售消费市场也在逐渐恢复运转。日前,国务院联防联控机制举办新闻发布会。商务部消费促进司负责人王斌在会上指出,将千方百计促进消费回补和潜力释放,壮大新型消费和升级消费,扩大...
-
美新冠疫情蔓延,建霖家居等IPO企业受累
发布时间:2020/04/06
编者按: 随着疫情蔓延,全球新冠肺炎确诊病例已突破百万,累计死亡超5万例,其中,美国确诊超过23万例,欧洲确诊超过50万例。作为全球经济重要力量的欧美地区,其疫情将对IPO企业产生什么影响? “有一天美国将成...
-
信托代销哪家强?招行去年赚64亿
发布时间:2020/04/04
证券时报记者 杨卓卿 随着银行年报密集披露,一些行业巨头代销信托产品的情况也浮出水面。 证券时报记者注意到,“零售之王”招商银行2019年代销的信托产品规模超过3000亿元,借此实现64.32亿元的手续费及佣金收入...
DeepMind研究人员介绍了解决机器人控制问题的混合解决方案
发布时间:2020/01/07 新闻 浏览次数:795
机器人技术的基本问题既涉及离散变量(如控制模式或齿轮切换的选择),又涉及连续变量(如速度设定点和控制增益)。由于通常并不总是最适合哪种算法或控制策略,因此通常很难解决这些问题。这就是为什么Google母公司Alphabet的DeepMind的研究人员最近提出了一种技术-连续离散混合学习-可以同时优化离散和连续动作,以其本机形式处理混合问题。
在预印本服务器Arxiv.org上发表的一篇论文详细介绍了他们的工作,该论文已于2019年10月在日本大阪举行的第三届机器人学习会议上接受。“许多最先进的方法都经过优化,可以工作共同作者写道:“无论是离散的还是连续的动作空间,它都能很好地完成任务,但是很少能同时处理这两个……或者在一个参数化中比另一个参数执行得更好。” “能够使用同一算法强大地处理离散和连续动作,使我们能够针对任何给定问题选择最自然的解决方案策略,而不是让算法上的便利性来决定这种选择。”
团队的无模型算法-利用强化学习,或奖励自主代理商实现目标的培训技术-通过连续和离散动作空间解决控制问题,并通过受控和自主切换解决混合最优控制问题。此外,它通过使用“元动作”或其他类似方案来扩大动作空间(分别定义了代理可能感知和采取的可能状态和动作的范围),从而为解决现有的机器人问题提供了新颖的解决方案,从而实现了可以解决的策略AI训练期间的机械磨损等挑战。
研究人员在一系列模拟和现实基准测试中验证了他们的方法,包括Rethink Robotics Sawyer机器人手臂。据说,给定达到,抓取和提升立方体的任务,其中奖励是三个子任务的总和,因此它们的算法要优于无法解决任务的现有方法。
那是因为到达魔方需要特工打开手臂的抓具,而抓住方块需要关闭抓具。共同作者写道:“ [基线]政策最初将大部分概率集中在较小的行动价值上,因此将努力使抓手的手指移动到足以看到任何抓手奖励的程度,从而解释了学习曲线上的平稳期。” “另一方面,[我们的方法]始终以全速操作抓爪,因此改进了探查性,使机器人可以完全解决任务。”
在一个单独的实验中,团队将其算法设置为参数化动作空间马尔可夫决策过程(PAMDP)或一个分层问题,在该问题中,代理首先选择离散动作,然后为该动作选择连续的参数集。在这种情况下,特工的任务是操纵机器人手臂,以便将钉子插入孔中,然后根据孔的位置和运动学来计算奖励。
他们说,他们的方法比精细方法和粗略方法都获得了更大的回报,他们断言它可以作为将来“更多”应用混合强化学习的基础。他们写道:“对于专业设计师而言,事先选择合适的模式可能很困难。” “ [我们的方法是有益的,因为它只需要一个实验,而[替代方案]……则需要通过消融进行验证。”