-
LAIFE「巢汐Tide」 新品发布会盛大召开,“美似潮汐,更迭永续”引领抗衰新潮流
发布时间:2025/01/14
近日,LAIFE乐梵举办了一场盛大的红宝瓶2.0新品发布会,吸引了众多业内人士及媒体的关注。 *LAIFE「巢汐Tide」美似潮汐、更迭永续新品发布会现场 LAIFE乐梵作为全球领先的长寿科技企业,一直致力于利用前沿科技为...
-
Weshare:专业金融服务平台,助力企业成长加速
发布时间:2024/09/04
进入新经济时代,随着创新创业和产业再升级,企业成长发展面临新的机遇和挑战,对人力、技术、资金、信息等资源的需求量剧增,大批成长性企业缺少专业化的金融“加速”服务。 Weshare为创新企业赋能 为应对企业发展...
-
贵阳市云岩区溯源纠纷调解服务所暨“矛盾纠纷多元化解联合体”成立
发布时间:2024/06/11
2024 年 6 月 7 日,贵阳市云岩区溯源纠纷调解服务所暨“矛盾纠纷多元化解联合体”成立大会盛大举行。此次大会参会人员包括阎毅、杨健铭、丁鲁黔等在内的 30 余位各界人士。 身为金牌调解员的阎毅,凭借其丰富的调...
-
营销与经营深度一体,巨量引擎助力品牌撬动全渠道增长
发布时间:2024/01/30
过去十年,中国企业在数字营销上的投入快速增长。根据eMarketer的数据,2023年国内数字广告的投入将达到1361亿美元,增长14.8%。数字营销已经成为品牌方最大的经营成本之一。面对如此巨大的投入,品牌方的管理层...
-
第三批专项债六月底发完 项目完成审核
发布时间:2020/04/06
财政部副部长许宏才4月3日在新闻发布会上表示,今年以来,根据全国人大常委会授权,财政部提前下达了2020年部分新增专项债券额度12900亿元。截至2020年3月31日,全国各地发行新增专项债券1.08万亿元,占84%,发行...
-
国美零售转型加速 携拼多多“迎战”零售业大考
发布时间:2020/04/06
随着国内疫情初步得到控制,零售消费市场也在逐渐恢复运转。日前,国务院联防联控机制举办新闻发布会。商务部消费促进司负责人王斌在会上指出,将千方百计促进消费回补和潜力释放,壮大新型消费和升级消费,扩大...
-
美新冠疫情蔓延,建霖家居等IPO企业受累
发布时间:2020/04/06
编者按: 随着疫情蔓延,全球新冠肺炎确诊病例已突破百万,累计死亡超5万例,其中,美国确诊超过23万例,欧洲确诊超过50万例。作为全球经济重要力量的欧美地区,其疫情将对IPO企业产生什么影响? “有一天美国将成...
-
信托代销哪家强?招行去年赚64亿
发布时间:2020/04/04
证券时报记者 杨卓卿 随着银行年报密集披露,一些行业巨头代销信托产品的情况也浮出水面。 证券时报记者注意到,“零售之王”招商银行2019年代销的信托产品规模超过3000亿元,借此实现64.32亿元的手续费及佣金收入...
DeepMind研究人员介绍了解决机器人控制问题的混合解决方案
发布时间:2020/01/07 新闻 浏览次数:901
机器人技术的基本问题既涉及离散变量(如控制模式或齿轮切换的选择),又涉及连续变量(如速度设定点和控制增益)。由于通常并不总是最适合哪种算法或控制策略,因此通常很难解决这些问题。这就是为什么Google母公司Alphabet的DeepMind的研究人员最近提出了一种技术-连续离散混合学习-可以同时优化离散和连续动作,以其本机形式处理混合问题。
在预印本服务器Arxiv.org上发表的一篇论文详细介绍了他们的工作,该论文已于2019年10月在日本大阪举行的第三届机器人学习会议上接受。“许多最先进的方法都经过优化,可以工作共同作者写道:“无论是离散的还是连续的动作空间,它都能很好地完成任务,但是很少能同时处理这两个……或者在一个参数化中比另一个参数执行得更好。” “能够使用同一算法强大地处理离散和连续动作,使我们能够针对任何给定问题选择最自然的解决方案策略,而不是让算法上的便利性来决定这种选择。”
团队的无模型算法-利用强化学习,或奖励自主代理商实现目标的培训技术-通过连续和离散动作空间解决控制问题,并通过受控和自主切换解决混合最优控制问题。此外,它通过使用“元动作”或其他类似方案来扩大动作空间(分别定义了代理可能感知和采取的可能状态和动作的范围),从而为解决现有的机器人问题提供了新颖的解决方案,从而实现了可以解决的策略AI训练期间的机械磨损等挑战。
研究人员在一系列模拟和现实基准测试中验证了他们的方法,包括Rethink Robotics Sawyer机器人手臂。据说,给定达到,抓取和提升立方体的任务,其中奖励是三个子任务的总和,因此它们的算法要优于无法解决任务的现有方法。
那是因为到达魔方需要特工打开手臂的抓具,而抓住方块需要关闭抓具。共同作者写道:“ [基线]政策最初将大部分概率集中在较小的行动价值上,因此将努力使抓手的手指移动到足以看到任何抓手奖励的程度,从而解释了学习曲线上的平稳期。” “另一方面,[我们的方法]始终以全速操作抓爪,因此改进了探查性,使机器人可以完全解决任务。”
在一个单独的实验中,团队将其算法设置为参数化动作空间马尔可夫决策过程(PAMDP)或一个分层问题,在该问题中,代理首先选择离散动作,然后为该动作选择连续的参数集。在这种情况下,特工的任务是操纵机器人手臂,以便将钉子插入孔中,然后根据孔的位置和运动学来计算奖励。
他们说,他们的方法比精细方法和粗略方法都获得了更大的回报,他们断言它可以作为将来“更多”应用混合强化学习的基础。他们写道:“对于专业设计师而言,事先选择合适的模式可能很困难。” “ [我们的方法是有益的,因为它只需要一个实验,而[替代方案]……则需要通过消融进行验证。”