《一心·一艺》，以专注致敬传承，以匠心诠释永恒

发布时间：2025/11/05

2025年10月18日，在千年文脉与现代时尚交汇之地的杭州，哥本哈根皮草“臻萃之选”年度盛会隆重启幕。全球顶级皮草原料供应商哥本哈根皮草旗下的高端线上零售品牌联盟“臻萃之选”正式揭幕年度活动主题——“The Fur Code...
喜报！中科星图荣获“金牛奖”两项大奖，“创新与投资价值”载誉前行

发布时间：2025/11/02

10月29日，由中国证券报和南通市人民政府联合主办的2025上市公司高质量发展论坛暨第二十七届上市公司金牛奖颁奖典礼在南通市举办。本届评选中，中科星图股份有限公司（以下简称“中科星图”）荣获“2024年度最具投资...
振东制药达霏欣创新推出“内服外治”方案：焕活毛囊新生

发布时间：2025/07/24

近年来，随着生活压力加剧、作息不规律及环境因素影响，脱发、白发问题呈现年轻化趋势，成为困扰现代人的普遍健康难题。面对庞大的市场需求，传统单一治疗手段逐渐显露出局限性。近日，专注毛发健康领域22年的达...
和平精英上线具有长期记忆的AI明星队友

发布时间：2025/07/14

《和平精英》六周年新版本限时模式推出的“绝地指挥”玩法，凭借玩家与AI队友组队的创新体验，收获了如潮好评。如今，“绝地指挥2.0”迎来重磅升级！腾讯游戏首位具有长期记忆能力的明星AI队友——“花傲天”正式登场！7...

第三批专项债六月底发完项目完成审核

发布时间：2020/04/06

财政部副部长许宏才4月3日在新闻发布会上表示，今年以来，根据全国人大常委会授权，财政部提前下达了2020年部分新增专项债券额度12900亿元。截至2020年3月31日，全国各地发行新增专项债券1.08万亿元，占84%，发行...
国美零售转型加速携拼多多“迎战”零售业大考

发布时间：2020/04/06

随着国内疫情初步得到控制，零售消费市场也在逐渐恢复运转。日前，国务院联防联控机制举办新闻发布会。商务部消费促进司负责人王斌在会上指出，将千方百计促进消费回补和潜力释放，壮大新型消费和升级消费，扩大...
美新冠疫情蔓延，建霖家居等IPO企业受累

发布时间：2020/04/06

编者按：随着疫情蔓延，全球新冠肺炎确诊病例已突破百万，累计死亡超5万例，其中，美国确诊超过23万例，欧洲确诊超过50万例。作为全球经济重要力量的欧美地区，其疫情将对IPO企业产生什么影响？ “有一天美国将成...
信托代销哪家强?招行去年赚64亿

发布时间：2020/04/04

证券时报记者杨卓卿随着银行年报密集披露，一些行业巨头代销信托产品的情况也浮出水面。证券时报记者注意到，“零售之王”招商银行2019年代销的信托产品规模超过3000亿元，借此实现64.32亿元的手续费及佣金收入...

DeepMind研究人员介绍了解决机器人控制问题的混合解决方案

发布时间：2020/01/07 新闻 浏览次数：0

机器人技术的基本问题既涉及离散变量(如控制模式或齿轮切换的选择)，又涉及连续变量(如速度设定点和控制增益)。由于通常并不总是最适合哪种算法或控制策略，因此通常很难解决这些问题。这就是为什么Google母公司Alphabet的DeepMind的研究人员最近提出了一种技术-连续离散混合学习-可以同时优化离散和连续动作，以其本机形式处理混合问题。
在预印本服务器Arxiv.org上发表的一篇论文详细介绍了他们的工作，该论文已于2019年10月在日本大阪举行的第三届机器人学习会议上接受。“许多最先进的方法都经过优化，可以工作共同作者写道：“无论是离散的还是连续的动作空间，它都能很好地完成任务，但是很少能同时处理这两个……或者在一个参数化中比另一个参数执行得更好。” “能够使用同一算法强大地处理离散和连续动作，使我们能够针对任何给定问题选择最自然的解决方案策略，而不是让算法上的便利性来决定这种选择。”
团队的无模型算法-利用强化学习，或奖励自主代理商实现目标的培训技术-通过连续和离散动作空间解决控制问题，并通过受控和自主切换解决混合最优控制问题。此外，它通过使用“元动作”或其他类似方案来扩大动作空间(分别定义了代理可能感知和采取的可能状态和动作的范围)，从而为解决现有的机器人问题提供了新颖的解决方案，从而实现了可以解决的策略AI训练期间的机械磨损等挑战。
研究人员在一系列模拟和现实基准测试中验证了他们的方法，包括Rethink Robotics Sawyer机器人手臂。据说，给定达到，抓取和提升立方体的任务，其中奖励是三个子任务的总和，因此它们的算法要优于无法解决任务的现有方法。
那是因为到达魔方需要特工打开手臂的抓具，而抓住方块需要关闭抓具。共同作者写道：“ [基线]政策最初将大部分概率集中在较小的行动价值上，因此将努力使抓手的手指移动到足以看到任何抓手奖励的程度，从而解释了学习曲线上的平稳期。” “另一方面，[我们的方法]始终以全速操作抓爪，因此改进了探查性，使机器人可以完全解决任务。”
在一个单独的实验中，团队将其算法设置为参数化动作空间马尔可夫决策过程(PAMDP)或一个分层问题，在该问题中，代理首先选择离散动作，然后为该动作选择连续的参数集。在这种情况下，特工的任务是操纵机器人手臂，以便将钉子插入孔中，然后根据孔的位置和运动学来计算奖励。
他们说，他们的方法比精细方法和粗略方法都获得了更大的回报，他们断言它可以作为将来“更多”应用混合强化学习的基础。他们写道：“对于专业设计师而言，事先选择合适的模式可能很困难。” “ [我们的方法是有益的，因为它只需要一个实验，而[替代方案]……则需要通过消融进行验证。”

上一篇: 美国国家航空航天局(NASA)的行星狩猎卫星发现了另一个可能居住的地球大小的星球

下一篇: GSAE荣获金鸥奖2019年度最具国际影响力项目奖

相关推荐