振东制药达霏欣创新推出“内服外治”方案：焕活毛囊新生

发布时间：2025/07/24

近年来，随着生活压力加剧、作息不规律及环境因素影响，脱发、白发问题呈现年轻化趋势，成为困扰现代人的普遍健康难题。面对庞大的市场需求，传统单一治疗手段逐渐显露出局限性。近日，专注毛发健康领域22年的达...
和平精英上线具有长期记忆的AI明星队友

发布时间：2025/07/14

《和平精英》六周年新版本限时模式推出的“绝地指挥”玩法，凭借玩家与AI队友组队的创新体验，收获了如潮好评。如今，“绝地指挥2.0”迎来重磅升级！腾讯游戏首位具有长期记忆能力的明星AI队友——“花傲天”正式登场！7...
振东集团的”本草革命”：让中药材跳出药罐子，闯出大健康新天地

发布时间：2025/06/10

红球纷飞传三晋，大爱无边漫九州。5月25日，由中国红十字会总会主办，山西振东健康产业集团赞助的“红气球挑战赛”（晋中站）在山西省高校新区（山西大学城）鸣笛开赛。该赛事汇聚了来自全国各地及山西大学城高校的...
振东集团：32年慈善长跑背后的“共富密码”

发布时间：2025/06/03

在商业与公益的天平上，山西振东健康产业集团选择了后者——即便负债也要坚持的”变态慈善”。这家从太行山走出的民营企业，用32年时间构建起一套独特的公益生态系统，累计捐赠超10亿元，将”与民同...

第三批专项债六月底发完项目完成审核

发布时间：2020/04/06

财政部副部长许宏才4月3日在新闻发布会上表示，今年以来，根据全国人大常委会授权，财政部提前下达了2020年部分新增专项债券额度12900亿元。截至2020年3月31日，全国各地发行新增专项债券1.08万亿元，占84%，发行...
国美零售转型加速携拼多多“迎战”零售业大考

发布时间：2020/04/06

随着国内疫情初步得到控制，零售消费市场也在逐渐恢复运转。日前，国务院联防联控机制举办新闻发布会。商务部消费促进司负责人王斌在会上指出，将千方百计促进消费回补和潜力释放，壮大新型消费和升级消费，扩大...
美新冠疫情蔓延，建霖家居等IPO企业受累

发布时间：2020/04/06

编者按：随着疫情蔓延，全球新冠肺炎确诊病例已突破百万，累计死亡超5万例，其中，美国确诊超过23万例，欧洲确诊超过50万例。作为全球经济重要力量的欧美地区，其疫情将对IPO企业产生什么影响？ “有一天美国将成...
信托代销哪家强?招行去年赚64亿

发布时间：2020/04/04

证券时报记者杨卓卿随着银行年报密集披露，一些行业巨头代销信托产品的情况也浮出水面。证券时报记者注意到，“零售之王”招商银行2019年代销的信托产品规模超过3000亿元，借此实现64.32亿元的手续费及佣金收入...

DeepMind提出了一种新颖的方法来训练“安全”强化学习AI

发布时间：2019/12/16 新闻 浏览次数：864

强化学习代理程序(或通过奖励(或惩罚)逐步推动实现目标的AI)构成了自动驾驶汽车，灵巧机器人和药物发现系统的基础。但是，由于他们倾向于探索陌生的状态，因此他们容易受到所谓的安全探索问题的困扰，从而使他们陷入了不安全的状态(例如，移动机器人驶入沟渠)。
因此，Alphabet的DeepMind研究人员在论文中研究了一种奖励建模方法，该方法分为两个阶段运行，并且适用于代理商不知道可能处于不安全状态的环境。研究人员说，他们的方法不仅成功地训练了奖励模型以检测不安全状态而不访问它们，而且还可以在部署代理之前纠正奖励黑客行为(奖励规范中的漏洞)，即使是在新的陌生环境中也是如此。
有趣的是，他们的工作是在位于旧金山的研究公司OpenAI的Safety Gym发布后不久进行的。这是一套用于开发AI的工具，该AI在培训时尊重安全约束，并将其“安全性”与在学习中避免错误的程度进行了比较。安全体育馆同样以“约束强化学习”为目标，针对强化学习代理，该范式要求AI系统进行权衡以实现确定的结果。
DeepMind小组的方法鼓励代理人通过两个系统生成的假设行为来探索一系列状态：初始状态的生成模型和正向动力学模型，这两个系统都接受了随机轨迹或安全专家演示等数据的训练。主管人员用奖励来标记行为，代理人以交互方式学习策略以最大化其奖励。只有在代理成功学会了预测奖励和不安全状态后，他们才被部署执行所需的任务。
正如研究人员所指出的那样，关键思想是从头开始对假设行为进行主动综合，使它们尽可能多地提供信息，而无需与环境直接交互。 DeepMind团队称其为通过轨迹优化或ReQueST奖励查询综合，并解释说它总共产生四种类型的假设行为。第一种最大化奖励模型集合的不确定性，而第二种和第三种最大化预测的奖励(为具有最高信息值的行为贴上标签)，并最小化预测的奖励(对奖励模型可能不正确的表面行为)预测)。至于行为的第四类，它使轨迹的新颖性最大化，从而无论预期的回报如何都鼓励探索。
最后，一旦奖励模型达到令人满意的状态，便会部署基于计划的代理，该代理利用模型预测控制(MPC)来选择针对学习的奖励进行了优化的操作。与通过试错法学习的无模型强化学习算法不同，此MPC通过使用动力学模型来预测动作的后果，使代理能够避免不安全状态。
该研究的合著者写道：“据我们所知，ReQueST是第一种安全地了解不安全状态的奖励建模算法，并且可以扩展到在具有高维，连续状态的环境中训练神经网络奖励模型。” “到目前为止，我们仅通过相对简单的动力学就证明了ReQueST在模拟域中的有效性。未来工作的一个方向是在3D领域中使用更逼真的物理学和在环境中起作用的其他代理来测试ReQueST。”

上一篇: 监管即将到来：初创企业应如何考虑数据，安全性和隐私

下一篇: Xbox Series X是微软的下一个游戏机，将于2020年假期推出

相关推荐