新闻
您现在的位置:首页 > 新闻 > 人工智能学习技术可以说明大脑奖励路径的功能
  • 第三批专项债六月底发完 项目完成审核

    第三批专项债六月底发完 项目完成审核

    发布时间:2020/04/06

    财政部副部长许宏才4月3日在新闻发布会上表示,今年以来,根据全国人大常委会授权,财政部提前下达了2020年部分新增专项债券额度12900亿元。截至2020年3月31日,全国各地发行新增专项债券1.08万亿元,占84%,发行...

  • 国美零售转型加速 携拼多多“迎战”零售业大考

    国美零售转型加速 携拼多多“迎战”零售业大考

    发布时间:2020/04/06

    随着国内疫情初步得到控制,零售消费市场也在逐渐恢复运转。日前,国务院联防联控机制举办新闻发布会。商务部消费促进司负责人王斌在会上指出,将千方百计促进消费回补和潜力释放,壮大新型消费和升级消费,扩大...

  • 美新冠疫情蔓延,建霖家居等IPO企业受累

    美新冠疫情蔓延,建霖家居等IPO企业受累

    发布时间:2020/04/06

    编者按: 随着疫情蔓延,全球新冠肺炎确诊病例已突破百万,累计死亡超5万例,其中,美国确诊超过23万例,欧洲确诊超过50万例。作为全球经济重要力量的欧美地区,其疫情将对IPO企业产生什么影响? “有一天美国将成...

  • 信托代销哪家强?招行去年赚64亿

    信托代销哪家强?招行去年赚64亿

    发布时间:2020/04/04

    证券时报记者 杨卓卿 随着银行年报密集披露,一些行业巨头代销信托产品的情况也浮出水面。 证券时报记者注意到,“零售之王”招商银行2019年代销的信托产品规模超过3000亿元,借此实现64.32亿元的手续费及佣金收入...

人工智能学习技术可以说明大脑奖励路径的功能

发布时间:2020/01/21 新闻 浏览次数:652

 
来自DeepMind,大学学院和哈佛大学的一组研究人员发现,将学习技术应用于AI系统的经验教训可能有助于解释奖励途径如何在大脑中发挥作用。该小组在《自然》杂志上发表的论文中描述了将计算机中的分布强化学习与小鼠大脑中的多巴胺处理进行比较,以及他们从中学到的知识。
先前的研究表明,大脑中产生的多巴胺与奖赏过程有关-它是在发生好事时产生的,其表达会带来愉悦的感觉。一些研究还表明,大脑中对多巴胺的存在做出反应的神经元都以相同的方式做出反应-事件会使人或小鼠感觉好坏。其他研究表明,神经元反应更多是一个梯度。在这项新工作中,研究人员发现了支持后一种理论的证据。
分布式强化学习是一种基于强化的机器学习。在设计诸如Starcraft II或Go之类的游戏时经常使用它。它会跟踪好动作与坏动作之间的关系,并学会减少坏动作的数量,并发挥更多的性能。但是,这样的系统不会对所有好的和坏的动作都一视同仁-每个动作在记录时都经过加权,权重是做出未来动作选择时所使用的计算的一部分。
研究人员指出,人类似乎也使用类似的策略来提高他们的游戏水平。伦敦的研究人员怀疑,人工智能系统与大脑进行奖励处理的方式之间的相似性也可能相似。为了确定它们是否正确,他们对小鼠进行了实验。他们将能够插入单个多巴胺神经元反应的设备插入大脑。然后,对小鼠进行培训以执行一项任务,在这些任务中,它们会以期望的方式获得奖励。
小鼠神经元反应表明,它们并非都像先前理论所预测的那样以相同的方式反应。取而代之的是,他们以可靠的不同方式做出反应-就像团队所预测的那样,表明小鼠所体验到的愉悦程度更多是一种梯度。