新闻
您现在的位置:首页 > 新闻 > DeepMind技术鼓励AI玩家在零和游戏中进行合作
  • 第三批专项债六月底发完 项目完成审核

    第三批专项债六月底发完 项目完成审核

    发布时间:2020/04/06

    财政部副部长许宏才4月3日在新闻发布会上表示,今年以来,根据全国人大常委会授权,财政部提前下达了2020年部分新增专项债券额度12900亿元。截至2020年3月31日,全国各地发行新增专项债券1.08万亿元,占84%,发行...

  • 国美零售转型加速 携拼多多“迎战”零售业大考

    国美零售转型加速 携拼多多“迎战”零售业大考

    发布时间:2020/04/06

    随着国内疫情初步得到控制,零售消费市场也在逐渐恢复运转。日前,国务院联防联控机制举办新闻发布会。商务部消费促进司负责人王斌在会上指出,将千方百计促进消费回补和潜力释放,壮大新型消费和升级消费,扩大...

  • 美新冠疫情蔓延,建霖家居等IPO企业受累

    美新冠疫情蔓延,建霖家居等IPO企业受累

    发布时间:2020/04/06

    编者按: 随着疫情蔓延,全球新冠肺炎确诊病例已突破百万,累计死亡超5万例,其中,美国确诊超过23万例,欧洲确诊超过50万例。作为全球经济重要力量的欧美地区,其疫情将对IPO企业产生什么影响? “有一天美国将成...

  • 信托代销哪家强?招行去年赚64亿

    信托代销哪家强?招行去年赚64亿

    发布时间:2020/04/04

    证券时报记者 杨卓卿 随着银行年报密集披露,一些行业巨头代销信托产品的情况也浮出水面。 证券时报记者注意到,“零售之王”招商银行2019年代销的信托产品规模超过3000亿元,借此实现64.32亿元的手续费及佣金收入...

DeepMind技术鼓励AI玩家在零和游戏中进行合作

发布时间:2020/03/06 新闻 浏览次数:560

 
在预印本中,DeepMind描述了一种新的强化学习技术,该技术以一种潜在的新颖而强大的方式对人类行为进行建模。与以前发布的版本相比,它可能导致功能更强大的AI决策系统,这对于希望通过工作场所自动化提高生产力的企业来说是福音。
在“学习解决多人零和游戏中的联盟困境”中,DeepMind——Alphabet的研究部门,其工作主要涉及强化学习,这是一个与软件代理应如何采取行动以最大程度地获得回报有关的AI领域-一种具有点对点合同机制的经济竞争模型,该模型可以在多人游戏中发现并执行代理商之间的联盟。合著者说,这种联盟形式赋予的优势是,如果代理商单独行动,这种优势将是不存在的。
该论文的贡献者说:“零和游戏长期以来一直指导着人工智能研究,因为它们既具有最佳响应的丰富策略空间,又具有清晰的评估指标,” “此外,竞争是许多现实世界中能够产生智能创新的多代理系统的重要机制:达尔文进化论,市场经济和AlphaZero算法,仅举几例。”
DeepMind科学家首先试图从数学上定义结盟的挑战,着重于多人零和游戏中的结盟形成-也就是说,每个参与者效用的得失与损失或得失完全平衡的情况的数学表示。获得其他参与者的效用。他们研究了对称的零和多人游戏(所有参与者都具有相同的行为并根据每个人的行为得到对称的收益的游戏),并且他们试图提供经验结果,表明联盟的形成通常会产生社会困境,因此需要适应玩家。
正如研究人员所指出的,零和多人游戏引入了动态的团队形成和分手的问题。新兴团队必须在自己内部进行协调,以有效参与比赛,就像在足球比赛中一样。团队形成的过程本身可能是一个社会难题,从直觉上讲,玩家应该组建联盟以击败他人,但是加入联盟要求个人为更广泛的利益做出贡献,而这与他们的个人利益并不完全一致。此外,必须决定要加入和退出哪些团队,以及如何制定这些团队的战略。
团队尝试了一种“礼物游戏”,其中玩家(即经过强化学习训练的特工)从一堆自己颜色的数字筹码开始。在每个玩家的回合上,他们都必须拿自己的颜色的筹码,然后将其赠予另一位玩家,或者将其从游戏中丢弃。当没有玩家留下自己颜色的筹码时,游戏结束。获胜者是任何颜色筹码最多的玩家,获胜者平均分得价值“ 1”,所有其他玩家得到的分红为“ 0”。
研究人员发现,玩家们经常自私地行动,ho积筹码,尽管即使两个代理商同意交换筹码,他们也会取得更好的结果,却导致三向抽奖。团队认为这是因为尽管两个玩家可以互相信任,但他们本可以取得联盟更好的结果,但是每个人都可以说服对方赠送筹码,然后再拒绝交易,从而获得收益。
也就是说,他们断言,如果存在支持合作行为的机构,强化学习就能适应。这就是合同的产生之处。研究人员提出了一种将合同纳入游戏的机制,其中每个玩家都必须提交要约,包括(1)选择合作伙伴,(2)针对该合作伙伴的建议行动,以及(3)玩家承诺采取。如果两个参与者提供的合同相同,则它们将具有约束力,也就是说,环境将强制执行承诺的操作。
该团队报告说,一旦代理商能够签署具有约束力的合同,筹码就可以在“赠送游戏”中自由流动。相比之下,没有合同,也没有互惠互利,就没有芯片交换。
共同作者写道:“我们的模型为进一步的工作提出了几种途径。” “最明显的是,我们可能会在具有更大状态空间的环境中考虑合同……更普遍的是,发现合同系统如何在多主体学习动态中出现并持续存在而又不直接施加强制执行机制,将是令人着迷的。这种追求最终可能导致从人工智能到社会学和经济学的有价值的反馈循环。”