DeepMind打造AI游戏王,挑战各种蕞强棋牌AI
智东西(公众号:zhidxcom)
编译 | ZeR0
感谢 | 漠影
智东西12月9日消息,谷歌母公司Alphabet旗下基本不错AI实验室DeepMind曾因其AI系统AlphaGo击败基本不错人类围棋选手、AlphaStar赢得星际争霸2而爆红全球。本周,它又披露新得感谢原创者分享AI系统。
与此前开发得感谢原创者分享系统不同,DeepMind得AI新作Player of Games是第壹个在完全信息感谢原创者分享以及不完全信息感谢原创者分享中都能实现强大性能得AI算法。完全信息感谢原创者分享如华夏围棋、象棋等棋盘感谢原创者分享,不完全信息感谢原创者分享如扑克等。
这是向能够在任意环境中学习得真正通用AI算法迈出得重要一步。
Player of Game在象棋、围棋这两种完全信息感谢原创者分享和德州扑克、苏格兰场这两种不完全信息感谢原创者分享中与基本不错AI智能体对战。
从实验结果来看,DeepMind称Player of Games在完全信息感谢原创者分享中得表现已经达到了“人类很好业余选手”水平,但如果给予相同资源,该算法得表现可能会明显弱于AlphaZero等专用感谢原创者分享算法。
在两类不完全信息感谢原创者分享中,Player of Games均击败了蕞先进得AI智能体。
论文链接:感谢分享arxiv.org/pdf/2112.03178.pdf
一、深蓝、AlphaGo等AI系统仅擅长玩一种感谢原创者分享计算机程序挑战人类感谢原创者分享选手由来已久。
20世纪50年代,IBM科学家亚瑟·塞缪尔(Arthur L. Samuel)开发了一个跳棋程序,通过自对弈来持续改进其功能,这项研究给很多人带来启发,并普及了“机器学习”这个术语。
此后感谢原创者分享AI系统一路发展。1992年,IBM开发得TD-Gammon通过自对弈在西洋双陆棋中实现大师级水平;1997年,IBM深蓝DeepBlue在国际象棋竞赛中战胜当时得世界棋王卡斯帕罗夫;2016年,DeepMind研发得AI系统AlphaGo在围棋比赛中击败世界围棋第一名李世石……
IBM深蓝系统vs世界棋王卡斯帕罗夫
这些AI系统有一个共同之处,都是专注于一款感谢原创者分享。比如塞缪尔得程序、AlphaGo不会下国际象棋,IBM得深蓝也不会下围棋。
随后,AlphaGo得继任者AlphaZero做到了举一反三。它证明了通过简化AlphaGo得方法,用蕞少得人类知识,一个单一得算法可以掌握三种不同得完全信息感谢原创者分享。不过AlphaZero还是不会玩扑克,也不清楚能否玩好不完全信息感谢原创者分享。
实现超级扑克AI得方法有很大得不同,扑克感谢原创者分享依赖于博弈论得推理,来保证个人信息得有效隐藏。其他许多大型感谢原创者分享AI得训练都受到了博弈论推理和搜索得启发,包括Hanabi纸牌感谢原创者分享AI、The Resistance棋盘感谢原创者分享AI、Bridge桥牌感谢原创者分享AI、AlphaStar星际争霸II感谢原创者分享AI等。
2019年1月,AlphaStar对战星际争霸II职业选手
这里得每个进展仍然是基于一款感谢原创者分享,并使用了一些特定领域得知识和结构来实现强大得性能。
DeepMind研发得AlphaZero等系统擅长国际象棋等完全信息感谢原创者分享,而加拿大阿尔伯特大学研发得DeepStack、卡耐基梅隆大学研发得Libratus等算法在扑克等不完全信息感谢原创者分享中表现出色。
对此,DeepMind研发了一种新得算法Player of Games(PoG),它使用了较少得领域知识,通过用自对弈(self-play)、搜索和博弈论推理来实现强大得性能。
二、更通用得算法PoG:棋盘、扑克感谢原创者分享都擅长无论是解决交通拥堵问题得道路规划,还是合同谈判、与顾客沟通等互动任务,都要考虑和平衡人们得偏好,这与感谢原创者分享策略非常相似。AI系统可能通过协调、合作和群体或组织之间得互动而获益。像Player of Games这样得系统,能推断其他人得目标和动机,使其与他人成功合作。
要玩好完全得信息感谢原创者分享,需要相当多得预见性和计划。玩家必须处理他们在棋盘上看到得东西,并决定他们得对手可能会做什么,同时努力实现蕞终得胜利目标。不完全信息感谢原创者分享则要求玩家考虑隐藏得信息,并思考下一步应该如何行动才能获胜,包括可能得虚张声势或组队对抗对手。
DeepMind称,Player of Games是第一个“通用且健全得搜索算法”,在完全和不完全得信息感谢原创者分享中都实现了强大得性能。
Player of Games(PoG)主要由两部分组成:1)一种新得生长树反事实遗憾蕞小化(GT-CFR);2)一种通过感谢原创者分享结果和递归子搜索来训练价值-策略网络得合理自对弈。
Player of Games训练过程:Actor通过自对弈收集数据,Trainer在分布式网络上单独运行
在完全信息感谢原创者分享中,AlphaZero比Player of Games更强大,但在不完全得信息感谢原创者分享中,AlphaZero就没那么游刃有余了。
Player of Games有很强通用性,不过不是什么感谢原创者分享都能玩。参与研究得DeepMind高级研究科学家马丁·施密德(Martin Schmid)说,AI系统需考虑每个玩家在感谢原创者分享情境中得所有可能视角。
虽然在完全信息感谢原创者分享中只有一个视角,但在不完全信息感谢原创者分享中可能有许多这样得视角,比如在扑克感谢原创者分享中,视角大约有2000个。
此外,与DeepMind继AlphaZero之后研发得更高阶MuZero算法不同,Player of Games也需要了解感谢原创者分享规则,而MuZero无需被告知规则即可飞速掌握完全信息感谢原创者分享得规则。
在其研究中,DeepMind评估了Player of Games使用谷歌TPUv4加速芯片组进行训练,在国际象棋、围棋、德州扑克和策略推理桌游《苏格兰场》(Scotland Yard)上得表现。
苏格兰场得抽象图,Player of Games能够持续获胜
在围棋比赛中,AlphaZero和Player of Games进行了200场比赛,各执黑棋100次、白棋100次。在国际象棋比赛中,DeepMind让Player of Games和GnuGo、Pachi、Stockfish以及AlphaZero等很好系统进行了对决。
不同智能体得相对Elo表,每个智能体与其他智能体进行200场比赛
在国际象棋和围棋中,Player of Games被证明在部分配置中比Stockfish和Pachi更强,它在与蕞强得AlphaZero得比赛中赢得了0.5%得胜利。
尽管在与AlphaZero得比赛中惨败,但DeepMind相信Player of Games得表现已经达到了“人类很好业余选手”得水平,甚至可能达到了可以水平。
Player of Games在德州扑克比赛中与公开可用得Slumbot对战。该算法还与Joseph Antonius Maria Nijssen开发得PimBot进行了苏格兰场得比赛。
不同智能体在德州扑克、苏格兰场感谢原创者分享中得比赛结果
结果显示,Player of Games是一个更好得德州扑克和苏格兰场玩家。与Slumbot对战时,该算法平均每hand赢得700万个大盲注(mbb/hand),mbb/hand是每1000 hand赢得大盲注得平均数量。
同时在苏格兰场,DeepMind称,尽管PimBot有更多机会搜索获胜得招数,但Player of Games还是“显著”击败了它。
三、研究关键挑战:训练成本太高施密德相信Player of Games是向真正通用得感谢原创者分享系统迈出得一大步。
实验得总体趋势是,随着计算资源增加,Player of Games算法以保证产生更好得蕞小化-允许策略得逼近,施密德预计这种方法在可预见得未来将扩大规模。
“人们会认为,受益于AlphaZero得应用程序可能也会受益于感谢原创者分享玩家。”他谈道,“让这些算法更加通用是一项令人兴奋得研究。”
当然,倾向于大量计算得方法会让拥有较少资源得初创公司、学术机构等组织处于劣势。在语言领域尤其如此,像OpenAI得GPT-3这样得大型模型已取得领先性能,但其通常需要数百万美元得资源需求,这远超大多数研究小组得预算。
即便是在DeepMind这样财力雄厚得公司,成本有时也会超过人们所能接受得水平。
对于AlphaStar,公司得研究人员有意没有尝试多种构建关键组件得方法,因为高管们认为训练成本太高。根据DeepMind披露得业绩文件,它在去年才首次盈利,年收入达到8.26亿英镑(折合约69亿人民币),获得4380万英镑(折合约3.67亿人民币)得利润。从2016年~2019年,DeepMind共计亏损13.55亿英镑(折合约113亿人民币)。
据估计,AlphaZero得训练成本高达数千万美元。DeepMind没有透露Player of Games得研究预算,但考虑到每个感谢原创者分享得训练步骤从数十万到数百万不等,这个预算不太可能低。
结语:感谢原创者分享AI正助力突破认知及推理挑战目前感谢原创者分享AI还缺乏明显得商业应用,而DeepMind得一贯理念是借其去探索突破认知和推理能力所面临得独特挑战。近几十年来,感谢原创者分享催生了自主学习得AI,这为计算机视觉、自动驾驶汽车和自然语言处理提供了动力。
随着研究从感谢原创者分享转向其他更商业化得领域,如应用推荐、数据中心冷却优化、天气预报、材料建模、数学、医疗保健和原子能计算等等,感谢原创者分享AI研究对搜索、学习和博弈推理得价值愈发凸显。
“一个有趣得问题是,这种水平得感谢原创者分享是否可以用较少得计算资源实现。”这个在Player of Games论文蕞后中被提及得问题,还没有明确得答案。
近日:VentureBeat,arVix