AI击败德州扑克冠军玩家!突破6人无限注对局挑战,训练成本仅150美元
2019年07月12日 由 Dolores 发表
544908
0
AI已经掌握扑克的又一个重要里程碑:六人无限注德州扑克,AI首次在超过两人的挑战中击败职业玩家。
像扑克这样的游戏,不可见的牌和虚张声势的玩家,比起每个玩家都可以看到整个棋盘的游戏,对AI的挑战要更高。在过去几年中,计算机已成为日益复杂的一对一扑克玩法的王者,但多人游戏将这种复杂性提升到了一个新的水平。
Pluribus由Facebook和卡内基梅隆大学开发,这是一款扑克AI,Facebook称其是第一个击败德州扑克职业玩家的AI。
该机器击败了15名职业玩家,他们都是赢得了至少100万美元的扑克玩家,如2000年世界扑克锦标赛冠军Chris Ferguson和4次世界扑克巡回赛冠军Darren Elias。
Pluribus是第一个在基准游戏中连续击败2名以上人类玩家的AI,研究人员表示,它可以在20小时的训练中超越人类的最高表现。Pluribus仅用价值150美元的云计算训练就实现了这一目标。
改进算法
Pluribus背后的团队之前建立了一个叫做Libratus的AI,它在双人扑克中击败了职业玩家。团队通过更新Libratus构建了Pluribus,并创建了一个需要更少计算能力来玩匹配的机器人。
其他掌握了人类游戏的AI,如Libratus和DeepMind的Go-playing,已经表明它们在双人零和比赛中是无与伦比的。在这些场景中,总有一个胜利者和一个失败者,而博弈论提供了明确定义的最佳策略。
但是博弈论对涉及多方竞争利益且没有明确的双赢条件的情景不太有用,这反映了大多数现实生活中的挑战。通过解决多人扑克问题,Pluribus为未来的AI解决这类复杂问题奠定了基础,该成功是迈向自动化谈判,更好的欺诈检测和自动驾驶汽车等应用的一步。
为了解决六人扑克问题,团队彻底改革了Libratus的搜索算法。大多数玩游戏的AI都会通过决策树进行搜索,以便在特定情况下进行最佳移动。在选择动作之前,Libratus搜索到游戏结束。
但是额外玩家引入的复杂性使得这种策略变得不切实际。扑克需要使用隐藏信息进行推理,玩家必须根据之前的投注考虑对手可能拥有的牌以及对手可能猜到的牌,然后制定策略。但是更多的参与者在任何特定时刻选择行动都比较困难,因为它涉及评估更多的可能性。
团队关键的突破是开发了一种方法,允许Pluribus在仅仅展望一些动作而不是结束后做出正确的选择。
Pluribus使用类似于DeepMind的Go AI,AlphaZero所使用的强化学习形式从头开始自学。它开始随机玩扑克并改进,因为它确定哪些动作赢得更多的钱。在每一手牌之后,它回顾它是如何进行的,并检查它是否会通过不同的动作赚取更多的钱,例如提高而不是坚持下注。
测试算法
在随后的下注轮次中,Pluribus通过想象游戏如果采取不同的行动将如何发挥作用来微调其战略。与为双人扑克训练的AI不同,Pluribus没有一直推测到游戏结束,在处理这么多玩家时需要进行太多的计算。相反,AI想象了未来的几个步骤,并根据那些假设的未来以及玩家可以采用的不同策略决定做什么。
在研究人员的测试中,Pluribus赢得了5人对1 AI比赛,以及5 AI对1人比赛。Facebook AI表示,如果每个筹码价值1美元,那么Pluribus每小时可以赢得大约1000美元。
Pluribus的成功在很大程度上取决于其效率。在游戏时,它仅在两个中央处理单元(CPU)上运行。相比之下,DeepMind最初的Go机器人在首次击败顶级专业人士时使用了近2000个CPU。在与自己比赛时,Pluribus在大约20秒内出手,大约比职业玩家快两倍。
它所考虑的赌注的确切数目因情况而异,在1到14个之间。发表在科学杂志上的论文称,虽然Pluribus可以把自己限制在100美元到1万美元之间的几个不同规模的赌局中的一个,但实际上玩无上限扑克时,对手并不受这几个选项的限制。
复杂的挑战
虽然从两到六名玩家看起来似乎是渐进的,但这实际上是一个大问题。多人对战在目前正在研究的其他游戏中根本不存在。
研究报告的共同作者,卡内基梅隆大学计算机科学教授Tuomas Sandholm博士表示,“无论是在AI社区(至少自1970年以来)还是在博弈论社区(至少从1950年开始),扑克都是测试信息缺失的博弈解决能力的主要基准问题。”
他解释说:“历史上所有的AI游戏里程碑都是针对双人游戏的零和游戏。这是多人游戏的第一个里程碑,多人游戏提出了额外的挑战。”
由于六人游戏的规模,专家需要找到一种方法来摆脱纳什均衡,这是一种博弈论,如果其他人的策略保持不变,那么没有玩家可以从改变战略中获益。
不过最新的算法强大且可扩展。当被问及未来研究的潜在用途和应用范围时,Sandholm表示,这包括扑克和视频游戏到投资银行战略优化,政治运动,指导进化和生物适应,医疗计划和合成生物学等。该技术还可用于电子战,安全并优化世界稳定性。