研究人员试图使AI利用非语言赢取纸牌类游戏
2019年02月25日 由 浮生 发表
825506
0
机器与人类和彼此之间的协作变得更加广泛。为了教AI进行交流,研究人员已经转向纸牌游戏。
虽然AI在国际象棋,某些形式的扑克和许多视频游戏中击败了人类,但是桥牌和Hanabi等游戏是特殊的挑战。玩家必须合作,没有明确的方式来分享信息。两种游戏的研究人员最近开发了AI,他们发明了自己的隐含代码来协调行动。
在桥牌比赛中,有四名选手,分成两队。在任何人出牌之前,玩家轮流叫牌。出牌表明你认为你的团队可以赢,多年来,桥牌玩家们已经发现了一种方法,能让合作伙伴知道自己手中的牌是什么。通过这些编码式的叫牌,团队可以进行基本的对话。
伦敦大学学院的研究人员发布了一篇论文,其中成对的AI使用机器学习来执行简化版的桥牌叫牌。在他们称为“策略-信念-迭代”(P-BIT)的系统中,每个AI玩家都有两个神经网络。
一个网络学会根据出牌来推断合作伙伴的牌。另一方学会根据对方的推断和玩家自己的牌来进行适当的出牌。在训练期间,AI玩家可以通过出牌来提高其合作伙伴对AI玩家自己牌的推断的准确性。
在150万次练习之后,AI已经制定了自己的惯例,团队击败了没有使用沟通或模仿他们的合作伙伴信念的基线AI。伦敦大学学院的计算机科学家,该论文的作者Jun Wang表示,这些玩家还不能与人类媲美,但初步结果极具潜力。
一款名为Hanabi的新型纸牌游戏有类似的沟通挑战。在这种类似单人纸牌游戏中,每两到五名玩家各持一张或五张牌,每张牌都有一个颜色和一个数字,然后轮流按照正确的顺序将它们放在彩色堆上。但他们看不到自己的牌,只能看到合作伙伴的牌。
每回合,他们都可以打牌,丢弃一张牌,或者给另一位玩家一个提示。他们无法告诉其他玩家哪张牌可以玩,但他们只能说伙伴手中的牌是特定的颜色或数字。在某些情况下,指示伙伴手中特定卡片的颜色可能表示应该用下一张牌。信息不仅来自明确的线索本身(卡片的颜色),而且暗示了为什么选择这条线索而不是其他线索。
最近,来自DeepMind Technologies和牛津大学的一个团队发表了一篇论文,描述了一个双人版Hanabi的机器学习系统。他们的“贝叶斯行动解码器”(BAD)也使用神经网络,并让每个AI玩家试图推断其合作伙伴的信念。为了避免思考你的伙伴正在考虑你在想什么等等的无限递归,该系统在两个玩家外部创造了一套公共信念。
这些代表了有关游戏状态和之前操作的所有公开可用信息,以及在没有实际查看其中任何一个的情况下可能对所有人说的话。然后,公共智能体使用神经网络将这些信念转换为每个玩家应该做什么的指令,用于他们伙伴手中的任何可能的卡组合。然后,每个玩家根据自己的观察结果对公共智能体的指导进行处理。
尽管这些AI玩家并未因通信而获得特别奖励,但信号仍然是副作用。例如,指出红色或黄色卡片意味着AI合作伙伴应该打出最近抽到的牌。研究人员计算出,通过暗示分享的信息中有40%是隐含的。这种编码通信帮助他们的系统近乎完美地运行,在25分中平均得分24分,比之前最好的机器人高出约1分。对于人类来说,即使有肢体语言的不公平优势,得分超过20分也是好的。
这两个系统,即用于桥牌的P-BIT和用于Hanabi的BAD,都依赖于给AI的“心理理论”,或者说都意识到他人的信仰和意图。这种推理在人类互动中无处不在。
为了让AI能够有效地处理与人类或彼此的互动,它们需要理解隐含的信号,而纸牌游戏是实现目标的一种方式。一家名为NukkAI的创业公司专注于为桥牌建立更好的AI,并且正在筹集数百万美元,期望它最终将其技术应用于现实世界的问题。在最近的一篇论文中,DeepMind称Hanabi为“AI研究的新前沿”,并提供了一个开源测试平台。
虽然DeepMind的BAD系统通过反复播放同一个合作伙伴来制定惯例,但论文指出,更高级的任务是动态推理一个不熟悉的玩家的行为。他们在这种情况下测试了几个系统,没有一个平均超过四个点。
康奈尔大学的计算机科学家Julia Proft从事机器人和通信工作(最近发现Hanabi AI玩家在使用隐式信号时更有可能被评判为人类),同时也强调了实时推理的重要性。
但是牛津大学的计算机科学家兼DeepMind论文的合著者Jakob Foerster说:“我认为我们甚至没有可靠的方法来思考这需要什么。说实话,我们还差得很远。”