10:1!DeepMind AI智能体在《星际争霸2》中大胜职业玩家
2019年01月25日 由 浅浅 发表
985717
0
DeepMind直播了其AI智能体AlphaStar在《星际争霸 2》中与2位职业玩家的比赛过程,结果令人惊叹:AI智能体连续10场比赛击败了人类,以5:0战胜职业选手TLO,5:0战胜2018年WSC奥斯汀站亚军MaNa。最后,DeepMind让MaNa进行了复赛,而这一次MaNa终于胜过了智能体。
DeepMind已经掌握了国际象棋,而且这些游戏非常复杂,但是像《星际争霸2》这样的即时战略视频游戏在每个时刻的可能性都复杂得多。这揭示了深度学习的力量。像AlphaStar不必学习星际争霸的每一个可能的匹配来理解它。相反,它专注于获胜的战略。
DeepMind的研究联合负责人David Silver在赛后表示,“AI已经在不同游戏中取得了许多重要胜利。未来的人们可能会回顾今天,或许会认为AI系统能做的又向前迈进了一步。”
AlphaStar如何学习
AlphaStar之所以如此重要,是因为它的学习方式,它使用了多种技术。
DeepMind研究联合负责人Oriol Vinyals说道,“我们从专业人士和玩家那里获取了很多回放,试图通过观察人类玩家所处的情况来让AlphaStar了解,然后让它模仿这些举动。”
DeepMind也不只是使用专业玩家的比赛,还会使用具有较高匹配率的玩家的公开比赛。
但模仿训练只能创造AlphaStar最基本的迭代。DeepMind说这个版本0.1智能体相当于一个铂金玩家。
为了准备AlphaStar进行专业战斗,DeepMind必须使用其神经网络训练。
AlphaStar联盟
学习和练习会使情况变得更好。AlphaStart通过模仿学习来确定学习的部分。然而,为了练习,DeepMind建立了它所谓的AlphaStar联盟。这是一个神经网络训练计划,不同版本的AlphaStar会在这里不间断地玩上一周。
这是现代机器学习的核心。DeepMind为AI程序设置成功参数,例如“赢得比赛”。然后,每个AI代理在调用时都会做出决定以实现该目标。然后获胜的AI将继续在AlphaStar联盟中继续。
但训练比这更深入。例如,DeepMind还通过设置特定的智能体,试图在支持特定单位类型的情况下获胜,从而增加了一代又一代AlphaStar发生变异的可能性。
DeepMind将AlphaStar设置为随机变异,并呈现赢得最多的智能体的特征。这个过程非常有效,因为AI能够快速连续进行许多比赛。经过一两个星期的训练,AlphaStar已经相当于玩了200年的《星际争霸2》。
计算机不会作弊吗?
DeepMind知道一些星际争霸玩家对计算机持怀疑态度。它请来了星际争霸的专家来讨论比赛,并提出了社区想要得到答案的问题。这些专家关注的是AlphaStar实际上是如何玩和感知游戏的。例如,它真的能看透对抗的迷雾吗?或者它只是比人手的实际移动速度快一千倍而已?
但DeepMind表示,它限制了AlphaStar的每分钟动作(APM),以确保计算机无法通过纯粹的速度获胜。
“总而言之,AlphaStar使用的APM比人类专业玩家少得多,”DeepMind联合负责人David Silver表示,“这表明它不是通过疯狂点击而是通过做一些比这更聪明的事情来获胜。”
AlphaStar也没有超人的反应时间。“我们测量了它对事物的反应速度,从它观察正在发生的事情开始,就必须进行处理,然后将它选择的内容传达给游戏。时间实际上接近350毫秒。比人类玩家迟缓。”
最后,DeepMind解释了AlphaStar如何可视化游戏世界。它没有看代码,它也没法像人类玩家一样移动相机。相反,它看到的是缩放的地图,但它无法看穿战争的迷雾或类似的东西。它只能看到地图上有单位的部分。
AlphaStar输掉了一场比赛
直播主要是AlphaStar与TLO和MaNa的几场比赛中的五场比赛。但是DeepMind让MaNa在观众面前进行了复赛。而这一次MaNa胜过了智能体。
但是MaNa和AlphaStar的现场比赛与上次比赛相比有一些变化。DeepMind使用了AlphaStar的新原型版本,它实际上使用与玩家完全相同的相机视图。这意味着AlphaStar不能只用缩放的视角,它必须行动才能看到战斗的细节。
这个版本的AlphaStar也没有那么多时间训练。因此,它相当于只是练习了20年。但即使是在有限的经验下,它仍然展示了震惊所有观众的策略。
MaNa说,“AlphaStar参加比赛的方式与我的经历并不相同,这是一种与众不同的星际争霸。这是一个从AI学习新东西的好机会。”
这是DeepMind最值得骄傲的事情之一。职业玩家可以通过与电脑对抗来获取新的战略想法,这在以前是任何人都不会想到的事情。