OpenAI惨败!Dota 2首场比赛输给人类玩家
2018年08月23日 由 浅浅 发表
319464
0
OpenAI Five在Dota 2最受关注的TI8表演赛中,与职业玩家团队对战,最终输掉了首场比赛。
这是人类职业玩家与OpenAI三场比赛中的第一场比赛,其他两轮将在接下来的两天内举行,每天都是不同的队伍。
成千上万的铁杆Dota粉丝观看职业选手在第一轮比赛中对抗OpenAI Five。人类团队paiN由来自巴西的五名球员组成,而OpenAI Five则由五个长期记忆神经网络智能体组成。
这场比赛持续了45分钟。OpenAI Five在开始时似乎就已经迷失了方向。三个智能体在圈子里走来走去,似乎很困惑,而人类团队则在探索地图。不过它们很快恢复了感知,一血由PaiN团队拿到,之后的杀戮相当于针锋相对。
然而,比赛进行到三分之一,机器人开始在战斗中占主导地位,并收集更多的黄金。人类开始追赶更多的塔,然后游戏看起来非常紧张,尽管OpenAI Five有更多的杀戮记录,然而,机器人的塔楼逐渐减少,在最后的战斗中,AI玩家被消灭,它们的Ancient暴露出来,人类团队迅速拆除它,赢得了胜利。
“我们对这次胜利肯定没那么自信,因为职业选手要面对很多。输掉比赛令人失望,但我很高兴能在这么长的比赛中与顶级球队站在一起,”OpenAI技术人员Filip Wolski表示。
OpenAI Five展示了一些奇怪的行为,比如在Roshan的巢穴外挥之不去,Roshan是一个需要团队合作才能打败的强大敌人。杀死Roshan是一个至关重要的步骤,因为它奖励玩家黄金和一个允许英雄在死后迅速重生的物品,然而被Roshan杀死吸收了时间,精力和资源。与此同时,地图向对方团队开放,以消除塔楼。因此,任何犹豫都让事情往不利的方向发展。
这些机器人似乎也在奇数次的战斗中施放了强大的法术,有时甚至是附近有很少或没有敌人的时候。
限制游戏
Dota 2是一款复杂的游戏。有超过一百个可玩角色,每个角色各有各的优点和缺点。有些人能够施放特别强大的魔法咒语,有些可以快速穿行,有些非常强壮,还有一个甚至配备了蜘蛛。所有这一切,再加上收集黄金以购买大量物品以加强英雄的能力,使得游戏非常复杂。
然而,paiN与OpenAI Five的比赛并没有捕获所有这些。目前计算机掌握的组合和可能性太多了。随着机器人的改进,OpenAI在游戏过程中一直在稳步提升其软件代理的限制,因为它的机器人可以有效地提升训练轮的功能。这些变化包括:
- 每场比赛可玩的AI英雄人数从5增加到18。
- 两个团队中的角色都得到了OpenAI工程师和人类团队的一致同意,以确保他们达到平衡。
- 智能体的反应时间从80毫秒增加到200毫秒,为人类玩家提供了机会。
- 现在可以在游戏中使用更多项目,例如恢复生命点的瓶子。
- 只有一个可以杀死的信使,而不是五个不可战胜的信使,这样只有一个英雄可以在任何时候使用信使携带的物品,而且物品可能会丢失。
OpenAI和国际组织者为了节省时间,决定为两个团队预先选择英雄。
职业玩家练习数小时试图改善反应时间,他们的团队合作以及各种策略。幸运的是,OpenAI Five也有很多时间练习。事实上,它可以在一天内玩的游戏比人类一生玩更多。每个机器人在训练过程中每天都获得了180多年的经验。
与人类不同,机器人可以克隆。OpenAI使用一种名为Rapid的技术,这是一种强化学习框架,允许多个代理并行播放大量游戏。这些代理按批次积累知识,然后使用近端策略优化(PPO)算法(通用强化学习算法)训练所有五个OpenAI Five机器人。他们总是在与自己对抗,这种方法被称为自我对决。
所有这些训练都让众多GPU和CPU进行了大量的工作。OpenAI并没有告诉我们,在8月份的练习赛之后,有多少人被用来为国际比赛做准备。而简短的回答是,在今年早些时候,当它被训练去玩一系列非正式的比赛时,它在谷歌云上消耗了128000个CPU核心和256个Nvidia P100 GPU。
还有两场比赛
除了更多经验之外,机器人还有其他优势。他们可以一次看到整个地图和游戏状态。所有信息每四个视频帧被馈送到神经网络,例如英雄的健康和位置,以及他们的库存中的项目。“就像闭着眼睛一起玩,每四帧睁一次眼,”联合创始人兼OpenAI首席技术官Greg Brockman解释道。
因此,OpenAI Five可以立即瞥见整个地图,而人类必须手动移动他们的英雄才能看到地图的不同部分。因此,两个团队都可以访问相同的信息但不能同时访问。
虽然游戏时间从大约80毫秒增加到200毫秒,但是机器人类似于人类玩家的类似反应时间,但AI玩家仍然占据上风。当涉及到琐碎的任务时,单击右键几乎就是肌肉记忆,但是对于关键时刻,例如知道何时用某些法术击打,人类经常会停下来进行深思熟虑,并且可能需要大约1或2秒,计算机则仍在以数百毫秒的速度运行。
然而,计算机输了,因为它没有人类长期磨练的战略。
Brockman表示,“我们今天证明的是,我们就在人类能力的边缘,我们的考验就是能否击败职业玩家,我们计划本周在打其他职业玩家,明天和周五我们将分享更多。对我们的考验是我们是否可以打出足够高的水平来赢得本周的职业玩家。”
OpenAI一直在努力尝试Dota 2。去年,它在比赛中以一对一的限制性比赛击败了国际队的职业玩家Dendi,两队英雄相同。
今年,它增加到5v5比赛,这些最初是镜像比赛,直到本月早些时候在公开比赛中与半职业选手公开比赛。
OpenAI Five可能已经输掉了第一场比赛,但这一切还没有结束。他们将在周四和周五面对更多职业团队。