OpenAI和DeepMind的AI智能体在两个Atari游戏中表现优于人类

2018年11月19日由浅浅发表 55264 0

通过观看人类来学习玩游戏的智能体研究又有了新进展。OpenAI和DeepMind在发表的一篇论文“Reward learning from human preferences and demonstrations in Atari”中，描述了一种AI系统，该系统结合了从两种人类反馈中学习的方法：专家演示和轨迹偏好。

他们的深度神经网络与其他神经网络一样，由大脑神经元模拟的数学函数组成，并在9个Atari游戏测试中的两个（Pong和Enduro）中获得了优于人类的表现，并在7个游戏测试中击败了基线模型。

该研究已提交给神经信息处理系统（NIPS 2018），该会议计划于12月的第一周在加拿大蒙特利尔举行。

“为了通过强化学习解决复杂的现实问题，我们不能依赖手动指定的奖励功能，”该团队写道，“相反，我们可以让人类直接向智能体传达目标。”

这是一种在先前的研究中被称为“反向强化学习”的技术，对于那些目标定义不明确、容易使AI系统出错的任务来说，这种技术是有前途的。正如该论文的作者所指出的那样，强化学习系统使用奖励或惩罚来驱动AI智能体实现特定目标，但如果所讨论的目标缺乏反馈机制，那么这种学习就没有多大用处。

由研究人员的AI模型创建的游戏智能体不仅模仿人类行为，因为只是这样它们就不会具有特别的可扩展性，因为它们需要一个人类专家来教他们如何执行特定任务，而且永远不会实现比专家显著更好的性能。

研究人员的系统结合了多种形式的反馈，包括来自专家演示的模仿学习和使用轨迹偏好的奖励模型。基本上，它没有假设直接可用的奖励，例如分数增加或游戏内奖金；相反，依靠循环中人类的反馈，它试图通过（1）模仿示范和（2）最大化推断的奖励函数来尽可能接近预期的行为。

该模型由两部分组成：深度Q-Learning网络，即DeepMind在先前的研究中用于实现Atari 2600游戏中的优于人类表现的网络，以及奖励模型，一种卷积神经网络，在任务训练过程中由注释者或合成系统提供的标记进行训练。

智能体随着时间的推移从演示和经验中学到了更多。与此同时，人类专家一直阻止他们利用可能损害绩效的意外奖励来源，这种奖励来源被称为奖励黑客。

在测试中，研究人员在Arcade学习环境中设置AI模型的智能体，这是一个开源框架，用于设计可以玩Atari 2600游戏的AI智能体。研究人员写道，Atari游戏具有“强化学习中最多样化的环境”的优势，并提供“明确的”奖励功能。

经过5000万步和6800个标记的完整训练，在除《私家侦探》（Private Eye）以外的所有游戏测试中（包括Beamride，Breakout，Enduro，Pong，Q*bert，Seaquest），使用研究人员系统训练的智能体都优于模拟学习基线。研究人员发现，研究人员发现，通常情况下，要达到同样的表现水平，人类需要的时间减少了一半。

论文：arxiv.org/pdf/1811.06521.pdf

标签：

行业 DeepMind OpenAI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Logojoy筹集450万美元，开发AI用于自动生成品牌logo

下一篇黑莓将以14亿美元收购基于AI的网络安全公司Cylance

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来