机器学习能教会我们什么呢?
2019年02月28日 由 天生美学 发表
553218
0
[caption id="attachment_37382" align="aligncenter" width="740"]
插图:Edmon DeHaro[/caption]
《机器展示人类直觉-AI突破》(Computer Shows Human Intuition—AI Breakthrough!)这个令人屏息的标题引起了作者罗伯特·幸运(Robert W. Lucky)的注意力。他保持着好奇和怀疑的态度进行了更进一步的阅读,了解到由伦敦DeepMind的一个团队开发的计算机程序AlphaZero击败了其他冠军棋类游戏程序,也击败了人类选手。当然这并不是什么新鲜的新闻,而令他深深着迷的是这个程序如何构建的。AlphaZero并不是由专业玩家调整的,它起初只知道国际象棋的规则而已。但它学会了如何与自己竞争,如何取胜。它在最快的时间里学会对抗自己,学以致用取得胜利。
长期以来,人类一直都是通过下棋来对抗自己,试图找到困局中的突破口。但是机器学的却是如此之快,以至于我们被远远超越。也许,是因为“不幸”的我们没有神经网络来传授吧。人类直觉被定义为“没有推理的直接理解或认知”。而AlphaZero行云流水般的方式是否被唤醒了“人类的直觉”?又或者它根本不应该被称为直觉?
加拿大阿尔伯塔大学(University of Alberta)一个被称为DeepStack的团队推出了一个新的扑克游戏程序,该程序在德州扑克比赛中击败了人类对手。研究人员写道,它利用‘直觉’进行游戏,这种‘直觉’是通过深度学习磨练出来的,在每次做出决定时,它都会反复评估自己的策略。对罗伯特来说,几乎没有打扑克的经验,这是一个启示:他认为在扑克比赛中获胜是基于对对手的心理分析,扑克实际上是一种战略游戏。机器学到了比我们自己发现的更好的策略。
几年前,匹兹堡卡内基梅隆大学(Carnegie Mellon University)的另一个扑克项目Libratus击败了人类冠军。Libratus使用了一种被称为蒙特卡洛反事实遗憾最小化(Monte Carlo Counterfactual Regret Minimization)的技术,这是一种明智的方法,可以修剪一个巨大的决策树,并在众多可能的途径中进行选择。这种技术已经被证明可以导致纳什均衡策略,在这种策略中,任何一方都不能通过改变策略(假设其他方的策略是固定的)获得收益。换句话说,这在同样精通和知识渊博的参与者之间形成了一种联系。
罗伯特无法更深刻地理解这一切。然而,他仍然对那些致力于这些游戏程序的工程师们心存嫉妒。这是多么大的荣幸啊!他知道这并不只是关于乐趣和游戏的简单工作,其中涉及了大量的细节和创造性思维。尽管如此,他依旧认为这是很棒的东西。