谷歌的AI大神Hinton揭开了神经网络的新面纱
2017年11月02日 由 yining 发表
793047
0
如果你想指责某人在人工智能方面的大肆宣传,69岁的谷歌研究员,同时也是深度学习教父的Geoff Hinton是一个很好的候选人。
如今,神经网络转录我们的语音,识别我们的宠物,甚至可以预测病人的患病程度。但Hinton却在贬低它帮助世界的技术。“我认为我们做计算机视觉的方式是错误的,”他说。“它现在比其他任何东西都管用,但这并不意味着它是正确的。”
上周晚些时候,Hinton发表了两篇研究论文,他说“我们终于有了一些很好的工作。”
- 论文地址:https://arxiv.org/pdf/1710.09829.pdf
Hinton用“Capsule(胶囊)”作为下一代卷积神经网络,Capsule 是一组神经元,其活动向量(activity vector)表示特定实体类型的实例化参数,如对象或对象部分。它是一种神经网络的扭曲,目的是让机器更好地通过图像或视频来了解世界。在上周发布的一篇论文中,展示了Hinton的Capsule网络与一项标准测试的准确性相匹配,测试主要评估了软件可以学会如何识别手写的数字的程度。
其次,Capsule网络几乎将之前测试中的最容易出现的错误率降低了一半,测试主要以软件从不同角度识别卡车和汽车等玩具为主。Hinton一直在与谷歌的多伦多办公室的两名同事一起研究他的新技术。
Capsule网络旨在弥补当今机器学习系统的缺陷,这些系统限制了它们的有效性。谷歌和其他公司目前使用的图像识别软件需要大量的示例照片来学习如何在各种情况下可靠地识别对象。这是因为该软件并不擅长将其对新场景的知识进行泛化,例如,当从一个新的视角看某个对象时,不太容易分辨这个对象是否与之前看到对象相同。
更具体地说,教计算机从多个角度识别一只猫,可能需要成千上万张不同角度的照片。而一名人类儿童不需要如此明确和广泛的训练就能学会识别一只家养宠物。
Hinton的想法是缩小最好的人工智能系统和普通的人类幼儿之间的鸿沟,这是为了在计算机视觉软件中建立更多的知识。Capsules作为一小群未加工的虚拟神经元,被设计用来追踪物体的不同部位,比如猫的鼻子和耳朵,以及猫在空间中的相对位置。一个由许多Capsule组成的网络可以利用这一意识来理解,一个新的场景实际上是一个不同的视角。
在1979年,Hinton认为视觉系统需要这样一种内在的几何意义,当时他正在试图弄清楚人类是如何使用心理意象(mental imagery)的。他在2011年首次提出了Capsule网络的初步设计。上周公布的Capsule更全面的照片是该领域的研究人员长期以来所期待的。“每个人都在等待它,并期待着Hilton的下一个伟大的飞跃,”纽约大学的Kyunghyun Choi教授说道。
现在说Hinton的“大跃进”还为时过早,他知道这一点。他解释说Capsule网络仍然需要在海量图像集合上被证明,并且当前的实现与现有的图像识别软件相比是缓慢的。
Hinton很乐观,他可以解决这些缺点。该领域的其他人也对他成熟的想法抱有希望。
Roland Memisevic是图像识别初创公司Twenty Billion Neurons的创始人之一,同时是蒙特利尔大学的教授,他说,Hinton的基本设计应该能够从现有的数据中提取出更多的信息。如果在规模上证明了这一点,那将会对医疗保健等领域有所帮助。在这些领域,用于训练人工智能系统的图像数据远比互联网上那些大量的自拍照更少。
从某些方面来说,Capsule与人工智能最近研究的趋势有所不同。最近对神经网络的成功的一种解释是,人类应该把尽可能少的知识编码到人工智能软件中,然后让它们自己从头开始计算。纽约大学心理学教授加里马库斯去年曾向优步出售了一家人工智能初创公司,他认为Hinton的最新作品为这个领域代来了新鲜的空气。
马库斯认为人工智能研究人员应该做更多的事情来模拟大脑的内在机制,来学习像视觉和语言这样的关键技能。马库斯说:“现在还不知道这个特定的架构会走多远,但看到Hinton打破了这个领域的惯例,这是极好的。”