是什么推动了深度学习的“寒武纪大爆炸”?
2018年04月03日 由 nanan 发表
402074
0
准确地说,多伦多大学计算机科学家Alex Krizhevsky、Geoffrey Hinton和Ilya Sutskever都不知道他们要发布的是什么。那是2012年,他们刚刚向运行ImageNet竞赛的人们提交了关于他们的新机器学习模型的细节,其称为卷积神经网络(CNN)。
三人组的CNN只有八层——五个卷积层和三个完全连通的层。然而,基于GPU的系统对图像进行分类的效果非常好,以致于在当年的ImageNet领域的时间减少了11%,这是一个巨大的利润空间。但更重要的是,这种被称为“AlexNet”的获胜模式,将继续推动现代深度学习领域的发展。
今天,AlexNet构成了无数深度学习模型的基础。在2017年的GPU技术大会上,英伟达首席执行官黄仁勋首次将这种深度学习称为“寒武纪大爆炸”,并在上周的展会中再次使用了该语言。
“神经网络正在以惊人的速度增长和发展,”黄仁勋在上周二的马拉松式的两个半小时的主题演讲中表示,“仅仅五年前,AlexNet就开始了……5年后,成千上万的AI出现了。”
自从AlexNet第一次惊艳胜利以来,黄仁勋列举了几种深度学习模型:循环网络,生成对抗网络,再加强学习,神经合作过滤。“所有这些不同的架构和数百种不同的实现,”Huang说,“有越来越多的种类变得如此不可思议,而且更有很多新种类出现。”
随着深度学习的领域越来越丰富和复杂,个人深度学习模式也变得越来越复杂。当AlexNet在2012年首次亮相时,它只有8个层和几百万个参数,但是今天的神经网络有数百个层次和数十亿个参数。据黄仁勋说,这相当于在过去5年里,深度学习模式的复杂性增加了500倍。
AlexNet向世界展示的是,更好的软件、更快的硬件和更多的数据可以带来更好更准确的预测模型。深度学习方法也为AI的复兴奠定了基础,这改变了我们对计算的看法。
“数据量呈指数增长。有证据表明,在GPU计算中,计算呈指数级增长。”黄仁勋表示,“因此,深度学习网络和深度学习模式(AI模型)正在以双指数形式增长。”
持续扩张
为机器学习任务找到合适的成分是一件令人印象深刻的事情。但更有趣的是,名为AlexNet的模型可以引导一种全新的计算方法。
“更令人惊奇的是,人们能够通过深度学习来不断改进它,”AlexNet的最初开发者之一Sutskever在2017年的采访中表示。
如今,深度学习正在渗透进企业,并与其他形式的机器学习相结合,提升企业的能力。
Teradata营销副总裁Chad Meley表示:“我们现在看到的有趣的转向是机器学习和深度学习之间的这种转变。我们看到很多客户在使用相同类型的用例,比如欺诈检测、客户亲密、供应链优化、收益管理等(通过深度学习,而不是在过去5年里一直在做的机器学习),他们得到了更好的预测结果,更好的模型。”
这并不意味着客户正在将现有的机器学习框架剥离出来,而用谷歌的TensorFlow、Facebook的PyTorch或者其他任何已经开源的深度学习框架构建的深度学习模型取代它们。Teradata全球新兴业务副总裁Atif Kureishy表示,这更像是一种综合方法。
“如果你以正确的方式设置正确的问题,它肯定能提高你的准确性,”Kureishy在上周的GTC 2018展会上表示,“但在我们所做的几乎每一项业务中,客户都是通过深度学习进入生产领域,通常是通过具有传统的机器学习模式和深度学习模式的整体模型。”
Teradata正寻求提升分析堆栈,超越其在企业数据仓库中的根源,并在上周的展会中展示了与英伟达合作的扩展。作为Teradata的分析平台的一部分,该公司最终试图让用户能够在一个按钮的推动下,将一个数据问题可能需要的任何分析环境(比如GPU集群,用于深度学习或内存重CPU集群),进行自定义。
该公司仍然是提供这种能力的一种方式,但它的客户已经在以创新的方式利用深度学习。其中之一是Danske Bank(丹麦银行),该银行利用Teradata的Think Big Analytics小组,利用深度学习技术构建更好的欺诈检测引擎。
Kureishy解释了公司的做法。“我们需要时间序列数据,随着时间的推移,我们建立了一个n维数组,一个矩阵,”他说,“我们投入了许多功能:关于交易的功能、关于发件人、目的地和IP地址的功能。这是一个巨大的特征空间。”
“然后我们把它变成了一个看似像素化图像的布局,”他继续说道,“我们创造了RGB值的特性,相对于时间序列数据....然后我们通过AlexNet架构运行它,弹出的是不同颜色的图像,并且像素的强度本质上显示了正在发生的事情。”
通过使用表格数据,并利用它来模拟CNN所能显示的图像,银行创造了更好的“捕鼠器”,而不是仅靠机器学习的能力。根据Constellation Research的一份报告显示,丹麦银行的新系统负责将欺诈误报减少20%至30%。它还利用LIME框架帮助向审计师解释丹麦银行的深度学习系统如何检测欺诈行为,这对任何依赖“黑匣子”技术的人来说都是越来越关注的问题。
“我们做了很多实验,实际上这是最有效的,”Kureishy说。“我们必须做所有这些丰富的事情,并在100毫秒内对6个机器学习和深度学习模型进行推理。但最难的部分是从IBM大型机和其他专卖店获取数据。”
将Geoff Hinton关于神经网络架构的学术研究变成一个能够赢得ImageNet奖的自我教学系统,肯定会揭开我们正在经历的寒武纪深刻学习的爆炸。但是,现在爆炸的原因是来自丹斯克银行的一个故事,它显示了真实世界的公司如何发现该技术对解决业务问题有用。