麻省理工学院研究出更有效的深度视频识别模型
2019年10月18日 由 KING 发表
990600
0
机器学习的一个分支叫做深度学习,已经帮助计算机在视觉任务方面(例如医学成像扫描)上超越了人类,但是随着技术的发展,它可以识别的视频越来越多,因此模型变得越来越大,计算量也越来越大。
据估计,训练一个视频识别模型所花费的数据最多可以比训练一个图像分类模型多50倍,而处理能力只提高8倍。这是一个问题,因为现在对训练深度学习模型的处理能力的需求持续呈指数级增长。在许多AI应用设备上运行大型视频识别模型,仍然是一个挑战。 麻省理工学院电气工程与计算机科学系(EECS)的助理教授Song Han(宋涵)通过设计更有效的深度学习模型来解决这个问题。 在计算机视觉国际会议中,宋涵和麻省理工学院研究生吉林以及MIT-IBM沃森人工智能实验室研究员庄甘联合宣布,他们研究出缩小化的视频识别模型,以提高模型在智能手机和其他智能设备的运行性能。他们的方法可以通过将最新模型中的1.5亿个参数减少到2500万个参数,将模型缩小到原来的六分之一。
宋涵说:“我们的目标是让任何使用智能设备的人都可以使用AI,要做到这一点,我们需要设计高效的AI模型,该模型使用的能源更少,并且可以在智能设备上平稳运行。”
摄像机和视频编辑软件的成本下降,以及新的视频流平台的兴起,使互联网充满了新的内容。每小时就约有30,000小时的新视频上传到YouTube。研究人员说,创造更有效地内容分类工具将有助于观看者和广告商更快地找到想要看的视频。此类工具还将帮助医院等机构在本地运行AI应用程序,而不是在云端运行AI应用程序,以保持敏感数据的私密性和安全性。 底层的图像和视频识别模型是神经网络,可以对大脑如何处理信息进行松散建模。无论是数码照片还是视频图像序列,神经网络都在寻找像素中的图案,并以越来越抽象的形式呈现其所见。通过足够的例子,神经网络可以学习如何识别人,物体以及它们之间的关系。
目前,顶级的视频识别模型使用三维卷积来编码一系列图像中的时间流逝,但模型的计算量也更大。为了减少涉及的计算,宋涵和他的同事设计了一个操作,称为“ 时间移位”模块 ,该模块将选定视频帧的特征图移动到其相邻帧。通过混合过去,现在和将来的空间表示,该模型无需明确表示即可获得时间流逝的感觉。
结果是:该模型在识别Something-Something 视频数据集中的动作方面表现优于同行 ,在最近的公共排名中在版本1和版本2中获得第一名。换档模块的在线版本在读取实时动作也足够迅速。通常,在只有一个图形处理器的机器上训练如此强大的模型大约需要两天。但是研究人员设法借用了美国能源部的Summit 超级计算机,该计算机目前是地球上最快的。研究人员显示,借助Summit的强大能力,可以使用1436个图形处理器在短短14分钟内训练模型,接近其理论极限。他们说,这比最先进的3D模型快三倍。
IBM Research总监Dario Gil 说:“大型AI培训工作的计算要求每3.5个月翻一番。我们能否继续突破技术极限,取决于能否正确的将超高效算法与强大机器相匹配。”