NVIDIA研究人员提出新型深度学习架构,提高标识定位速度
2018年06月21日 由 浅浅 发表
285437
0
NVIDIA的研究人员与学术界的合作者共同开发了一种新的基于深度学习的标识定位(landmark localization)架构,该架构用于寻找图像特定部分的精确位置。此外,他们还提出了一种基于半监督学习的新型训练程序,该程序允许探索没有实际标记的图像以提高模型的准确性。
对于准确可靠的手势识别,面部表情识别,面部身份验证,眼睛注视跟踪等,标识定位是一项必要的任务。不幸的是,标记图像是一项需要大量人工的任务,因此,很少有图像到标识成对的数据集,足以可靠地训练深层神经网络。
研究人员在他们的论文中指出,“我们的贡献是双重的,首先我们提出了一种无监督技术,该技术利用等变换标志变换而不需要标记标识。另外,我们开发了一种架构来改进使用辅助属性的标识评估。我们方法的一个关键是可以通过完整的标识定位模型将错误传回。”此外,任何现有的基于深度学习的架构都可以从研究结果中受益,因为方法用到的架构不是特定的。
“结果表明,这些技术大大改善了标识预测,即使只有一小部分数据集具有标记,也可以学习,进行有效的探测。”该团队能够在面部标识定位方面实现最先进的性能,使用的标记数据减少了20倍。
[video width="1280" height="720" mp4="https://www.atyun.com/uploadfile/2018/06/Research-at-NVIDIA_-Improving-Landmark-Localization-with-a-New-Deep-Learning-Architecture.mp4"][/video]
团队使用NVIDIA Tesla V100 GPU和cuDNN加速的Theano深度学习框架,在多个数据集上训练卷积神经网络,以满足各种应用,包括面部标识定位和手势估计。此外,他们研究了几项关于合成数据的对照实验来研究贡献。
与其他两种领先架构相比,使用半监督学习的神经网络速度分别提高了136倍和6.5倍。该系统还在公共基准数据集上实现了最先进的性能。
论文网址:arxiv.org/abs/1709.01591