谷歌:计算机视觉模型可在无监督情况下跟踪对象并对视频着色

2018年06月28日 由 浅浅 发表 451608 0
计算机视觉模型可在无监督情况下跟踪对象并对视频着色

视频的对象跟踪是计算机视觉的一个基本问题,对于诸如活动识别,对象交互或视频风格化等应用至关重要。然而,教会一台机器以直观地跟踪物体充满挑战性,部分原因在于它需要大型的,标记过的用于训练的跟踪数据集,这对大规模注解是不切实际的。

在“Tracking Emerges by Colorizing Videos”一文中,我们引入了一种卷积网络,可以对灰度视频进行着色,但受限于从单个参考帧复制颜色。在这样做的过程中,网络会自动学习,在没有监督的情况下自动跟踪对象。重要的是,尽管该模型从未被明确地训练过,但它可以跟踪多个物体,跟踪遮挡,并且在不需要任何标记的训练数据的情况下保持稳健的变形。

计算机视觉模型可在无监督情况下跟踪对象并对视频着色

计算机视觉模型可在无监督情况下跟踪对象并对视频着色

计算机视觉模型可在无监督情况下跟踪对象并对视频着色

计算机视觉模型可在无监督情况下跟踪对象并对视频着色

计算机视觉模型可在无监督情况下跟踪对象并对视频着色

计算机视觉模型可在无监督情况下跟踪对象并对视频着色

在公开发布的学术数据集DAVIS 2017上进行跟踪预测的示例。学习了着色视频后,无需监督即可自动生成跟踪机制。我们在第一帧中指定感兴趣的区域(用不同的颜色表示),我们的模型在没有任何额外的学习或监督的情况下向前传播。

学习将视频重新着色


我们的假设是,颜色的时间一致性为教学机器跟踪视频中的区域提供了大规模出色的训练数据。显然,有一些例外情况,比如在颜色不是瞬时的情况下(例如突然点亮的灯),但一般情况下颜色随时间变化是稳定的。此外,大多数视频都包含色彩,提供可扩展的自我监督学习信号。我们对视频进行脱色,然后添加着色步骤,因为可能有多个具有相同颜色的对象,但通过着色,我们可以教机器跟踪特定对象或区域。

为了训练我们的系统,我们使用Kinetics数据集中的视频,这是一个大型公共数据集,收集了很多描绘日常活动的视频。我们将除第一帧以外的所有视频帧转换为灰度图,并训练卷积网络以预测后续帧中的原始颜色。我们希望该模型能够学习如何跟踪区域以准确恢复原始颜色。我们的主要观察结果是需要跟踪对象进行着色,这将导致对象跟踪模型自动学习。

计算机视觉模型可在无监督情况下跟踪对象并对视频着色

我们使用DAVIS 2017数据集中的视频来说明视频重新着色任务。该模型接收一个颜色帧和一个灰度视频作为输入,并预测视频其余部分的颜色。该模型学习从参考框架中复制颜色,这使得无需人工监控即可学习跟踪机制。

学习从单一参考框架复制颜色需要模型学习内部指向右侧区域以便复制正确的颜色。这迫使模型学习一种我们可以用于跟踪的显式机制。

计算机视觉模型可在无监督情况下跟踪对象并对视频着色

计算机视觉模型可在无监督情况下跟踪对象并对视频着色

为展示视频着色模型的工作原理,我们显示了一些来自Kinetics数据集视频的预测着色。

尽管网络训练时没有实况一致性,但我们的模型学习跟踪视频第一帧中指定的任何视觉区域。我们可以跟踪视频中列出的物体或单点。我们所做的唯一改变是,我们现在不用在整个视频中传输色彩,只需传输感兴趣区域的标签。

分析跟踪器


由于模型是在大量无标签的视频上进行训练的,所以我们想要了解模型的学习情况。

下面的视频展示了一个标准的技巧,通过使用主成分分析(PCA)将它们投射到三维空间中,并将其绘制为RGB视频,从而可视化我们的模型所了解的嵌入。结果表明,在学习的嵌入空间中,即使是在变形和观点的改变上,最接近的往往与物体的同一性相对应。

计算机视觉模型可在无监督情况下跟踪对象并对视频着色

计算机视觉模型可在无监督情况下跟踪对象并对视频着色

计算机视觉模型可在无监督情况下跟踪对象并对视频着色

上面一行:我们展示了来自DAVIS 2017数据集的视频。
下面一行:我们从色彩化模型中将内部的嵌入可视化。
类似的嵌入在可视化中也会有类似的颜色。这表明学习嵌入是通过对象标识对像素进行分组。

跟踪姿势


我们发现该模型还可以跟踪初始帧中给定关键点的人体姿势。我们用公开可用的学术数据集JHMDB显示跟踪人类关节骨骼的结果。

计算机视觉模型可在无监督情况下跟踪对象并对视频着色计算机视觉模型可在无监督情况下跟踪对象并对视频着色

计算机视觉模型可在无监督情况下跟踪对象并对视频着色

计算机视觉模型可在无监督情况下跟踪对象并对视频着色

计算机视觉模型可在无监督情况下跟踪对象并对视频着色

计算机视觉模型可在无监督情况下跟踪对象并对视频着色

使用该模型跟踪人体骨骼运动的示例。在这种情况下,输入是第一帧的人体姿势,随后的动作会被自动跟踪。该模型可以跟踪人的姿势,即使它从未明确地受过训练。

虽然我们还没有超过强大的监督模型,但色彩化模型学习跟踪视频片段和人体姿势,足以胜过基于光流的最新方法。通过运动类型分解性能表明,对于许多自然复杂性(如动态背景,快速运动和遮挡),我们的模型比光流更具鲁棒性。

详情请查阅论文:arxiv.org/abs/1806.09594

未来展望


我们的研究结果表明,视频着色提供了一种信号,模型无需监督即可学习跟踪视频中的对象。此外,我们发现我们的系统故障与视频着色失败有关,这表明进一步改进视频着色模型可以促进自我监督跟踪的进展。
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消