图像识别发展:使用深度学习的方法来创建专业级别图片
2017年07月14日 由 yining 发表
808883
0
机器学习(ML)在许多领域都做得十分出色。学习任务中如果存在正确或错误的答案是有助于训练过程的,并且允许它的算法实现其期望的目标,无论是正确地识别图像中的对象目标,还是提供从一种语言到另一种语言的适当转换。然而,对于有些领域来说,客观评估是不可用的。例如,一张照片是否好看是由它的(机器)审美价值来衡量的,这是一个高度主观的概念。
加拿大贾斯珀国家公园的一幅专业的(?)照片
为了探索机器学习如何学习主观概念,我们引入了一个实验的
深度学习系统来进行艺术创作。它模仿了专业摄影师的工作流程,从谷歌街景中漫游景观全景图,寻找最佳构图方案,然后进行各种后期处理,最后创造出一幅赏心悦目的图像。
我们的虚拟摄影师通过阿尔卑斯山、班夫和贾斯珀国家公园、加州的大苏尔和黄石国家公园等地的4万个全景装置中“旅行”,并带回了一些令人印象深刻的作品,有些甚至接近专业质量——这都是经过专业摄影师来评判的。
训练模型
虽然美学可以用像
AVA这样的数据集来模拟,但是用它来美化照片可能会错过一些美学方面的东西,比如让照片过度饱和。然而,使用引导性学习来学习美学的多个方面,可能需要一个难以收集的标签数据集。
我们的方法只依赖于一组专业质量的照片,没有图片的前后对比,或者任何附加的标签。它将美学分解为多个方面, 并且每个方面都是通过一个耦合图像操作生成的负示例来单独学习的。通过保持这些图像的半“正交”操作,我们可以在其合成、饱和/HDR水平和使用快速和可分离的优化方面增强一张照片的质量:
全景(A)被裁剪成(b),在(c)中,饱和度和HDR的强度增强,并且在(d)中应用了戏剧性的掩模。每一步都是由美学的一个学习方面来指导完成的。
传统的图像过滤器用于饱和度、HDR细节和合成的负面训练示例。我们还介绍了一种名为“戏剧面具”(dramatic mask)的特殊操作,它是在学习戏剧照明(dramatic lighting)的概念时共同创作的。这些负面的例子是通过应用一组图像过滤器组合来产生的,这些图像过滤器可以在专业的照片上随意修改亮度,从而降低它们的外观质量。在培训中,我们使用了一个生成对抗网络(GAN),在那里,一个生成模型创建了一个蒙版来为负面的例子提供照明。 此外,一个鉴别模型会将图片增强的结果与真正专业人士的作品区分开来。
与像维内特(
vignette)这样的形状固定的滤镜不同,戏剧性的蒙版增加了对照片的内容感知亮度调整。不得不说,GAN的竞争性质训练导致了这些图片质量的良好变化。你可以在我们的
paper中读到更多关于训练的细节性内容。
结果
从Google街景中可以看到我们的系统的一些作品。正如你所看到的,训练有素的审美过滤器应用创造了一些戏剧性的结果(包括我们从这篇文章开始看到的图片):
加拿大贾斯珀国家公园
瑞士因特拉肯
意大利Parco delle Orobie Bergamasche公园
加拿大贾斯珀国家公园
专业评估
为了判断我们的算法是如何成功,我们设计了"图灵测试": 我们将我们的作品与其他不同质量照片混合在一起,并且把它们一起展示给几位专业摄影师。每个人都将对这些图片进行打分,评分标准如下:
1分: 像傻瓜相机那样没有考虑图片构成,照明等。
2分:好的图片;有一般的目标群体但没有背景,没有艺术那样的感觉。
3分: 半专业;不错的图片,清晰地展示了艺术方面。
4分:专业水平。
在下面的图表中,每条曲线显示在一定预测范围内,从专业摄影师那里得到的图片分数。我们的创作具有较高的预测得分,他们收到的约 40%的评级为"半专业"到"专业"的水平。
专业摄影师为对照片的分数预测
今后的展望
谷歌街景视图全景图为我们的项目提供了试验台。总有一天这项技术甚至可能会帮助你在现实世界中拍出更好的照片。我们创建了一个图片的
showcase, 如果你看到你喜欢的一张照片,你可以点击它来来显示附近的街景视图全景。但是,如果你在实地那里拿着相机,你会做同样的决定吗?
注:此文为编译作品,作者Hui Fang和Meng Zhang,出处
Google Research Blog。