AI做视频?原来视频居然可以这样做!
2017年07月12日 由 nanan 发表
253746
0
全球人工智能与机器人峰会 — CCF-GAIR大会,于2017年7月7日至9日,在深圳隆重召开。CCF-GAIR大会由CCF中国计算机学会主办、雷锋网与香港科技大学(深圳)承办。在大会进入第三天(9日),CV+专场首场中,微软亚洲研究院资深研究员梅涛博士给大家带来一场名为《Video Content 3C: Creation, Curation, Consumption》的主题演讲,即视频的创造、处理和消费。
为什么要对视频的内容进行讲解,梅涛博士有提到以下几点内容:
第一,视频与图像相比较内容更加的丰富,更加的深入,同时也更具有挑战;
第二,目前大家可能看到较多的是视觉领域方面的进展,例如面部(人脸)、防卫等,但视频对大家可能就会是一个崭新的领域了;
第三,梅涛博士从事视频方面的研究已经有十多年的时间了,当时就有人说视频可能就是下一个突破,现在看来这个说法是正确的。
要在传统的视觉理解的方法里做视觉问题基本上可以分三个步骤:
首先,理解一个物体,比如说一张桌子,你要先检测下它的边、角、线等关键点;
其次,认为设计一些特征来描述视觉属性;
最后,需要设计一些分类器将人为设计的这些特征进行输入和识别。
现在的深度学习,图像识别的错误率在不断的降低,已经从最早的8层到20多层,到如今已经达到152层的地步了,而视频理解也可以做到如今的199层。
视频内容的生命周期大致可以分为三个部分,即视频的创作、处理和消费:
Creation
在这里面涉及到一个基本概念,即视频的产生原理。Video的产生是先把Video切成一个一个的镜头,可以看成是一个一个断码,然后每一个镜头再组合编成一个故事,每几个语言可以放成一个故事。通过这种结构化可以把视频分解成不同的单元,可以将长视频做成多个短视频,这些摘要使得用户对长视频的非线性快速浏览成为可能。
梅涛博士还表示,目前微软将视频摘要的技术用在了Bing的视频搜索里,并且微软研发员研发的PIX,则是一个全新的相机app,可以自动判断视频的静止或动态的像素,可以把抖动的视频变得平稳。
Curation
当用户有了视频之后,要做的事情就是给视频片段打上标签,目前为止可以打上1000个静态标签和超过500个的动态标签,这样就可以根据这些标签搜索到视频的具体内容了。
在做图像分析方面目前最好的深度神经网络是微软亚洲研究院在2015年提出的152层的残差网络,目前最深可以做到1000层。但是在视频领域,目前最有效的3D CNN才做到11层。梅涛博士还表示,目前借用ResNet的思想,将3D CNN的层数做到了199,识别率比之前提高了6到7个百分点。
梅涛博士说明了一下所在团队目前正在研究的方向:用一段连贯通顺的自然语言,而不是孤立的单个标签,来描述一段视频内容。
另外我们还可以进行分析动作,例如给你一个Video,然后让你用一句话来描述这段内容,以前我们说这个 Video 是一个舞蹈,现在可以告诉你这是一群人在跳一段什么舞蹈,这个技术就叫Video Captioning。可以实时产生字母,自动评价,例如微软小冰,你上传视频给小冰,它会夸赞你,不仅如此,小冰还可以写诗。
我们也可以将 Video 进行编辑,加上滤镜,或是做风格的转换,把自然的 Video 变得非常卡通,Video 中的人物分割出来可以放到另外一个虚拟的场景里面去。你可以想象一下,当两个人在异地谈恋爱的时候,我们可以给他们一个房间,让他们在同一个房间、同一片星空下聊天。
我们还可以提供服务,让 image、Video变成一段非常吸引人的、有一定设计感和视觉感的故事,这其实都是机器自动产生的效果,加上人工的处理,视频就可以变得更加时尚。
Consumption
视频的消费往往和广告紧密相关。梅涛博士提到,做Video广告有两个问题需要解决:第一个问题广告到底放在 Video 的什么位置;第二个问题是选什么样的广告,而这个广告是否跟你插入的信息相关,使得用户接受度更加好。
他们的解决方案是对Video进行分解,并计算出两种度量:一个是discontinuity,衡量一个广告插入点的故事情节是否连续;另一个是attractiveness,衡量一段原始视频的内容是否精彩。从而做出符合广告商的需求或满足不同用户的需求的视频。
最后梅涛博士总结道,在做科研的人看来,AI也好,深度学习也好,都有很长的路要走,这些问题对于做科研和技术的人来说,是需要脚踏实地一个一个的去解决,切不可急于求成。