一种让人工智能轻松解析视频的方法
2019年10月16日 由 TGS 发表
614149
0
麻省理工学院(MIT)和IBM的一个团队开发了一种算法,只消耗以前所需处理能力的一小部分,就能够准确识别视频中的动作,这可能会改变将人工智能应用于大量视频的经济效益。该方法采用了人工智能的方法来处理静态图像,给它一个粗略的时间概念,或将有助于控制目前网络上每时每刻都在生成的大量内容。
尽管科技公司喜欢炫耀它们对人工智能的使用,以及让人眼花缭乱的所谓成果,但实际上,利用人工智能分析视频方面的应用仍然不多。YouTube、Facebook和TikTok使用机器学习算法对视频片段进行分类和推荐,但它们似乎主要依赖于与视频相关的元数据,比如说描述、标签以及上传的时间和地点。所有人都在研究分析视频内容的方法,但这些方法无一例外,全都需要更多的计算能力。
公司希望使用人工智能自动生成视频的详细描述,让用户发现没有注释的视频片段,同时也愿意出售基于视频内容的广告。Facebook和谷歌也希望使用人工智能来自动发现和过滤非法或恶意内容,尽管这看起来像是一场正在进行的猫抓老鼠游戏,但是在不显著增加人工智能碳足迹的情况下,完成这个游戏其实非常艰难。
随着企业利用人工智能分析视频,近年来,图像识别技术取得了很大进展,这在很大程度上要归功于深度学习。深度学习算法可以根据图像中显示的像素来检测目标,但它却不太擅长解释视频。
分析一个视频帧不会揭示出发生了什么,除非将该帧与之前和之后的帧进行比较,这涉及到连贯性问题。比如说一个人匆匆出门,可能是急着去办什么要紧事,也可能是发生了地震,再或者,这个人是小偷,得手后匆匆离场。有因必有果,由起因推导出结果,或者根据结果推导起因,从而得知过程,这是一种逻辑思考方式。
因与果像是素材,而麻省理工的研究人员就很聪明地利用了这一根本点,他们把素材进行了精简,比若说把3D的图片转化为2D,这无疑会节省很多数据计算量,通过这种方式,无疑会大大减少计算的量,人工智能“工作”起来自然也就比之前轻松。
目前,这种方法还未能达到最理想的效果,还需要不短的时间进行打磨,一旦功成,所带来的利益将是巨大的。因为在计算力愈发重要的当代,能够解放计算力的方法意味着什么,不言而喻。