超越DeepMind!旷视科技荣获CVPR挑战赛 AVA&WAD 双项冠军

2018年07月03日 由 荟荟 发表 140567 0

2018-07-03


作为全球五十大最聪明企业和计算机视觉领域的原创技术担当,旷视科技在世界范围内所参与的人工智能技术挑战赛中始终处于高位水平。自 2013 年赢得人脸识别三项世界冠军以来,旷视已累计收获 17 项人工智能技术评测冠军和挑战赛第一名,今天仍在不断续写辉煌。CVPR 2018 期间,多项挑战赛结果揭晓,其中旷视科技参与了 AVA 和 WAD 挑战赛,击败谷歌 DeepMind 和英伟达等巨头公司,
AVA & WAD 挑战赛分别针对视频语义和自动驾驶问题而设,挑战赛不仅给了旷视科技在 CVPR 2018 这样的国际舞台上秀“技术肌肉”的机会,同时彰显了旷视研究院雄厚的人才储备和过硬的技术储备,也为旷视后续的产品创新和技术落地埋下了伏笔。

旷视科技首席科学家孙剑在其朋友圈不无幽默地写到:“团队拿了大规模动作识别 ActivityNet 挑战赛、和基于 ApolloScape(目前最大规模公开数据)的自动驾驶挑战赛的两个 task 冠军,我都不知道你们参赛了。”这不仅反映了团队超强的实力和惊人的自驱力,还有研究院倍加推崇的“无知者无畏的精神”。下面是旷视科技研究院俞刚博士等人对 AVA & WAD 挑战赛所作的相关技术解读,以及其对旷视产品体系所带来的影响。



AVA 挑战赛

ActivityNet Large-Scale Activity Recognition Challenge (ActivityNet Challenge)是一项计算机视觉领域的大规模挑战赛,自 2016 至今 ,已成功举办三届。ActivityNet 挑战赛聚焦于识别互联网视频门户网站之中的日常及目标导向的高级行为,比赛结果已在 CVPR 会上公布,并以 Workshop 形式展示。




[caption id="" align="aligncenter" width="1080"] ActivityNet Challenge 2018 颁奖现场[/caption]

ActivityNet Challenge 2018 包含 6 个独立任务(Task),旨在进一步拓展视频语义理解的边界,其中 Task B 时空行为定位(Spatio-temporal Action Localization)依据 AVA 数据集,试图评估算法对人类行为时空信息的定位能力,其中每个标注的视频片段连续且超过 15 分钟,包含多个主体,每个主体有多个行为;Task B 分为 #1 (Vision Only) 以及 #2 (Full) 两个子挑战赛。总体来说,这一任务做大的难点是将动作细化到了原子级别,需要在任务中判断人类行为主体的位置,发生了什么动作,又与其他物体/人发生了什么交互。


从结果看,旷视科技在这次挑战赛中力压群雄,分别以 0.21075 和 0.2099 的成绩拿下 AVA 挑战赛双料第一名,谷歌 DeepMind 名列 #1 (Vision Only) 第二名。




[caption id="" align="aligncenter" width="1080"] 旷视研究员徐子尧在 workshop 上进行技术讲解[/caption]

旷视研究院检测组负责人俞刚表示,该挑战赛的算法把时空动作行为的任务分解成了两个子任务:1) 行人位置定位以及 2) 基于检测位置的动作分类。而制胜的诀窍是旷视在行人检测子网络中使用了最新的检测技术,比如 Light Head R-CNN;而在动作分类子网络中,则结合最新的 3D 卷积特征, 比如 I3D, 以及传统的 two-stream 网络特征来优化动作分类能力。


AVA 挑战赛夺冠在一定程度上表明,旷视研究院有着过硬的技术储备和优秀的人才梯队,究其原因,这是由于旷视研究院向来重视通过参加挑战赛不断培养和提高实习生和研究员自主解决问题的能力。通过挑战赛夺冠测试和筛选技术矩阵,强化优秀技术库存,使得旷视研究院内部形成一个良性循环,而这正是旷视能够成为全球五十大聪明公司和原创技术担当的重要因素之一。


走好从人才到技术这一步,下一步是从技术到产品。从公司产品的角度讲,行为时空信息的定位能力在视频语义分析上有着非常大的意义,这一技术将从底层因素上推动旷视科技产品体系的迭代和更新,更好地连接场景,提升用户体验,提供真正的商业价值;未来这项技术将在智慧城市、智慧零售和智慧安防等领域发挥强大作用,实现旷视科技赋能亿万摄像头的愿景。



WAD 挑战赛

WAD(Workshop on Autonomous Driving)是一项由 CVPR 2018 workshop 主办的自动驾驶识别挑战赛,包含驾驶区域分割、道路物体检测、语义分割域适应和实例视频分割 4 个 Task,旨在展示当前的计算机视觉算法对外在环境的感知能力;其中的 Task 4 ——实例视频分割(Instance-level Video Segmentation)要求参赛者在一帧之内实现对移动物体(比如汽车和行人)实例级别的分割,参与这项任务的意义在于挑战赛为研究者们提供了一次真正独特的机会,练手解决自动驾驶领域内极具价值且引人关注的问题。


基于由百度精良标注的大规模数据集 ApolloScape,该挑战赛目前已开放 14.7 万帧的像素级语义标注图像;另外值得一提的是,其大小是当前同类型开源数据集的 10+ 倍,标注精细度已经超过同类型的 KITTI、Cityscapes 数据集,也超过 UC Berkley 最新发布的 BDD100K 数据集。在 WAD 挑战赛中,旷视科技最终以 0.33986 的成绩夺得第一名,超过第三名芯片巨头英伟达将近 7 个点。




[caption id="" align="aligncenter" width="464"] WAD 挑战赛冠军证书及签名[/caption]

 

[caption id="" align="aligncenter" width="735"] 旷视研究员黎泽明在 workshop 上进行技术讲解[/caption]

 

俞刚认为,从技术层面讲,该挑战赛的算法主要来自当前检测方面的积累,据其以优化场景中的小物体。在挑战中,团队重新设定了检测算法的 anchor,使得对小物体的覆盖率能有更大的提高, 同时还更新了一些训练策略,比如更高的显存利用率和数据增强,提升小物体的召回率。


总体来看,团队本次参加自动驾驶相关的挑战赛达到了两个主要目的:一是通过测试在不同应用场景下的算法通用性,有力验证了旷视自身算法的能力;另一方面则是检验了自身对算法的掌握性。而本次获得双料冠军,也印证了旷视研究院在技术上的积累与对算法应用于不同场景的良好掌控力。


从人才到技术,再到产品落地,这一逻辑同样适用 WAD 挑战赛。该挑战赛所代表的实例分割技术是发展自动驾驶不可或缺的核心组件,尽管旷视科技目前并未涉足自动驾驶领域,但已经具备了国际领先的核心技术能力,为今后拓宽战略版图和完善产品体系打下了坚实的基础。



欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消