北京大学与京东开发推理框架,可识别图像中的社会关系
2019年01月30日 由 浅浅 发表
206477
0
有效地推断人与人之间的社会关系可以帮助智能体更好地理解人类的行为和情感。北京大学和京东AI Research的一组研究人员开发了一种多粒度推理框架,可用于社会关系识别。
在论文中团队描述了该框架,经过训练,它可以分析不同场景中人物的图像并预测他们之间的社会关系。基于图像的社会关系识别需要将图像中成对的人之间的关系划分为预定义的关系类型,如朋友、家人、熟人、陌生人等。
基于图像的社会关系识别工具在个人图像采集挖掘和社会事件理解等方面具有广泛的应用前景。最近在深度学习方面的进展为社会关系认知开辟了新的可能性,从而导致性能的显著提高。
尽管如此,到目前为止,自动识别图像中的社交关系已经证明是具有挑战性的,特别是由于视觉内容和社会关系领域之间存在巨大差距。现有的大多数方法都是分别处理面部表情、身体外观和上下文线索等特征进行的。
研究人员表示,“现有的社会关系识别方法通常利用低级视觉特征,如人的外表,面部属性和情境对象,虽然有些方法探索人与物之间的关系,但他们只考虑图像中的共存。但是,仅依靠单粒度表征几乎无法克服视觉特征与社会关系之间的差距。”
通过单独分析特征,现有的社交关系识别方法通常无法捕获多粒度语义,例如整体场景或人们在图像中的位置,以及人与物体之间的交互。为了解决这些局限性,团队为图像中的社会关系识别设计了一个多粒度推理框架。
框架从整个场景中获取全局知识,从图像中人员和对象所在的区域获取中级细节。它还探索了人员的细粒度姿势关键点,以揭示人员和对象之间的交互。
研究人员表示,“具体来说,姿态导向的Person-Object Graph和Person-Pose Graph对人-物之间的行为和成对人之间的相互作用建模。基于这些图表,利用图卷积网络进行社会关系推理。最后,综合全局特征和理性知识作为社会关系认知的综合表征。”
研究人员用两个大型社会关系数据集评估模型:People in Social Context(PISC)和People in Photo Album(PIPA)数据集。PISC数据集包含日常生活中常见社会关系的图像,而PIPA数据集包含基于社会领域理论注释的图像,社会领域理论将社会生活分为5个领域和16个不同的关系。在这些测试中,模型成果显著,超越了当前最先进的方法。
尽管取得了不错的结果,开发识别社会关系的工具仍然非常具有挑战性,特别是当这些关系是亲密的关系时,例如朋友,家人或夫妻之间的关系,这对于人类来说也是很难辨别的。在未来,研究人员计划探索在图像中发现背景线索的新方法,并克服某些类型的社会关系缺乏可用数据的困难。
论文:
arxiv.org/pdf/1901.03067.pdf