数据集:

juletxara/visual-spatial-reasoning

英文

Visual Spatial Reasoning数据集卡

数据集摘要

Visual Spatial Reasoning(VSR)语料库是一组带有真/假标签的字幕-图像对。每个字幕描述了图像中两个个体对象之间的空间关系,并且视觉语言模型(VLM)需要判断该字幕是否正确描述图像(真)还是不正确(假)。

支持的任务和排行榜

我们测试了三个baseline,它们都在huggingface上得到支持。它们是VisualBERT (Li et al. 2019) 、LXMERT (Tan and Bansal, 2019) 和ViLT (Kim et al. 2021) 。排行榜可以在 Papers With Code 查看。

model random split zero-shot
human 95.4 95.4
VisualBERT 57.4 54.0
LXMERT 72.5 63.2
ViLT 71.0 62.4

语言

数据集中的语言是由注释者使用的英语。英语的BCP-47代码是en。 meta_data.csv 包含注释者的元数据。

数据集结构

数据实例

每行是一个独立的数据点。每个jsonl文件的格式如下:

{"image": "000000050403.jpg", "image_link": "http://images.cocodataset.org/train2017/000000050403.jpg", "caption": "The teddy bear is in front of the person.", "label": 1, "relation": "in front of", "annotator_id": 31, "vote_true_validator_id": [2, 6], "vote_false_validator_id": []}
{"image": "000000401552.jpg", "image_link": "http://images.cocodataset.org/train2017/000000401552.jpg", "caption": "The umbrella is far away from the motorcycle.", "label": 0, "relation": "far away from", "annotator_id": 2, "vote_true_validator_id": [], "vote_false_validator_id": [2, 9, 1]}

数据字段

image表示COCO中图像的名称,image_link指向COCO服务器上的图像(因此您也可以直接访问)。caption是不言自明的。标签为0和1对应于False和True。关系记录使用的空间关系。annotator_id指向最初编写字幕的注释者。vote_true_validator_id和vote_false_validator_id是在第二阶段验证中投票True或False的注释者。

数据拆分

VSR语料库在验证之后包含10,119个数据点,确保了高一致性。在这些基础上,我们创建了两个拆分(1)随机拆分和(2)零样本拆分。对于随机拆分,我们将所有数据点随机分为训练、开发和测试集。零样本拆分确保训练、开发和测试集没有概念上的重叠(即,如果测试集中有“dog”,则不用于训练和开发)。以下是两个拆分的一些基本统计信息。

split train dev test total
random 7,083 1,012 2,024 10,119
zero-shot 5,440 259 731 6,430

有关更多详细信息,请查看 data/

数据集创建

策划理由

理解空间关系是实现智能的基础。现有的视觉语言推理数据集很棒,但它们组合了多种类型的挑战,可能会混淆不同的错误源。VSR语料库专门关注空间关系,因此我们可以进行准确的诊断和最大程度的可解释性。

源数据

初始数据收集和规范化

图像对采样。 MS COCO 2017包含123,287张图像,并标注了886,284个实例(个体对象)的分割和类别。利用分割,我们首先随机选择两个概念,然后在COCO 2017(训练和验证集)中检索包含这两个概念的所有图像。然后过滤掉包含任何概念多个实例的图像,以避免引用的歧义。对于单个实例图像,还会过滤掉任何实例区域大小