数据集:
juletxara/visual-spatial-reasoning
任务:
图像分类语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
machine-generated批注创建人:
crowdsourced源数据集:
original许可:
apache-2.0Visual Spatial Reasoning(VSR)语料库是一组带有真/假标签的字幕-图像对。每个字幕描述了图像中两个个体对象之间的空间关系,并且视觉语言模型(VLM)需要判断该字幕是否正确描述图像(真)还是不正确(假)。
我们测试了三个baseline,它们都在huggingface上得到支持。它们是VisualBERT (Li et al. 2019) 、LXMERT (Tan and Bansal, 2019) 和ViLT (Kim et al. 2021) 。排行榜可以在 Papers With Code 查看。
model | random split | zero-shot |
---|---|---|
human | 95.4 | 95.4 |
VisualBERT | 57.4 | 54.0 |
LXMERT | 72.5 | 63.2 |
ViLT | 71.0 | 62.4 |
数据集中的语言是由注释者使用的英语。英语的BCP-47代码是en。 meta_data.csv 包含注释者的元数据。
每行是一个独立的数据点。每个jsonl文件的格式如下:
{"image": "000000050403.jpg", "image_link": "http://images.cocodataset.org/train2017/000000050403.jpg", "caption": "The teddy bear is in front of the person.", "label": 1, "relation": "in front of", "annotator_id": 31, "vote_true_validator_id": [2, 6], "vote_false_validator_id": []} {"image": "000000401552.jpg", "image_link": "http://images.cocodataset.org/train2017/000000401552.jpg", "caption": "The umbrella is far away from the motorcycle.", "label": 0, "relation": "far away from", "annotator_id": 2, "vote_true_validator_id": [], "vote_false_validator_id": [2, 9, 1]}
image表示COCO中图像的名称,image_link指向COCO服务器上的图像(因此您也可以直接访问)。caption是不言自明的。标签为0和1对应于False和True。关系记录使用的空间关系。annotator_id指向最初编写字幕的注释者。vote_true_validator_id和vote_false_validator_id是在第二阶段验证中投票True或False的注释者。
VSR语料库在验证之后包含10,119个数据点,确保了高一致性。在这些基础上,我们创建了两个拆分(1)随机拆分和(2)零样本拆分。对于随机拆分,我们将所有数据点随机分为训练、开发和测试集。零样本拆分确保训练、开发和测试集没有概念上的重叠(即,如果测试集中有“dog”,则不用于训练和开发)。以下是两个拆分的一些基本统计信息。
split | train | dev | test | total |
---|---|---|---|---|
random | 7,083 | 1,012 | 2,024 | 10,119 |
zero-shot | 5,440 | 259 | 731 | 6,430 |
有关更多详细信息,请查看 data/ 。
理解空间关系是实现智能的基础。现有的视觉语言推理数据集很棒,但它们组合了多种类型的挑战,可能会混淆不同的错误源。VSR语料库专门关注空间关系,因此我们可以进行准确的诊断和最大程度的可解释性。
图像对采样。 MS COCO 2017包含123,287张图像,并标注了886,284个实例(个体对象)的分割和类别。利用分割,我们首先随机选择两个概念,然后在COCO 2017(训练和验证集)中检索包含这两个概念的所有图像。然后过滤掉包含任何概念多个实例的图像,以避免引用的歧义。对于单个实例图像,还会过滤掉任何实例区域大小