数据集:

BennoKrojer/ImageCoDe

预印本库:

arxiv:2203.15867

许可:

afl-3.0
英文

ImageCoDe数据集卡

快速开始,请通过以下方式加载描述:

from datasets import load_dataset
examples = load_dataset('BennoKrojer/ImageCoDe')

并下载 image_sets.zip 以获取所有图像集(每个目录包含10个图像)。

数据集概述

我们介绍了ImageCoDe,这是一个需要上下文语言理解(如语用学、时间性、长描述和视觉细微差别)的视觉-语言基准。任务是:在10个最小对比图像中,根据详细描述检索目标图像。ImageCoDe包含21K个描述和94K个图像。这些图像主要是基于视频数据集的帧。

数据集结构

数据实例

一个实例包含一个描述,相应的图像集名称和目标索引:

{"image_set": "video-storytelling-videowedding_de8dLXvgV-I-shot6_0",
"image_index": "8",
"description": "The flowers the woman in the teal strapless dress is carrying are completely obscured by the man in the black shirt's head. "}

数据拆分

Dataset Split Number of Descriptions in Split
Train 16,594
Validation 2,302
Test 2,306

数据集创建

策划理念

ImageCoDe的主要目标是强调最近的视觉-语言模型在复杂语言和细粒度视觉表示方面的弱点。此外,我们发现该数据集提供了大量语用学示例,因此适合研究语用学。