数据集:
BennoKrojer/ImageCoDe
预印本库:
arxiv:2203.15867许可:
afl-3.0快速开始,请通过以下方式加载描述:
from datasets import load_dataset examples = load_dataset('BennoKrojer/ImageCoDe')
并下载 image_sets.zip 以获取所有图像集(每个目录包含10个图像)。
我们介绍了ImageCoDe,这是一个需要上下文语言理解(如语用学、时间性、长描述和视觉细微差别)的视觉-语言基准。任务是:在10个最小对比图像中,根据详细描述检索目标图像。ImageCoDe包含21K个描述和94K个图像。这些图像主要是基于视频数据集的帧。
一个实例包含一个描述,相应的图像集名称和目标索引:
{"image_set": "video-storytelling-videowedding_de8dLXvgV-I-shot6_0", "image_index": "8", "description": "The flowers the woman in the teal strapless dress is carrying are completely obscured by the man in the black shirt's head. "}
Dataset Split | Number of Descriptions in Split |
---|---|
Train | 16,594 |
Validation | 2,302 |
Test | 2,306 |
ImageCoDe的主要目标是强调最近的视觉-语言模型在复杂语言和细粒度视觉表示方面的弱点。此外,我们发现该数据集提供了大量语用学示例,因此适合研究语用学。