ImageCoDe数据集卡

快速开始，请通过以下方式加载描述：

from datasets import load_dataset
examples = load_dataset('BennoKrojer/ImageCoDe')

并下载 image_sets.zip 以获取所有图像集（每个目录包含10个图像）。

数据集概述

我们介绍了ImageCoDe，这是一个需要上下文语言理解（如语用学、时间性、长描述和视觉细微差别）的视觉-语言基准。任务是：在10个最小对比图像中，根据详细描述检索目标图像。ImageCoDe包含21K个描述和94K个图像。这些图像主要是基于视频数据集的帧。

数据集结构

数据实例

一个实例包含一个描述，相应的图像集名称和目标索引：

{"image_set": "video-storytelling-videowedding_de8dLXvgV-I-shot6_0",
"image_index": "8",
"description": "The flowers the woman in the teal strapless dress is carrying are completely obscured by the man in the black shirt's head. "}

数据拆分

Dataset Split	Number of Descriptions in Split
Train	16,594
Validation	2,302
Test	2,306

数据集创建

策划理念

ImageCoDe的主要目标是强调最近的视觉-语言模型在复杂语言和细粒度视觉表示方面的弱点。此外，我们发现该数据集提供了大量语用学示例，因此适合研究语用学。

作者:

BennoKrojer

数据集大小:

12.87 GB