数据集:

HuggingFaceM4/LocalizedNarratives

预印本库:

arxiv:1912.03098

许可:

cc-by-4.0

数据集介绍文件清单

英文

[数据集名称] 数据集卡片

数据集摘要

Localized Narratives 是一种新的多模态图像注释形式，连接了视觉和语言。我们要求标注者在描述图像的同时用声音说明，并同时将鼠标悬停在他们所描述的区域上。由于声音和鼠标指针是同步的，我们可以定位描述中的每个单词。这种密集的视觉定位以每个单词的鼠标跟踪段作为形式，这在我们的数据中是独特的。我们使用了849k个图像进行了Localized Narratives的注释：包括整个COCO、Flickr30k和ADE20K数据集，以及671k个Open Images的图像，我们都已经公开提供。

目前只有OpenImages子集，但欢迎贡献Localized Narratives的其他子集！

OpenImages_captions 与OpenImages子集相似。不同之处在于标题是按图像分组的（图像可以有多个标题）。对于这个子集，不提供timed_caption、traces和voice_recording。

支持的任务和排行榜

[需要更多相关信息]

语言

[需要更多相关信息]

数据集结构

数据实例

每个实例具有以下结构：

{
  dataset_id: 'mscoco_val2017',
  image_id: '137576',
  annotator_id: 93,
  caption: 'In this image there are group of cows standing and eating th...',
  timed_caption: [{'utterance': 'In this', 'start_time': 0.0, 'end_time': 0.4}, ...],
  traces: [[{'x': 0.2086, 'y': -0.0533, 't': 0.022}, ...], ...],
  voice_recording: 'coco_val/coco_val_137576_93.ogg'
}

数据字段

每行表示一个由一个标注者在一个图像上进行的Localized Narrative注释，并具有以下字段：

dataset_id：表示图像所属的数据集和分割的字符串，例如mscoco_val2017。
image_id：图像的字符串标识符，如每个数据集中指定的那样。
annotator_id：唯一标识每个标注者的整数。
caption：图像标题，字符串形式。
timed_caption：定时话语的列表，即{话语，开始时间，结束时间}，其中话语是一个单词（或一组单词），（开始时间，结束时间）是相对于录音开始时所说的时间。
traces：轨迹段的列表，每次鼠标指针进入图像并离开图像时都会有一段。每个轨迹段表示为按时间排列的点列表，即{x，y，t}，其中x和y是标准化的图像坐标（原点在图像的左上角），t是从录音开始以秒为单位的时间。请注意，坐标可能稍微超出图像范围，即小于0或大于1，因为我们记录了鼠标轨迹包括图像周围的一个小区域。
voice_recording：特定图像的声音记录的相对URL路径，相对于 https://storage.googleapis.com/localized-narratives/voice-recordings 处的位置（以OGG格式）。

数据拆分

[需要更多相关信息]

数据集创建

策划理由

[需要更多相关信息]

源数据

初始数据收集和标准化

[需要更多相关信息]

源语言制作者是谁？

[需要更多相关信息]

注释

注释过程

[需要更多相关信息]

标注者是谁？

[需要更多相关信息]

个人和敏感信息

[需要更多相关信息]

使用数据的注意事项

数据的社会影响

[需要更多相关信息]

偏差讨论

[需要更多相关信息]

其他已知限制

[需要更多相关信息]

其他信息

数据集策划者

[需要更多相关信息]

许可信息

[需要更多相关信息]

引用信息

[需要更多相关信息]

贡献

感谢 @VictorSanh 为该数据集的添加。

作者:

HuggingFaceM4

数据集大小:

16.39 KB