数据集:

HuggingFaceM4/LocalizedNarratives

预印本库:

arxiv:1912.03098

许可:

cc-by-4.0
英文

[数据集名称] 数据集卡片

数据集摘要

Localized Narratives 是一种新的多模态图像注释形式,连接了视觉和语言。我们要求标注者在描述图像的同时用声音说明,并同时将鼠标悬停在他们所描述的区域上。由于声音和鼠标指针是同步的,我们可以定位描述中的每个单词。这种密集的视觉定位以每个单词的鼠标跟踪段作为形式,这在我们的数据中是独特的。我们使用了849k个图像进行了Localized Narratives的注释:包括整个COCO、Flickr30k和ADE20K数据集,以及671k个Open Images的图像,我们都已经公开提供。

目前只有OpenImages子集,但欢迎贡献Localized Narratives的其他子集!

OpenImages_captions 与OpenImages子集相似。不同之处在于标题是按图像分组的(图像可以有多个标题)。对于这个子集,不提供timed_caption、traces和voice_recording。

支持的任务和排行榜

[需要更多相关信息]

语言

[需要更多相关信息]

数据集结构

数据实例

每个实例具有以下结构:

{
  dataset_id: 'mscoco_val2017',
  image_id: '137576',
  annotator_id: 93,
  caption: 'In this image there are group of cows standing and eating th...',
  timed_caption: [{'utterance': 'In this', 'start_time': 0.0, 'end_time': 0.4}, ...],
  traces: [[{'x': 0.2086, 'y': -0.0533, 't': 0.022}, ...], ...],
  voice_recording: 'coco_val/coco_val_137576_93.ogg'
}

数据字段

每行表示一个由一个标注者在一个图像上进行的Localized Narrative注释,并具有以下字段:

  • dataset_id:表示图像所属的数据集和分割的字符串,例如mscoco_val2017。
  • image_id:图像的字符串标识符,如每个数据集中指定的那样。
  • annotator_id:唯一标识每个标注者的整数。
  • caption:图像标题,字符串形式。
  • timed_caption:定时话语的列表,即{话语,开始时间,结束时间},其中话语是一个单词(或一组单词),(开始时间,结束时间)是相对于录音开始时所说的时间。
  • traces:轨迹段的列表,每次鼠标指针进入图像并离开图像时都会有一段。每个轨迹段表示为按时间排列的点列表,即{x,y,t},其中x和y是标准化的图像坐标(原点在图像的左上角),t是从录音开始以秒为单位的时间。请注意,坐标可能稍微超出图像范围,即小于0或大于1,因为我们记录了鼠标轨迹包括图像周围的一个小区域。
  • voice_recording:特定图像的声音记录的相对URL路径,相对于 https://storage.googleapis.com/localized-narratives/voice-recordings 处的位置(以OGG格式)。

数据拆分

[需要更多相关信息]

数据集创建

策划理由

[需要更多相关信息]

源数据

初始数据收集和标准化

[需要更多相关信息]

源语言制作者是谁?

[需要更多相关信息]

注释

注释过程

[需要更多相关信息]

标注者是谁?

[需要更多相关信息]

个人和敏感信息

[需要更多相关信息]

使用数据的注意事项

数据的社会影响

[需要更多相关信息]

偏差讨论

[需要更多相关信息]

其他已知限制

[需要更多相关信息]

其他信息

数据集策划者

[需要更多相关信息]

许可信息

[需要更多相关信息]

引用信息

[需要更多相关信息]

贡献

感谢 @VictorSanh 为该数据集的添加。