数据集:
HuggingFaceM4/LocalizedNarratives
预印本库:
arxiv:1912.03098许可:
cc-by-4.0Localized Narratives 是一种新的多模态图像注释形式,连接了视觉和语言。我们要求标注者在描述图像的同时用声音说明,并同时将鼠标悬停在他们所描述的区域上。由于声音和鼠标指针是同步的,我们可以定位描述中的每个单词。这种密集的视觉定位以每个单词的鼠标跟踪段作为形式,这在我们的数据中是独特的。我们使用了849k个图像进行了Localized Narratives的注释:包括整个COCO、Flickr30k和ADE20K数据集,以及671k个Open Images的图像,我们都已经公开提供。
目前只有OpenImages子集,但欢迎贡献Localized Narratives的其他子集!
OpenImages_captions 与OpenImages子集相似。不同之处在于标题是按图像分组的(图像可以有多个标题)。对于这个子集,不提供timed_caption、traces和voice_recording。
[需要更多相关信息]
[需要更多相关信息]
每个实例具有以下结构:
{ dataset_id: 'mscoco_val2017', image_id: '137576', annotator_id: 93, caption: 'In this image there are group of cows standing and eating th...', timed_caption: [{'utterance': 'In this', 'start_time': 0.0, 'end_time': 0.4}, ...], traces: [[{'x': 0.2086, 'y': -0.0533, 't': 0.022}, ...], ...], voice_recording: 'coco_val/coco_val_137576_93.ogg' }
每行表示一个由一个标注者在一个图像上进行的Localized Narrative注释,并具有以下字段:
[需要更多相关信息]
[需要更多相关信息]
[需要更多相关信息]
源语言制作者是谁?[需要更多相关信息]
[需要更多相关信息]
标注者是谁?[需要更多相关信息]
[需要更多相关信息]
[需要更多相关信息]
[需要更多相关信息]
[需要更多相关信息]
[需要更多相关信息]
[需要更多相关信息]
[需要更多相关信息]
感谢 @VictorSanh 为该数据集的添加。