数据集:

HuggingFaceM4/ActivitiyNet_Captions

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

crowdsourced

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:1705.00754

许可:

other
英文

ActivityNet Captions 数据集卡片

数据集概述

ActivityNet Captions 数据集将视频与一系列按时间顺序注释的句子描述相连接。每个句子都涵盖了视频中的一个独特片段,描述了多个事件的发生。这些事件可以在非常长或非常短的时间内发生,没有任何限制,可以同时发生。平均而言,每个视频包含3.65个有时间标注的句子,总共有10万个句子。我们发现每个视频的句子数量遵循一个相对正态分布。此外,随着视频时长的增加,句子的数量也会增加。每个句子的平均长度为13.48个单词,也符合正态分布。您可以在 ActivityNet Captions 数据集部分和论文的补充材料中找到更多数据集的详细信息。

语言

数据集中的字幕为英语。

数据集结构

数据字段

  • video_id: str,视频的唯一标识符
  • video_path: str,视频文件的路径
  • duration: float32,视频的持续时间
  • captions_starts: list_float32,标记每个字幕开始的时间戳的列表
  • captions_ends: list_float32,标记每个字幕结束的时间戳的列表
  • en_captions: list_str,描述视频部分的英文字幕的列表

数据拆分

train validation test Overall
# of videos 10,009 4,917 4,885 19,811

注释

引用 ActivityNet Captions' paper : "每个注释任务分为两个步骤:(1)编写一个段落描述视频中发生的所有重要事件,段落中的每个句子描述一个事件,和(2)标记每个句子的视频中的开始和结束时间。"

数据集的注释者是谁?

Amazon Mechanical Turk 注释者

个人和敏感信息

论文中没有特别提到。

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

许可信息

[需要更多信息]

引用信息

@InProceedings{tgif-cvpr2016,
@inproceedings{krishna2017dense,
    title={Dense-Captioning Events in Videos},
    author={Krishna, Ranjay and Hata, Kenji and Ren, Frederic and Fei-Fei, Li and Niebles, Juan Carlos},
    booktitle={International Conference on Computer Vision (ICCV)},
    year={2017}
}

贡献者

感谢 @leot13 添加了此数据集。