数据集:

HuggingFaceM4/ActivitiyNet_Captions

子任务:

closed-domain-qa

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

crowdsourced

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:1705.00754

许可:

other

数据集介绍文件清单

英文

ActivityNet Captions 数据集卡片

数据集概述

ActivityNet Captions 数据集将视频与一系列按时间顺序注释的句子描述相连接。每个句子都涵盖了视频中的一个独特片段，描述了多个事件的发生。这些事件可以在非常长或非常短的时间内发生，没有任何限制，可以同时发生。平均而言，每个视频包含3.65个有时间标注的句子，总共有10万个句子。我们发现每个视频的句子数量遵循一个相对正态分布。此外，随着视频时长的增加，句子的数量也会增加。每个句子的平均长度为13.48个单词，也符合正态分布。您可以在 ActivityNet Captions 数据集部分和论文的补充材料中找到更多数据集的详细信息。

语言

数据集中的字幕为英语。

数据集结构

数据字段

video_id: str，视频的唯一标识符
video_path: str，视频文件的路径
duration: float32，视频的持续时间
captions_starts: list_float32，标记每个字幕开始的时间戳的列表
captions_ends: list_float32，标记每个字幕结束的时间戳的列表
en_captions: list_str，描述视频部分的英文字幕的列表

数据拆分

train	validation	test	Overall
# of videos	10,009	4,917	4,885	19,811

注释

引用 ActivityNet Captions' paper : "每个注释任务分为两个步骤：（1）编写一个段落描述视频中发生的所有重要事件，段落中的每个句子描述一个事件，和（2）标记每个句子的视频中的开始和结束时间。"

数据集的注释者是谁？

Amazon Mechanical Turk 注释者

个人和敏感信息

论文中没有特别提到。

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

许可信息

[需要更多信息]

引用信息

@InProceedings{tgif-cvpr2016,
@inproceedings{krishna2017dense,
    title={Dense-Captioning Events in Videos},
    author={Krishna, Ranjay and Hata, Kenji and Ren, Frederic and Fei-Fei, Li and Niebles, Juan Carlos},
    booktitle={International Conference on Computer Vision (ICCV)},
    year={2017}
}

贡献者

感谢 @leot13 添加了此数据集。

作者:

HuggingFaceM4

数据集大小:

9.86 KB