数据集:
HuggingFaceM4/ActivitiyNet_Captions
子任务:
closed-domain-qa语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
crowdsourced批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:1705.00754许可:
otherActivityNet Captions 数据集将视频与一系列按时间顺序注释的句子描述相连接。每个句子都涵盖了视频中的一个独特片段,描述了多个事件的发生。这些事件可以在非常长或非常短的时间内发生,没有任何限制,可以同时发生。平均而言,每个视频包含3.65个有时间标注的句子,总共有10万个句子。我们发现每个视频的句子数量遵循一个相对正态分布。此外,随着视频时长的增加,句子的数量也会增加。每个句子的平均长度为13.48个单词,也符合正态分布。您可以在 ActivityNet Captions 数据集部分和论文的补充材料中找到更多数据集的详细信息。
数据集中的字幕为英语。
train | validation | test | Overall | |
---|---|---|---|---|
# of videos | 10,009 | 4,917 | 4,885 | 19,811 |
引用 ActivityNet Captions' paper : "每个注释任务分为两个步骤:(1)编写一个段落描述视频中发生的所有重要事件,段落中的每个句子描述一个事件,和(2)标记每个句子的视频中的开始和结束时间。"
Amazon Mechanical Turk 注释者
论文中没有特别提到。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@InProceedings{tgif-cvpr2016, @inproceedings{krishna2017dense, title={Dense-Captioning Events in Videos}, author={Krishna, Ranjay and Hata, Kenji and Ren, Frederic and Fei-Fei, Li and Niebles, Juan Carlos}, booktitle={International Conference on Computer Vision (ICCV)}, year={2017} }
感谢 @leot13 添加了此数据集。