数据集:

Antreas/TALI

英文

"TALI-large" 数据集卡片

数据集描述

摘要

TALI 是一个大规模的四模态数据集,旨在促进从单模态和双模态的深度学习研究转向四模态研究。它将文本、视频、图像和音频进行对齐,为创新的自监督学习任务和多模态研究提供了丰富的资源。TALI能够探索不同模态和数据/模型扩展对下游性能的影响,旨在激发各种研究思想,增强对深度学习模型能力和鲁棒性的理解。

简要说明

TALI(时间和语义对准的音频、语言和图像)是一个使用维基百科图像文本(WIT)的标题和图片标题在YouTube上搜索匹配字幕的视频的数据集。然后,它会下载这些视频、音频和字幕。结果是一个丰富的多模态数据集,其中包含与WiT图像和YouTube视频相关的多种字幕类型。这使得学习可以在时间上或语义上对齐的文本、图像、音频和视频之间进行。

数据集信息

模态

TALI数据集包括以下模态:

  • 图像:
  • 维基百科的标题图像
  • 从YouTube视频中随机采样的图像
  • 文本
  • 维基百科字幕文本
  • 维基百科标题文本
  • 维基百科正文文本
  • YouTube字幕文本
  • YouTube描述文本
  • YouTube标题文本
  • 音频
  • YouTube内容音频
  • 视频
  • YouTube内容视频
  • 数据集变体

    TALI数据集有三个变体,训练集大小不同:

    • TALI-small:包含约130万个30秒视频剪辑,与12万个WiT条目对齐。
    • TALI-base:包含约650万个30秒视频剪辑,与12万个WiT条目对齐。
    • TALI-big:包含约1300万个30秒视频剪辑,与12万个WiT条目对齐。

    验证集和测试集在所有三个变体中保持一致,分别为约8万个视频与8,000个维基百科条目对齐(每个维基百科条目有10个子剪辑)。

    数据集统计信息

    待定

    数据集创建

    TALI数据集是通过从WiT数据集开始,使用context_page_description或page_title作为源查询,在YouTube上搜索选择了创意共享并且没有年龄限制的视频来创建的。返回前100个结果标题,并使用可用的最大CLIP模型的CLIP文本嵌入将其与源查询进行比较。根据CLIP图像嵌入与每个片段的第一个图像的标题文本之间的距离,选择CLIP排名最高的标题的视频并下载。将视频分割为30秒的片段,并基于每个视频的前10个片段之间的距离选择10个片段。从这些片段中提取图像、音频和字幕帧。在采样时,随机选择其中一个10个片段,并从30秒的剪辑中选择10秒的片段。结果是200个视频帧(分布在10秒的片段中)和160,000个音频帧(10秒)。

    数据集用途

    TALI旨在用于各种多模态研究任务,包括但不限于:

    • 多模态理解和推理
    • 自监督学习
    • 多模态对齐和翻译
    • 多模态摘要
    • 多模态问答

    数据集策划者:Antreas Antoniou

    引用信息:待定贡献:感谢所有贡献者,包括数据策划者,标注者和软件开发人员。