数据集:

Antreas/TALI

任务:

零样本分类

大小:

1M<n<10M

其他:

video audio text

许可:

cc-by-4.0

数据集介绍文件清单

英文

"TALI-large" 数据集卡片

数据集描述

摘要

TALI 是一个大规模的四模态数据集，旨在促进从单模态和双模态的深度学习研究转向四模态研究。它将文本、视频、图像和音频进行对齐，为创新的自监督学习任务和多模态研究提供了丰富的资源。TALI能够探索不同模态和数据/模型扩展对下游性能的影响，旨在激发各种研究思想，增强对深度学习模型能力和鲁棒性的理解。

简要说明

TALI（时间和语义对准的音频、语言和图像）是一个使用维基百科图像文本（WIT）的标题和图片标题在YouTube上搜索匹配字幕的视频的数据集。然后，它会下载这些视频、音频和字幕。结果是一个丰富的多模态数据集，其中包含与WiT图像和YouTube视频相关的多种字幕类型。这使得学习可以在时间上或语义上对齐的文本、图像、音频和视频之间进行。

数据集信息

模态

TALI数据集包括以下模态：

图像：

维基百科的标题图像

从YouTube视频中随机采样的图像

文本

维基百科字幕文本

维基百科标题文本

维基百科正文文本

YouTube字幕文本

YouTube描述文本

YouTube标题文本

音频

YouTube内容音频

视频

YouTube内容视频

数据集变体

TALI数据集有三个变体，训练集大小不同：

TALI-small：包含约130万个30秒视频剪辑，与12万个WiT条目对齐。
TALI-base：包含约650万个30秒视频剪辑，与12万个WiT条目对齐。
TALI-big：包含约1300万个30秒视频剪辑，与12万个WiT条目对齐。

验证集和测试集在所有三个变体中保持一致，分别为约8万个视频与8,000个维基百科条目对齐（每个维基百科条目有10个子剪辑）。

数据集统计信息

待定

数据集创建

TALI数据集是通过从WiT数据集开始，使用context_page_description或page_title作为源查询，在YouTube上搜索选择了创意共享并且没有年龄限制的视频来创建的。返回前100个结果标题，并使用可用的最大CLIP模型的CLIP文本嵌入将其与源查询进行比较。根据CLIP图像嵌入与每个片段的第一个图像的标题文本之间的距离，选择CLIP排名最高的标题的视频并下载。将视频分割为30秒的片段，并基于每个视频的前10个片段之间的距离选择10个片段。从这些片段中提取图像、音频和字幕帧。在采样时，随机选择其中一个10个片段，并从30秒的剪辑中选择10秒的片段。结果是200个视频帧（分布在10秒的片段中）和160,000个音频帧（10秒）。

数据集用途

TALI旨在用于各种多模态研究任务，包括但不限于：

多模态理解和推理
自监督学习
多模态对齐和翻译
多模态摘要
多模态问答

数据集策划者：Antreas Antoniou

引用信息：待定贡献：感谢所有贡献者，包括数据策划者，标注者和软件开发人员。

作者:

Antreas

数据集大小:

1.22 TB