TALI 是一个大规模的四模态数据集,旨在促进从单模态和双模态的深度学习研究转向四模态研究。它将文本、视频、图像和音频进行对齐,为创新的自监督学习任务和多模态研究提供了丰富的资源。TALI能够探索不同模态和数据/模型扩展对下游性能的影响,旨在激发各种研究思想,增强对深度学习模型能力和鲁棒性的理解。
TALI(时间和语义对准的音频、语言和图像)是一个使用维基百科图像文本(WIT)的标题和图片标题在YouTube上搜索匹配字幕的视频的数据集。然后,它会下载这些视频、音频和字幕。结果是一个丰富的多模态数据集,其中包含与WiT图像和YouTube视频相关的多种字幕类型。这使得学习可以在时间上或语义上对齐的文本、图像、音频和视频之间进行。
TALI数据集包括以下模态:
TALI数据集有三个变体,训练集大小不同:
验证集和测试集在所有三个变体中保持一致,分别为约8万个视频与8,000个维基百科条目对齐(每个维基百科条目有10个子剪辑)。
待定
TALI数据集是通过从WiT数据集开始,使用context_page_description或page_title作为源查询,在YouTube上搜索选择了创意共享并且没有年龄限制的视频来创建的。返回前100个结果标题,并使用可用的最大CLIP模型的CLIP文本嵌入将其与源查询进行比较。根据CLIP图像嵌入与每个片段的第一个图像的标题文本之间的距离,选择CLIP排名最高的标题的视频并下载。将视频分割为30秒的片段,并基于每个视频的前10个片段之间的距离选择10个片段。从这些片段中提取图像、音频和字幕帧。在采样时,随机选择其中一个10个片段,并从30秒的剪辑中选择10秒的片段。结果是200个视频帧(分布在10秒的片段中)和160,000个音频帧(10秒)。
TALI旨在用于各种多模态研究任务,包括但不限于:
引用信息:待定贡献:感谢所有贡献者,包括数据策划者,标注者和软件开发人员。