数据集:

iejMac/CLIP-Kinetics700

语言:

en

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

found

许可:

mit
英文

CLIP-Kinetics70 数据集卡片

数据集描述

数据集概述

CLIP-Kinetics700 是使用 OpenAI 的 CLIP 模型压缩版本的 Kinetics700 数据集。

原始数据集大小约为 700 GB,使用一台机器难以使用和存储。通过将每个视频下采样到 1 FPS,并使用 CLIP 对帧进行编码,我们能够将数据集压缩到约 8 GB,使其非常适合内存使用和操作。

数据集预处理

clip-video-encode 是一个工具,您可以使用它来轻松高效地计算视频帧的 CLIP 嵌入。我们使用它来生成这个数据集的嵌入。

数据集结构

数据格式

为了提高模型训练时的数据加载性能,我们将其格式化为 WebDataset 。每个 split 包含一个包含 10000 个数据样本的 tar 文件列表。可以使用 clip-video-encode 中的 EmbeddingWebDatasetReader 轻松地读取和使用此格式的数据。

CLIP-Kinetics700
 ├── splits.csv
 ├── ds_00000.tar
 |     ├── vid_00000.npy
 |     ├── vid_00000.txt
 |     ├── vid_00000.json
 |     ├── vid_00001.npy
 |     ├── vid_00001.txt
 |     ├── vid_00001.json
 |     └── ...
 |     ├── vid_10000.npy
 |     ├── vid_10000.txt
 |     ├── vid_10000.json
 ├── ds_00001.tar
 |     ├── vid_10001.npy
 |     ├── vid_10001.txt
 |     ├── vid_10001.json
 │     ...
 ...

数据字段

  • vid.npy:每帧嵌入的numpy数组。形状 -> (n_frames, 512)
  • vid.cap:视频的“标题”。在这种情况下,它是 Kinetics700 的标签。
  • vid.json:其他元数据 - YouTube 视频 ID,开始时间,结束时间。

数据拆分

  • 训练集 - 536489 个样本 | 54 个tar文件
  • 验证集 - 33966 个样本 | 4 个tar文件
  • 测试集 - 64532 个样本 | 7 个tar文件

数据集创建

源数据

数据来源于 DeepMind 的 Kinetics700 数据集,并使用 this 提供的便捷仓库进行下载。

简单实验

我们使用 this repository 对 CLIP-Kinetics700 进行以下简单方法的评估:

零样本评估

Accuracy
Top-1 0.31
Top-5 0.56
mean(Top1, Top5) 0.44

线性探针评估

Accuracy
Top-1 0.41
Top-5 0.65
mean(Top1, Top5) 0.53