CLIP-Kinetics700 是使用 OpenAI 的 CLIP 模型压缩版本的 Kinetics700 数据集。
原始数据集大小约为 700 GB,使用一台机器难以使用和存储。通过将每个视频下采样到 1 FPS,并使用 CLIP 对帧进行编码,我们能够将数据集压缩到约 8 GB,使其非常适合内存使用和操作。
clip-video-encode 是一个工具,您可以使用它来轻松高效地计算视频帧的 CLIP 嵌入。我们使用它来生成这个数据集的嵌入。
为了提高模型训练时的数据加载性能,我们将其格式化为 WebDataset 。每个 split 包含一个包含 10000 个数据样本的 tar 文件列表。可以使用 clip-video-encode 中的 EmbeddingWebDatasetReader 轻松地读取和使用此格式的数据。
CLIP-Kinetics700 ├── splits.csv ├── ds_00000.tar | ├── vid_00000.npy | ├── vid_00000.txt | ├── vid_00000.json | ├── vid_00001.npy | ├── vid_00001.txt | ├── vid_00001.json | └── ... | ├── vid_10000.npy | ├── vid_10000.txt | ├── vid_10000.json ├── ds_00001.tar | ├── vid_10001.npy | ├── vid_10001.txt | ├── vid_10001.json │ ... ...
数据来源于 DeepMind 的 Kinetics700 数据集,并使用 this 提供的便捷仓库进行下载。
我们使用 this repository 对 CLIP-Kinetics700 进行以下简单方法的评估:
Accuracy | |
---|---|
Top-1 | 0.31 |
Top-5 | 0.56 |
mean(Top1, Top5) | 0.44 |
Accuracy | |
---|---|
Top-1 | 0.41 |
Top-5 | 0.65 |
mean(Top1, Top5) | 0.53 |