数据集:

cifar10

批注创建人:

crowdsourced

语言创建人:

found

大小:

10K<n<100K

计算机处理:

monolingual

语言:

en
英文

CIFAR-10 数据集卡片

数据集概述

CIFAR-10 数据集包含 60000 张 32x32 的彩色图像,分为 10 个类别,每个类别有 6000 张图像。训练集包含 50000 张图像,测试集包含 10000 张图像。数据集被分为五个训练批次和一个测试批次,每个批次中有 10000 张图像。测试批次包含每个类别中随机选择的 1000 张图像。训练批次中的图像顺序是随机的,但某些训练批次中可能包含一个类别较多的图像。在这些批次中,每个类别恰好包含 5000 张图像。

支持的任务和排行榜

  • 图像分类:该任务的目标是将给定图像分类到 10 个类别中的一个。排行榜可在此处找到 here

语言

英文

数据集结构

数据实例

下面是一个训练集样本:

{
  'img': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=32x32 at 0x201FA6EE748>,
  'label': 0
}

数据字段

  • img:一个包含 32x32 图像的 PIL.Image.Image 对象。注意,当访问图像列时:dataset[0]["image"],图像文件会被自动解码。解码大量图像文件可能需要很长时间。因此,首先查询样本索引而后查询 "image" 列非常重要。即 dataset[0]["image"] 比 dataset["image"][0] 更可取。
  • label:0-9,对应如下:0 飞机 1 汽车 2 鸟 3 猫 4 鹿 5 狗 6 青蛙 7 马 8 轮船 9 卡车

数据拆分

训练集和测试集

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和标准化

[需要更多信息]

谁是源语言的生成者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是标注者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的考虑事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@TECHREPORT{Krizhevsky09learningmultiple,
    author = {Alex Krizhevsky},
    title = {Learning multiple layers of features from tiny images},
    institution = {},
    year = {2009}
}

贡献者

感谢 @czabo 添加了这个数据集。