数据集:

severo/mnist

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

extended|other-nist

许可:

mit
英文

MNIST 数据集数据卡片

数据集概述

MNIST 数据集包含了从两个NIST数据库中提取的70,000张 28x28 的黑白手写数字图像。训练数据集包含了60,000张图像,验证数据集包含了10,000张图像,每个数字类别对应一张图像,总共10个类别。每个类别有7,000张图像(包括6,000张训练图像和1,000张测试图像)。这些图像一半由人口调查局员工绘制,一半由高中学生绘制(这种分割在训练集和测试集中均匀分布)。

支持的任务和排行榜

  • 图像分类:该任务的目标是将给定的手写数字图像分类为表示0到9的10个整数类别中的一类。排行榜可在此 here 查看。

语言

英语

数据集结构

数据实例

一个数据点包含一幅图像和其对应的标签:

{
  'image': <PIL.PngImagePlugin.PngImageFile image mode=L size=28x28 at 0x276021F6DD8>,
  'label': 5
}

数据字段

  • 图像:一个包含28x28图像的PIL.Image.Image对象。注意,当访问图像列时 dataset[0]["image"],图像文件会被自动解码。解码大量的图像文件可能需要很长时间。因此,在 "image" 列之前首先查询样本索引非常重要,即 dataset[0]["image"] 应始终优先于 dataset["image"][0]。
  • 标签:表示数字的0到9之间的整数。

数据拆分

数据被划分为训练集和测试集。测试集中的所有图像均由与训练集中的图像不同的个体绘制。训练集包含60,000张图像,测试集包含10,000张图像。

数据集创建

策划理由

MNIST 数据库的创建目的是为希望尝试模式识别方法或机器学习算法,同时在预处理和格式化上投入最少工作量的人提供一个实验平台。原始数据集(NIST)的图像被分为两组,一组由人口调查局员工绘制,一组由高中学生绘制。在 NIST 中,训练集是通过组合所有人口调查局员工的图像而构建的,测试集是通过组合高中学生的图像而构建的。在构建 MNIST 时的目标是有一个遵循相同分布的训练和测试集,因此训练集包含30,000张由人口调查局员工绘制的图像和30,000张由高中学生绘制的图像,测试集包含每组5,000张图像。策划者确保测试集中的所有图像都是由与训练集中的图像不同的个体绘制的。

源数据

初始数据收集和规范化

原始 NIST 图像经过尺寸归一化以适应一个20x20像素的框,并保持其纵横比。由于规范化算法使用了抗锯齿技术,结果图像包含灰度级(即像素不仅仅有黑白两种值,还有0到255之间的灰度级)。然后,通过计算像素的质心并将图像移位,将图像居中在一个28x28的图像中,使质心位于28x28区域的中心。

谁是源语言生成者?

一半的源图像是由人口调查局员工绘制的,一半是由高中学生绘制的。根据数据集策划者的说法,第一组中的图像更容易被识别。

注释

注释过程

图像在创建后没有进行注释:图像创建者在绘制图像后对其进行了相应的标注。

谁是注释者?

与源数据创建者相同。

个人和敏感信息

[需要更多信息]

数据使用注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

Chris Burges,Corinna Cortes和Yann LeCun

许可信息

MIT许可证

引用信息

@article{lecun2010mnist,
  title={MNIST handwritten digit database},
  author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
  journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
  volume={2},
  year={2010}
}

贡献

感谢 @sgugger 添加此数据集。