数据集:

mnist

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

extended|other-nist

许可:

mit
英文

MNIST的数据集卡片

数据集概述

MNIST数据集包含来自两个NIST数据库的70,000个28x28的黑白手写数字图像。训练数据集中有60,000个图像,验证数据集中有10,000个图像,每个数字类别有一个类别,因此总共有10个类别,每个类别有7,000个图像(6,000个训练图像和1,000个测试图像)。这些图像的一半是由人口调查局的员工绘制的,另一半是由高中学生绘制的(这个分割在训练和测试集中平均分布)。

支持的任务和排行榜

  • 图像分类任务:该任务的目标是将给定的手写数字图像分类为表示从0到9的整数值的10个类别之一。排行榜可在这里查看。

语言

英文

数据集结构

数据实例

数据点由一张图像和其标签组成:

{
  'image': <PIL.PngImagePlugin.PngImageFile image mode=L size=28x28 at 0x276021F6DD8>,
  'label': 5
}

数据字段

  • 图像:包含28x28像素图像的PIL.Image.Image对象。注意,在访问图像列时:dataset[0]["image"] 将自动解码图像文件。解码大量图像文件可能需要相当长的时间。因此,首先查询样本索引非常重要,在 "image" 列前查询样本索引应始终优先于 dataset["image"][0]
  • 标签:表示该数字的0到9之间的整数。

数据拆分

数据分为训练集和测试集。测试集中的所有图像都是由与训练集中的图像不同的个体绘制的。训练集包含60,000个图像,测试集包含10,000个图像。

数据集创建

策划理由

MNIST数据库的创建目的是为那些想要尝试模式识别方法或机器学习算法的人提供一个测试平台,同时最小限度地对预处理和格式化进行处理。原始数据集(NIST)的图像分为两组,一组是人口调查局员工绘制的图像,一组是高中学生绘制的图像。在NIST中,训练集是通过将所有人口调查局员工的图像进行分组而创建的,测试集是通过将高中学生的图像分组而创建的。在构建MNIST时的目标是拥有遵循相同分布的训练和测试集,因此训练集包含30,000个由人口调查局员工绘制的图像和30,000个由高中学生绘制的图像,测试集包含每组5,000个图像。策划人员确保测试集中的所有图像都是由与训练集中的图像不同的个体绘制的。

源数据

初始数据收集和规范化

NIST的原始图像经过尺寸规范化,以适应一个20x20像素的方框,并保持其纵横比。由于规范化算法使用了反锯齿技术,所以结果图像包含灰度级别(即像素的值不仅表示黑白,还表示从0到255之间的灰度级别)。然后,通过计算像素质心将图像居中到28x28图像中,并将图像平移,使得质心位于28x28区域的中心位置。

谁是源语言生产者?

一半的源图像由人口调查局员工绘制,另一半由高中学生绘制。据数据集策划人员称,第一组的图像更容易识别。

注释

注释过程

图像在其创建后没有进行注释:图像创建者在绘制后用相应的标签对图像进行了注释。

谁是注释者?

与源数据创建者相同。

个人和敏感信息

【需要更多信息】

使用数据的考虑事项

数据的社会影响

【需要更多信息】

偏见讨论

【需要更多信息】

其他已知限制

【需要更多信息】

其他信息

数据集策划人员

Chris Burges、Corinna Cortes和Yann LeCun

许可信息

MIT许可证

引用信息

@article{lecun2010mnist,
  title={MNIST handwritten digit database},
  author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
  journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
  volume={2},
  year={2010}
}

贡献

感谢 @sgugger 添加了该数据集。