数据集:
mnist
任务:
图像分类语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
expert-generated源数据集:
extended|other-nist许可:
mitMNIST数据集包含来自两个NIST数据库的70,000个28x28的黑白手写数字图像。训练数据集中有60,000个图像,验证数据集中有10,000个图像,每个数字类别有一个类别,因此总共有10个类别,每个类别有7,000个图像(6,000个训练图像和1,000个测试图像)。这些图像的一半是由人口调查局的员工绘制的,另一半是由高中学生绘制的(这个分割在训练和测试集中平均分布)。
英文
数据点由一张图像和其标签组成:
{ 'image': <PIL.PngImagePlugin.PngImageFile image mode=L size=28x28 at 0x276021F6DD8>, 'label': 5 }
数据分为训练集和测试集。测试集中的所有图像都是由与训练集中的图像不同的个体绘制的。训练集包含60,000个图像,测试集包含10,000个图像。
MNIST数据库的创建目的是为那些想要尝试模式识别方法或机器学习算法的人提供一个测试平台,同时最小限度地对预处理和格式化进行处理。原始数据集(NIST)的图像分为两组,一组是人口调查局员工绘制的图像,一组是高中学生绘制的图像。在NIST中,训练集是通过将所有人口调查局员工的图像进行分组而创建的,测试集是通过将高中学生的图像分组而创建的。在构建MNIST时的目标是拥有遵循相同分布的训练和测试集,因此训练集包含30,000个由人口调查局员工绘制的图像和30,000个由高中学生绘制的图像,测试集包含每组5,000个图像。策划人员确保测试集中的所有图像都是由与训练集中的图像不同的个体绘制的。
NIST的原始图像经过尺寸规范化,以适应一个20x20像素的方框,并保持其纵横比。由于规范化算法使用了反锯齿技术,所以结果图像包含灰度级别(即像素的值不仅表示黑白,还表示从0到255之间的灰度级别)。然后,通过计算像素质心将图像居中到28x28图像中,并将图像平移,使得质心位于28x28区域的中心位置。
谁是源语言生产者?一半的源图像由人口调查局员工绘制,另一半由高中学生绘制。据数据集策划人员称,第一组的图像更容易识别。
图像在其创建后没有进行注释:图像创建者在绘制后用相应的标签对图像进行了注释。
谁是注释者?与源数据创建者相同。
【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
Chris Burges、Corinna Cortes和Yann LeCun
MIT许可证
@article{lecun2010mnist, title={MNIST handwritten digit database}, author={LeCun, Yann and Cortes, Corinna and Burges, CJ}, journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist}, volume={2}, year={2010} }
感谢 @sgugger 添加了该数据集。