数据集:
severo/mnist
任务:
图像分类语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
expert-generated源数据集:
extended|other-nist许可:
mitMNIST 数据集包含了从两个NIST数据库中提取的70,000张 28x28 的黑白手写数字图像。训练数据集包含了60,000张图像,验证数据集包含了10,000张图像,每个数字类别对应一张图像,总共10个类别。每个类别有7,000张图像(包括6,000张训练图像和1,000张测试图像)。这些图像一半由人口调查局员工绘制,一半由高中学生绘制(这种分割在训练集和测试集中均匀分布)。
英语
一个数据点包含一幅图像和其对应的标签:
{ 'image': <PIL.PngImagePlugin.PngImageFile image mode=L size=28x28 at 0x276021F6DD8>, 'label': 5 }
数据被划分为训练集和测试集。测试集中的所有图像均由与训练集中的图像不同的个体绘制。训练集包含60,000张图像,测试集包含10,000张图像。
MNIST 数据库的创建目的是为希望尝试模式识别方法或机器学习算法,同时在预处理和格式化上投入最少工作量的人提供一个实验平台。原始数据集(NIST)的图像被分为两组,一组由人口调查局员工绘制,一组由高中学生绘制。在 NIST 中,训练集是通过组合所有人口调查局员工的图像而构建的,测试集是通过组合高中学生的图像而构建的。在构建 MNIST 时的目标是有一个遵循相同分布的训练和测试集,因此训练集包含30,000张由人口调查局员工绘制的图像和30,000张由高中学生绘制的图像,测试集包含每组5,000张图像。策划者确保测试集中的所有图像都是由与训练集中的图像不同的个体绘制的。
原始 NIST 图像经过尺寸归一化以适应一个20x20像素的框,并保持其纵横比。由于规范化算法使用了抗锯齿技术,结果图像包含灰度级(即像素不仅仅有黑白两种值,还有0到255之间的灰度级)。然后,通过计算像素的质心并将图像移位,将图像居中在一个28x28的图像中,使质心位于28x28区域的中心。
谁是源语言生成者?一半的源图像是由人口调查局员工绘制的,一半是由高中学生绘制的。根据数据集策划者的说法,第一组中的图像更容易被识别。
图像在创建后没有进行注释:图像创建者在绘制图像后对其进行了相应的标注。
谁是注释者?与源数据创建者相同。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
Chris Burges,Corinna Cortes和Yann LeCun
MIT许可证
@article{lecun2010mnist, title={MNIST handwritten digit database}, author={LeCun, Yann and Cortes, Corinna and Burges, CJ}, journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist}, volume={2}, year={2010} }
感谢 @sgugger 添加此数据集。