数据集:
fashion_mnist
任务:
图像分类语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:1708.07747许可:
mitFashion-MNIST 是 Zalando 的服装图片数据集,包括一个由 60,000 个示例组成的训练集和一个由 10,000 个示例组成的测试集。每个示例都是一个 28x28 的灰度图像,关联着一个属于 10 个类别之一的标签。我们打算将 Fashion-MNIST 作为原始 MNIST 数据集的直接替代品,用于评估机器学习算法的性能。它与 MNIST 具有相同的图像大小、训练和测试拆分结构。
[需要更多信息]
一个数据点包括一个图像和它的标签。
{ 'image': <PIL.PngImagePlugin.PngImageFile image mode=L size=28x28 at 0x27601169DD8>, 'label': 9 }
Label | Description |
---|---|
0 | T-shirt/top |
1 | Trouser |
2 | Pullover |
3 | Dress |
4 | Coat |
5 | Sandal |
6 | Shirt |
7 | Sneaker |
8 | Bag |
9 | Ankle boot |
数据被拆分为训练集和测试集。训练集包含 60,000 个图像,测试集包含 10,000 个图像。
原始的 MNIST 数据集包含大量手写数字。AI / ML / 数据科学社区的成员喜欢这个数据集,并将其用作验证算法的基准。事实上,MNIST 通常是研究人员尝试的第一个数据集。他们说:“如果它在 MNIST 上不起作用,那它就一定行不通”。但他们也说:“嗯,如果它在 MNIST 上运行得好,它可能在其他数据集上仍然失败。”
这里有一些好的理由:
原始的 Fashion-MNIST 数据集基于 Zalando 网站上的商品组合。Zalando 的每个时尚产品都有专业摄影师拍摄的一组照片,展示了产品的不同方面,如正反视图、细节、模特和搭配装扮。原始图像具有浅灰色背景(十六进制颜色:#fdfdfd),以 762 × 1000 个 JPEG 格式存储。为了有效地为不同的前端组件提供服务,将原始图像按多种分辨率进行了重新采样,例如大、中、小、缩略图和微小图像。
我们使用 70,000 个唯一商品的正面缩略图图像来构建 Fashion-MNIST。这些商品来自不同的性别群体:男性、女性、儿童和中性。特别地,白色产品未包含在数据集中,因为它们与背景对比度较低。然后,缩略图(51 x 73)经过以下转换流程:
从 arXiv 论文中:Zalando 的每个时尚产品都有专业摄影师拍摄的一组照片,展示了产品的不同方面,如正反视图、细节、模特和搭配装扮。
从 arXiv 论文中:对于类别标签,他们使用产品的轮廓代码。轮廓代码由公司内部时尚专家手动标记,并由 Zalando 的另一个团队进行审核。每个 Zalando 产品只包含一个轮廓代码。
注释者是谁?从 arXiv 论文中:轮廓代码由公司内部时尚专家手动标记,并由 Zalando 的另一个团队进行审核。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
Han Xiao、Kashif Rasul 和 Roland Vollgraf
MIT 许可证
@article{DBLP:journals/corr/abs-1708-07747, author = {Han Xiao and Kashif Rasul and Roland Vollgraf}, title = {Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms}, journal = {CoRR}, volume = {abs/1708.07747}, year = {2017}, url = {http://arxiv.org/abs/1708.07747}, archivePrefix = {arXiv}, eprint = {1708.07747}, timestamp = {Mon, 13 Aug 2018 16:47:27 +0200}, biburl = {https://dblp.org/rec/bib/journals/corr/abs-1708-07747}, bibsource = {dblp computer science bibliography, https://dblp.org} }
感谢 @gchhablani 添加了该数据集。