数据集:

svhn

任务:

图像分类

目标检测

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

machine-generated

批注创建人:

machine-generated expert-generated

源数据集:

original

许可:

other

数据集介绍文件清单

英文

街景房屋号码数据集的数据卡

数据集摘要

SVHN是一个用于开发机器学习和对象识别算法的真实世界图像数据集，对数据预处理和格式化的要求很少。它可以看作与MNIST类似（例如，图像是小的裁剪数字），但包含数量级更多的标记数据（超过600,000个数字图像），并来自一个更难、尚未解决的现实世界问题（识别自然场景图像中的数字和号码）。SVHN来自于Google街景图像中的房屋号码。数据集有两种格式：

带有字符级边界框的原始图像。

类似MNIST的32x32图像，以单个字符为中心（许多图像在侧边可能包含一些干扰物）。

支持的任务和排行榜

对象检测：可以使用该数据集训练数字检测模型。
图像分类：可以使用该数据集训练图像分类模型，其中任务是预测图像上的正确数字。该任务的排行榜位于： https://paperswithcode.com/sota/image-classification-on-svhn

语言

英文

数据集结构

数据实例

full_numbers

带有字符级边界框的原始可变分辨率彩色房屋号码图像。

{
  'image': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=98x48 at 0x259E3F01780>,
  'digits': {
    'bbox': [
      [36, 7, 13, 32],
      [50, 7, 12, 32]
    ], 
    'label': [6, 9]
  }
}

cropped_digits

以MNIST格式呈现的字符级真实值。所有数字都已被调整为固定分辨率的32x32像素。原始字符边界框在适当的维度上扩展为正方形窗口，因此将它们调整为32x32像素不会引入宽高比失真。尽管如此，这个预处理过程在数字感兴趣区域的两侧会引入一些干扰数字。

{
  'image': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=32x32 at 0x25A89494780>,
  'label': 1
}

数据字段

full_numbers

image：包含图像的PIL.Image.Image对象。注意，当访问图像列时：dataset[0]["image"]将自动解码图像文件。解码大量图像文件可能需要很长时间。因此，在“image”列之前，最好先查询样本索引，即始终优先选择dataset[0]["image"]而不是dataset["image"][0]
digits：包含数字边界框和标签的字典
- bbox：与图像中存在的数字对应的边界框列表（格式为 coco ）
- label：表示数字的0到9之间的整数列表。

cropped_digits

image：包含图像的PIL.Image.Image对象。注意，当访问图像列时：dataset[0]["image"]将自动解码图像文件。解码大量图像文件可能需要很长时间。因此，在“image”列之前，最好先查询样本索引，即始终优先选择dataset[0]["image"]而不是dataset["image"][0]
digit：表示数字的0到9之间的整数。

数据拆分

full_numbers

数据集分为训练集、测试集和额外集。训练集包含33402个图像，测试集包含13068个图像，额外集包含202353个图像。

cropped_digits

数据集分为训练集、测试集和额外集。训练集包含73257个图像，测试集包含26032个图像，额外集包含531131个图像。

额外集可作为额外的训练数据。额外集与训练集和测试集的获取方式类似，但通过提高检测阈值来生成大量标记数据。因此，SVHN的额外子集在一定程度上偏向于更容易的检测，因此比SVHN训练/测试集更容易。

数据集创建

策划理由

来自论文：

如上所述，备受推崇的MNIST数据集对于寻求构建性能更好的学习系统、其基准性能可望转化为在实际应用中的改进性能的研究人员来说，是一个有价值的目标。然而，计算机现在已经达到了在这个问题上基本达到了人类水平的性能 - 这是机器学习和计算机视觉进展的证明。我们提供的Street View房屋号码（SVHN）数字数据库可以看作与MNIST类似（例如，图像是小的裁剪字符），但SVHN数据集包含数量级更多的标记数据，并来自一个更难、尚未解决的现实世界问题。在这里，人类性能与现代特征表示的最新水平之间的差距是显著的。展望未来，我们预计这个数据集可以在现代特征学习算法中发挥类似的作用：它提供了一个新的、困难的基准，可以期望提高性能将转化为在现实应用中的实际收益。

源数据

初始数据收集和标准化

来自论文：

SVHN数据集是使用一系列自动化算法和Amazon Mechanical Turk（AMT）框架从大量街景图像中获取的，后者被用于定位和转录单个数字。我们从各个国家的城区下载了大量图像。

谁是源语言生产者？

[需要更多信息]

注释

注释过程

来自论文：

从这些随机选择的图像中，使用专用的滑动窗口房屋号码检测器提取了房屋号码补丁，该检测器在检测器的置信度得分上使用较低的阈值，以获取一个多样、无偏的房屋号码标记数据集。通过AMT工作者对这些低精度检测进行筛选和转录。

谁是注释者？

AMT工作者。

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

Yuval Netzer、Tao Wang、Adam Coates、Alessandro Bissacco、Bo Wu和Andrew Y. Ng

许可信息

仅限非商业使用。

引用信息

@article{netzer2011reading,
  title={Reading digits in natural images with unsupervised feature learning},
  author={Netzer, Yuval and Wang, Tao and Coates, Adam and Bissacco, Alessandro and Wu, Bo and Ng, Andrew Y},
  year={2011}
}

贡献

感谢 @mariosasko 添加了这个数据集。

作者:

佚名

数据集大小:

23.86 KB