数据集:

svhn

语言:

en

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

machine-generated

源数据集:

original

许可:

other
英文

街景房屋号码数据集的数据卡

数据集摘要

SVHN是一个用于开发机器学习和对象识别算法的真实世界图像数据集,对数据预处理和格式化的要求很少。它可以看作与MNIST类似(例如,图像是小的裁剪数字),但包含数量级更多的标记数据(超过600,000个数字图像),并来自一个更难、尚未解决的现实世界问题(识别自然场景图像中的数字和号码)。SVHN来自于Google街景图像中的房屋号码。数据集有两种格式:

  • 带有字符级边界框的原始图像。
  • 类似MNIST的32x32图像,以单个字符为中心(许多图像在侧边可能包含一些干扰物)。
  • 支持的任务和排行榜

    语言

    英文

    数据集结构

    数据实例

    full_numbers

    带有字符级边界框的原始可变分辨率彩色房屋号码图像。

    {
      'image': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=98x48 at 0x259E3F01780>,
      'digits': {
        'bbox': [
          [36, 7, 13, 32],
          [50, 7, 12, 32]
        ], 
        'label': [6, 9]
      }
    }
    
    cropped_digits

    以MNIST格式呈现的字符级真实值。所有数字都已被调整为固定分辨率的32x32像素。原始字符边界框在适当的维度上扩展为正方形窗口,因此将它们调整为32x32像素不会引入宽高比失真。尽管如此,这个预处理过程在数字感兴趣区域的两侧会引入一些干扰数字。

    {
      'image': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=32x32 at 0x25A89494780>,
      'label': 1
    }
    

    数据字段

    full_numbers
    • image:包含图像的PIL.Image.Image对象。注意,当访问图像列时:dataset[0]["image"]将自动解码图像文件。解码大量图像文件可能需要很长时间。因此,在“image”列之前,最好先查询样本索引,即始终优先选择dataset[0]["image"]而不是dataset["image"][0]
    • digits:包含数字边界框和标签的字典
      • bbox:与图像中存在的数字对应的边界框列表(格式为 coco
      • label:表示数字的0到9之间的整数列表。
    cropped_digits
    • image:包含图像的PIL.Image.Image对象。注意,当访问图像列时:dataset[0]["image"]将自动解码图像文件。解码大量图像文件可能需要很长时间。因此,在“image”列之前,最好先查询样本索引,即始终优先选择dataset[0]["image"]而不是dataset["image"][0]
    • digit:表示数字的0到9之间的整数。

    数据拆分

    full_numbers

    数据集分为训练集、测试集和额外集。训练集包含33402个图像,测试集包含13068个图像,额外集包含202353个图像。

    cropped_digits

    数据集分为训练集、测试集和额外集。训练集包含73257个图像,测试集包含26032个图像,额外集包含531131个图像。

    额外集可作为额外的训练数据。额外集与训练集和测试集的获取方式类似,但通过提高检测阈值来生成大量标记数据。因此,SVHN的额外子集在一定程度上偏向于更容易的检测,因此比SVHN训练/测试集更容易。

    数据集创建

    策划理由

    来自论文:

    如上所述,备受推崇的MNIST数据集对于寻求构建性能更好的学习系统、其基准性能可望转化为在实际应用中的改进性能的研究人员来说,是一个有价值的目标。然而,计算机现在已经达到了在这个问题上基本达到了人类水平的性能 - 这是机器学习和计算机视觉进展的证明。我们提供的Street View房屋号码(SVHN)数字数据库可以看作与MNIST类似(例如,图像是小的裁剪字符),但SVHN数据集包含数量级更多的标记数据,并来自一个更难、尚未解决的现实世界问题。在这里,人类性能与现代特征表示的最新水平之间的差距是显著的。展望未来,我们预计这个数据集可以在现代特征学习算法中发挥类似的作用:它提供了一个新的、困难的基准,可以期望提高性能将转化为在现实应用中的实际收益。

    源数据

    初始数据收集和标准化

    来自论文:

    SVHN数据集是使用一系列自动化算法和Amazon Mechanical Turk(AMT)框架从大量街景图像中获取的,后者被用于定位和转录单个数字。我们从各个国家的城区下载了大量图像。

    谁是源语言生产者?

    [需要更多信息]

    注释

    注释过程

    来自论文:

    从这些随机选择的图像中,使用专用的滑动窗口房屋号码检测器提取了房屋号码补丁,该检测器在检测器的置信度得分上使用较低的阈值,以获取一个多样、无偏的房屋号码标记数据集。通过AMT工作者对这些低精度检测进行筛选和转录。

    谁是注释者?

    AMT工作者。

    个人和敏感信息

    [需要更多信息]

    使用数据的注意事项

    数据的社会影响

    [需要更多信息]

    偏见讨论

    [需要更多信息]

    其他已知限制

    [需要更多信息]

    附加信息

    数据集策划者

    Yuval Netzer、Tao Wang、Adam Coates、Alessandro Bissacco、Bo Wu和Andrew Y. Ng

    许可信息

    仅限非商业使用。

    引用信息

    @article{netzer2011reading,
      title={Reading digits in natural images with unsupervised feature learning},
      author={Netzer, Yuval and Wang, Tao and Coates, Adam and Bissacco, Alessandro and Wu, Bo and Ng, Andrew Y},
      year={2011}
    }
    

    贡献

    感谢 @mariosasko 添加了这个数据集。