数据集:
svhn
SVHN是一个用于开发机器学习和对象识别算法的真实世界图像数据集,对数据预处理和格式化的要求很少。它可以看作与MNIST类似(例如,图像是小的裁剪数字),但包含数量级更多的标记数据(超过600,000个数字图像),并来自一个更难、尚未解决的现实世界问题(识别自然场景图像中的数字和号码)。SVHN来自于Google街景图像中的房屋号码。数据集有两种格式:
英文
带有字符级边界框的原始可变分辨率彩色房屋号码图像。
{ 'image': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=98x48 at 0x259E3F01780>, 'digits': { 'bbox': [ [36, 7, 13, 32], [50, 7, 12, 32] ], 'label': [6, 9] } }cropped_digits
以MNIST格式呈现的字符级真实值。所有数字都已被调整为固定分辨率的32x32像素。原始字符边界框在适当的维度上扩展为正方形窗口,因此将它们调整为32x32像素不会引入宽高比失真。尽管如此,这个预处理过程在数字感兴趣区域的两侧会引入一些干扰数字。
{ 'image': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=32x32 at 0x25A89494780>, 'label': 1 }
数据集分为训练集、测试集和额外集。训练集包含33402个图像,测试集包含13068个图像,额外集包含202353个图像。
cropped_digits数据集分为训练集、测试集和额外集。训练集包含73257个图像,测试集包含26032个图像,额外集包含531131个图像。
额外集可作为额外的训练数据。额外集与训练集和测试集的获取方式类似,但通过提高检测阈值来生成大量标记数据。因此,SVHN的额外子集在一定程度上偏向于更容易的检测,因此比SVHN训练/测试集更容易。
来自论文:
如上所述,备受推崇的MNIST数据集对于寻求构建性能更好的学习系统、其基准性能可望转化为在实际应用中的改进性能的研究人员来说,是一个有价值的目标。然而,计算机现在已经达到了在这个问题上基本达到了人类水平的性能 - 这是机器学习和计算机视觉进展的证明。我们提供的Street View房屋号码(SVHN)数字数据库可以看作与MNIST类似(例如,图像是小的裁剪字符),但SVHN数据集包含数量级更多的标记数据,并来自一个更难、尚未解决的现实世界问题。在这里,人类性能与现代特征表示的最新水平之间的差距是显著的。展望未来,我们预计这个数据集可以在现代特征学习算法中发挥类似的作用:它提供了一个新的、困难的基准,可以期望提高性能将转化为在现实应用中的实际收益。
来自论文:
SVHN数据集是使用一系列自动化算法和Amazon Mechanical Turk(AMT)框架从大量街景图像中获取的,后者被用于定位和转录单个数字。我们从各个国家的城区下载了大量图像。
谁是源语言生产者?[需要更多信息]
来自论文:
从这些随机选择的图像中,使用专用的滑动窗口房屋号码检测器提取了房屋号码补丁,该检测器在检测器的置信度得分上使用较低的阈值,以获取一个多样、无偏的房屋号码标记数据集。通过AMT工作者对这些低精度检测进行筛选和转录。
谁是注释者?AMT工作者。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
Yuval Netzer、Tao Wang、Adam Coates、Alessandro Bissacco、Bo Wu和Andrew Y. Ng
仅限非商业使用。
@article{netzer2011reading, title={Reading digits in natural images with unsupervised feature learning}, author={Netzer, Yuval and Wang, Tao and Coates, Adam and Bissacco, Alessandro and Wu, Bo and Ng, Andrew Y}, year={2011} }
感谢 @mariosasko 添加了这个数据集。