数据集:

cats_vs_dogs

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

original
英文

猫狗数据集的数据卡片

数据集摘要

一组大量的猫和狗的图像。其中1738个损坏的图像已经被删除。这个数据集是一个现已关闭的Kaggle竞赛的一部分,代表了所谓的Asirra数据集的一个子集。

来自竞赛页面:

Asirra数据集

网络服务通常通过一个对人来说很容易解决但对计算机来说很困难的挑战来进行保护。这样的挑战通常被称为CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart,全自动公开图灵测试),或者HIP(Human Interactive Proof,人机交互证明)。CAPTCHA用于许多目的,例如减少电子邮件和博客垃圾邮件,防止对网站密码进行暴力破解攻击。

Asirra(Animal Species Image Recognition for Restricting Access)是一种HIP,它通过要求用户识别猫和狗的照片来工作。这个任务对计算机来说很难,但研究表明人们可以快速准确地完成。许多人甚至认为这很有趣!以下是Asirra界面的示例:

Asirra之所以独特,是因为它与Petfinder.com合作,Petfinder.com是世界上最大的专门为无家可归的宠物寻找家园的网站。他们为Microsoft Research提供了300多万张猫和狗的图像,这些图像是由美国数千个动物收容所的人工分类的。Kaggle很幸运地为娱乐和研究提供了这个数据的一个子集。

支持的任务和排行榜

  • 图像分类:这个任务的目标是将给定的图像分类为包含猫还是狗。排行榜在 here 上可见。

语言

英语。

数据集结构

数据实例

下面是训练集的一个样本:

{
  'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=500x375 at 0x29CEAD71780>,
  'labels': 0
}

数据字段

数据实例具有以下字段:

  • 图像:包含图像的PIL.Image.Image对象。注意,访问图像列时:dataset [0]["image"],图像文件将自动解码。解码大量图像文件可能需要很长时间。因此,在“image”列之前首先查询样本索引非常重要,即dataset [0]["image"]应始终优先于dataset ["image"][0]。
  • 标签:一个整数分类标签。

类别标签映射:

{
  "cat": 0,
  "dog": 1,
}

数据拆分

train
# of examples 23410

数据集创建

策划理由

该子集的构建是为了测试计算机视觉算法是否能够击败Asirra CAPTCHA:

来自竞赛页面:

图像识别攻击

虽然随机猜测是最简单的攻击形式,但各种形式的图像识别可以使攻击者进行比随机猜测更好的猜测。照片数据库(各种背景、角度、姿势、照明等的广泛多样性)非常多样,使得准确的自动分类变得困难。多年前进行的一次非正式调查中,计算机视觉专家认为,没有重大技术突破,要获得超过60%的准确率的分类器是困难的。参考资料,一个60%的分类器将12个图像HIP的猜测概率从1/4096提高到1/459。

源数据

Initial Data Collection and Normalization

这个数据集是Asirra数据集的一个子集。

来自竞赛页面:

Asirra之所以独特,是因为它与Petfinder.com合作,Petfinder.com是世界上最大的专门为无家可归的宠物寻找家园的网站。他们为Microsoft Research提供了300多万张猫和狗的图像,这些图像是由美国数千个动物收容所的人工分类的。

Who are the source language producers?

Petfinder.com 的用户。

注释

Annotation process

图像的注释是通过在 Petfinder.com 上选择宠物类别来完成的。

Who are the annotators?

Petfinder.com 的用户。

个人和敏感信息

[需要更多信息]

使用数据的考虑事项

数据集的社会影响

[需要更多信息]

偏差讨论

从论文中可以得出:

与许多基于图像的CAPTCHA不同,Asirra的挑战是具体的,不冒犯(某些账户来说可爱),不需要专业知识或文化偏见的知识,并且有明确的真实性。这使得Asirra对人类来说不那么令人沮丧。一些测试用户觉得这很有趣。其中一个四岁的孩子多次要求“再玩一次猫和狗的游戏。”

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@Inproceedings (Conference){asirra-a-captcha-that-exploits-interest-aligned-manual-image-categorization,
author = {Elson, Jeremy and Douceur, John (JD) and Howell, Jon and Saul, Jared},
title = {Asirra: A CAPTCHA that Exploits Interest-Aligned Manual Image Categorization},
booktitle = {Proceedings of 14th ACM Conference on Computer and Communications Security (CCS)},
year = {2007},
month = {October},
publisher = {Association for Computing Machinery, Inc.},
url = {https://www.microsoft.com/en-us/research/publication/asirra-a-captcha-that-exploits-interest-aligned-manual-image-categorization/},
edition = {Proceedings of 14th ACM Conference on Computer and Communications Security (CCS)},
}

贡献

感谢 @nateraw 添加了这个数据集.