数据集:
cats_vs_dogs
任务:
图像分类语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
crowdsourced批注创建人:
crowdsourced源数据集:
original许可:
license:unknown一组大量的猫和狗的图像。其中1738个损坏的图像已经被删除。这个数据集是一个现已关闭的Kaggle竞赛的一部分,代表了所谓的Asirra数据集的一个子集。
来自竞赛页面:
Asirra数据集
网络服务通常通过一个对人来说很容易解决但对计算机来说很困难的挑战来进行保护。这样的挑战通常被称为CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart,全自动公开图灵测试),或者HIP(Human Interactive Proof,人机交互证明)。CAPTCHA用于许多目的,例如减少电子邮件和博客垃圾邮件,防止对网站密码进行暴力破解攻击。
Asirra(Animal Species Image Recognition for Restricting Access)是一种HIP,它通过要求用户识别猫和狗的照片来工作。这个任务对计算机来说很难,但研究表明人们可以快速准确地完成。许多人甚至认为这很有趣!以下是Asirra界面的示例:
Asirra之所以独特,是因为它与Petfinder.com合作,Petfinder.com是世界上最大的专门为无家可归的宠物寻找家园的网站。他们为Microsoft Research提供了300多万张猫和狗的图像,这些图像是由美国数千个动物收容所的人工分类的。Kaggle很幸运地为娱乐和研究提供了这个数据的一个子集。
英语。
下面是训练集的一个样本:
{ 'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=500x375 at 0x29CEAD71780>, 'labels': 0 }
数据实例具有以下字段:
类别标签映射:
{ "cat": 0, "dog": 1, }
train | |
---|---|
# of examples | 23410 |
该子集的构建是为了测试计算机视觉算法是否能够击败Asirra CAPTCHA:
来自竞赛页面:
图像识别攻击
虽然随机猜测是最简单的攻击形式,但各种形式的图像识别可以使攻击者进行比随机猜测更好的猜测。照片数据库(各种背景、角度、姿势、照明等的广泛多样性)非常多样,使得准确的自动分类变得困难。多年前进行的一次非正式调查中,计算机视觉专家认为,没有重大技术突破,要获得超过60%的准确率的分类器是困难的。参考资料,一个60%的分类器将12个图像HIP的猜测概率从1/4096提高到1/459。
这个数据集是Asirra数据集的一个子集。
来自竞赛页面:
Asirra之所以独特,是因为它与Petfinder.com合作,Petfinder.com是世界上最大的专门为无家可归的宠物寻找家园的网站。他们为Microsoft Research提供了300多万张猫和狗的图像,这些图像是由美国数千个动物收容所的人工分类的。
Who are the source language producers?Petfinder.com 的用户。
图像的注释是通过在 Petfinder.com 上选择宠物类别来完成的。
Who are the annotators?Petfinder.com 的用户。
[需要更多信息]
[需要更多信息]
从论文中可以得出:
与许多基于图像的CAPTCHA不同,Asirra的挑战是具体的,不冒犯(某些账户来说可爱),不需要专业知识或文化偏见的知识,并且有明确的真实性。这使得Asirra对人类来说不那么令人沮丧。一些测试用户觉得这很有趣。其中一个四岁的孩子多次要求“再玩一次猫和狗的游戏。”
[需要更多信息]
[需要更多信息]
[需要更多信息]
@Inproceedings (Conference){asirra-a-captcha-that-exploits-interest-aligned-manual-image-categorization, author = {Elson, Jeremy and Douceur, John (JD) and Howell, Jon and Saul, Jared}, title = {Asirra: A CAPTCHA that Exploits Interest-Aligned Manual Image Categorization}, booktitle = {Proceedings of 14th ACM Conference on Computer and Communications Security (CCS)}, year = {2007}, month = {October}, publisher = {Association for Computing Machinery, Inc.}, url = {https://www.microsoft.com/en-us/research/publication/asirra-a-captcha-that-exploits-interest-aligned-manual-image-categorization/}, edition = {Proceedings of 14th ACM Conference on Computer and Communications Security (CCS)}, }
感谢 @nateraw 添加了这个数据集.