数据集:

sasha/dog-food

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

found

源数据集:

original
英文

Dog ? vs. Food ?(也称为Dog Food)数据集数据卡片

数据集概述

这是一个用于二分类图像分类的数据集,包括“狗”和“食物”两类。

“狗”类包含看起来像炸鸡和松饼的狗的图片,而“食物”类包含(你猜对了)炸鸡和松饼的图片 ?

支持的任务和排行榜

待定

语言

标签使用英文(['dog', 'food'])

数据集结构

数据实例

下面是训练集的一个样例:

{
{'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=300x470 at 0x7F176094EF28>, 
'label': 0}

}

数据字段

  • img: 一个PIL.JpegImageFile对象,包含300x470像素的图片。请注意,在访问图像列时:dataset[0]["image"],图像文件会自动解码。解码大量图像文件可能需要相当长的时间。因此,在访问“image”列之前,最好先查询样本索引,即dataset[0]["image"]始终优于dataset["image"][0]
  • label: 0-1之间,与以下对应关系 0 表示狗 1 表示食物

数据拆分

训练集(2100张图片)和测试集(900张图片)

数据集创建

策划原理

N/A

数据来源

初始数据收集和标准化

该数据集来自于 qw2243c/Image-Recognition-Dogs-Fried-Chicken-or-Blueberry-Muffins? Github存储库,将“鸡肉”和“松饼”类别合并为单个“食物”类别,并随机将10%的数据用于验证。

注释

注释过程

这些数据是从互联网上爬取,并根据查询词进行注释的。

个人和敏感信息

N/A

使用数据时的注意事项

数据的社会影响

N/A

偏差讨论

这个数据集是不平衡的,食物的图片(2000张)比狗的图片(1000张)更多,这是由于原始标记造成的。在评估模型时需要考虑到这一点。

其他已知限制

N/A

其他信息

数据集策划者

该数据集是由@lanceyjt,@yl3829,@wesleytao,@qw2243c和@asyouhaveknown创建的

许可信息

原始 github repository 中没有指明任何信息。

引用信息

N/A

贡献者

感谢 @sashavor 添加了这个数据集。