数据集:

cifar100

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

crowdsourced
英文

CIFAR-100 数据集数据卡

数据集概要

CIFAR-100 数据集包含60000张尺寸为32x32的彩色图像,分为100个类别,每个类别有600张图像。每个类别有500张训练图像和100张测试图像。总共有50000张训练图像和10000张测试图像。这100个类别被分为20个总类别。每个图像有两个标签 - 细标签(实际类别)和粗标签(总类别)。

支持的任务和排行榜

  • 图像分类:该任务的目标是将给定的图像分类到100个类别之一。排行榜可在 here 查看。

语言

英语

数据集结构

数据实例

以下是训练集中的一份样本:

{
  'img': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=32x32 at 0x2767F58E080>, 'fine_label': 19,
  'coarse_label': 11
}

数据字段

  • img:包含32x32图像的PIL.Image.Image对象。请注意,在访问图像列时,数据集[0]["image"]会自动解码图像文件。解码大量图像文件可能需要花费很长时间。因此,首先查询样本索引再查询“image”列非常重要,即始终优先使用dataset[0]["image"]而不是dataset["image"][0]

  • fine_label:具有以下映射的整数分类标签:

    0: 苹果

    1: 水族馆中的鱼

    2: 婴儿

    3: 熊

    4: 海狸

    5: 床

    6: 蜜蜂

    7: 甲虫

    8: 自行车

    9: 瓶子

    10: 碗

    11: 男孩

    12: 桥梁

    13: 公共汽车

    14: 蝴蝶

    15: 骆驼

    16: 罐头

    17: 城堡

    18: 毛毛虫

    19: 牛

    20: 椅子

    21: 黑猩猩

    22: 时钟

    23: 云

    24: 蟑螂

    25: 沙发

    26: crayfish

    27: 鳄鱼

    28: 杯子

    29: 恐龙

    30: 海豚

    31: 大象

    32: 鲽鱼

    33: 森林

    34: 狐狸

    35: 女孩

    36: 仓鼠

    37: 房子

    38: 袋鼠

    39: 键盘

    40: 灯

    41: 草坪修剪机

    42: 豹

    43: 狮子

    44: 蜥蜴

    45: 龙虾

    46: 男人

    47: 枫树

    48: 摩托车

    49: 山

    50: 鼠标

    51: 蘑菇

    52: 橡树

    53: 橙子

    54: 兰花

    55: 水獭

    56: 棕榈树

    57: 梨

    58: 小型皮卡车

    59: 松树

    60: 平原

    61: 盘子

    62: 罂粟

    63: 管状动物

    64: 负鼠

    65: 兔子

    66: 浣熊

    67: 鳐鱼

    68: 道路

    69: 火箭

    70: 玫瑰

    71: 海洋

    72: 海豹

    73: 鲨鱼

    74: 鼩鼱

    75: 臭鼬

    76: 摩天大楼

    77: 蜗牛

    78: 蛇

    79: 蜘蛛

    80: 松鼠

    81: 有轨电车

    82: 向日葵

    83: 甜椒

    84: 桌子

    85: 坦克

    86: 电话

    87: 电视

    88: 老虎

    89: 拖拉机

    90: 火车

    91: 鳟鱼

    92: 郁金香

    93: 海龟

    94: 衣柜

    95: 鲸鱼

    96: 柳树

    97: 狼

    98: 女人

    99: 虫子

  • coarse_label:具有以下映射的粗分类标签:

    0: 水生哺乳动物

    1: 鱼

    2: 花卉

    3: 食品容器

    4: 水果和蔬菜

    5: 家用电器

    6: 家具

    7: 昆虫

    8: 大型食肉动物

    9: 大型人造户外物品

    10: 大型自然户外场景

    11: 大型杂食动物和食草动物

    12: 中型哺乳动物

    13: 非昆虫无脊椎动物

    14: 人物

    15: 爬行动物

    16: 小型哺乳动物

    17: 树木

    18: 车辆1

    19: 车辆2

数据拆分

name train test
cifar100 50000 10000

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是标注者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@TECHREPORT{Krizhevsky09learningmultiple,
    author = {Alex Krizhevsky},
    title = {Learning multiple layers of features from tiny images},
    institution = {},
    year = {2009}
}

贡献

感谢 @gchhablani 添加此数据集。