英文

Food-101-Enriched 数据集卡片(由Renumics增强)

数据集概要

? 对于真实世界的应用案例,数据准则变得越来越重要。在 Renumics ,我们认为经典的基准数据集和竞赛应该得到扩展,以反映这一发展。

? 这就是为什么我们发布具有特定应用增强的基准数据集(例如嵌入、基准结果、不确定性、标签误差分数)。我们希望这能以以下方式帮助机器学习社区:

  • 使新研究人员能够快速深入了解数据集。
  • 在机器学习社区推广以数据为中心的人工智能准则和工具。
  • 除了传统的定量指标外,鼓励分享有意义的定性洞察。
  • ? 该数据集是 Food101 Data Set 的增强版本。

    探索数据集

    这些增强功能使您能够快速了解数据集。开源数据整理工具 Renumics Spotlight 可以通过几行代码实现:

    在笔记本中通过数据集和Spotlight进行安装:

    !pip install renumics-spotlight datasets
    

    从huggingface中加载数据集:

    import datasets
    
    dataset = datasets.load_dataset("renumics/food101-enriched", split="train")
    

    用简单视图开始探索:

    from renumics import spotlight
    
    df_show = dataset.to_pandas()
    spotlight.show(df_show, port=8000, dtype={"image": spotlight.Image})
    

    您可以使用UI与数据进行交互式配置。根据具体任务(例如模型比较、调试、异常检测),您可能需要利用不同的增强功能和元数据。

    Food101数据集

    该数据集包含101个食物类别的101,000张图像。为每个类别提供了250张经过手动审核的测试图像以及750张训练图像。出于目的考虑,训练图像没有进行清理,因此仍然包含一些噪声。这主要以强烈的颜色和有时错误的标签形式存在。所有图像都被重新缩放为最大边长为512像素。

    支持的任务和排行榜

    • 图像分类:该任务的目标是将给定的菜品图片分类到101个类别之一。排行榜可在 here 查看。

    语言

    英文类别标签。

    数据集结构

    数据实例

    下面提供了训练集的一个样本:

    {
      "image": "/huggingface/datasets/downloads/extracted/49750366cbaf225ce1b5a5c033fa85ceddeee2e82f1d6e0365e8287859b4c7c8/0/0.jpg",
      "label": 6,
      "label_str": "beignets",
      "split": "train"
    }
    
    类别标签映射
    {
      "apple_pie": 0,
      "baby_back_ribs": 1,
      "baklava": 2,
      "beef_carpaccio": 3,
      "beef_tartare": 4,
      "beet_salad": 5,
      "beignets": 6,
      "bibimbap": 7,
      "bread_pudding": 8,
      "breakfast_burrito": 9,
      "bruschetta": 10,
      "caesar_salad": 11,
      "cannoli": 12,
      "caprese_salad": 13,
      "carrot_cake": 14,
      "ceviche": 15,
      "cheesecake": 16,
      "cheese_plate": 17,
      "chicken_curry": 18,
      "chicken_quesadilla": 19,
      "chicken_wings": 20,
      "chocolate_cake": 21,
      "chocolate_mousse": 22,
      "churros": 23,
      "clam_chowder": 24,
      "club_sandwich": 25,
      "crab_cakes": 26,
      "creme_brulee": 27,
      "croque_madame": 28,
      "cup_cakes": 29,
      "deviled_eggs": 30,
      "donuts": 31,
      "dumplings": 32,
      "edamame": 33,
      "eggs_benedict": 34,
      "escargots": 35,
      "falafel": 36,
      "filet_mignon": 37,
      "fish_and_chips": 38,
      "foie_gras": 39,
      "french_fries": 40,
      "french_onion_soup": 41,
      "french_toast": 42,
      "fried_calamari": 43,
      "fried_rice": 44,
      "frozen_yogurt": 45,
      "garlic_bread": 46,
      "gnocchi": 47,
      "greek_salad": 48,
      "grilled_cheese_sandwich": 49,
      "grilled_salmon": 50,
      "guacamole": 51,
      "gyoza": 52,
      "hamburger": 53,
      "hot_and_sour_soup": 54,
      "hot_dog": 55,
      "huevos_rancheros": 56,
      "hummus": 57,
      "ice_cream": 58,
      "lasagna": 59,
      "lobster_bisque": 60,
      "lobster_roll_sandwich": 61,
      "macaroni_and_cheese": 62,
      "macarons": 63,
      "miso_soup": 64,
      "mussels": 65,
      "nachos": 66,
      "omelette": 67,
      "onion_rings": 68,
      "oysters": 69,
      "pad_thai": 70,
      "paella": 71,
      "pancakes": 72,
      "panna_cotta": 73,
      "peking_duck": 74,
      "pho": 75,
      "pizza": 76,
      "pork_chop": 77,
      "poutine": 78,
      "prime_rib": 79,
      "pulled_pork_sandwich": 80,
      "ramen": 81,
      "ravioli": 82,
      "red_velvet_cake": 83,
      "risotto": 84,
      "samosa": 85,
      "sashimi": 86,
      "scallops": 87,
      "seaweed_salad": 88,
      "shrimp_and_grits": 89,
      "spaghetti_bolognese": 90,
      "spaghetti_carbonara": 91,
      "spring_rolls": 92,
      "steak": 93,
      "strawberry_shortcake": 94,
      "sushi": 95,
      "tacos": 96,
      "takoyaki": 97,
      "tiramisu": 98,
      "tuna_tartare": 99,
      "waffles": 100
    }
    

    数据字段

    Feature Data Type
    image Image(decode=True, id=None)
    split Value(dtype='string', id=None)
    label ClassLabel(names=[...], id=None)
    label_str Value(dtype='string', id=None)

    数据划分

    Dataset Split Number of Images in Split
    Train 75750
    Test 25250

    创建数据集

    策划理由

    [需要更多信息]

    源数据

    初始数据收集和标准化

    [需要更多信息]

    源语言制造商是谁?

    [需要更多信息]

    注释

    注释过程

    [需要更多信息]

    标注者是谁?

    [需要更多信息]

    个人和敏感信息

    [需要更多信息]

    使用数据的考虑

    数据集的社会影响

    [需要更多信息]

    偏差讨论

    [需要更多信息]

    其他已知限制

    [需要更多信息]

    附加信息

    数据集维护者

    [需要更多信息]

    许可信息

    Food-101数据集由Foodspotting [1]提供的图片组成,不属于苏黎世联邦理工学院(ETHZ)的财产。任何超出科学公正使用范围的使用都必须根据Foodspotting的使用条款与相应的图片所有者商议。 [1] http://www.foodspotting.com/ [2] http://www.foodspotting.com/terms/

    引用信息

    如果您使用了这个数据集,请引用以下论文:

    @inproceedings{bossard14,
      title = {Food-101 -- Mining Discriminative Components with Random Forests},
      author = {Bossard, Lukas and Guillaumin, Matthieu and Van Gool, Luc},
      booktitle = {European Conference on Computer Vision},
      year = {2014}
    }
    

    贡献者

    Lukas Bossard,Matthieu Guillaumin,Luc Van Gool和Renumics GmbH。