数据集:
renumics/food101-enriched
? 对于真实世界的应用案例,数据准则变得越来越重要。在 Renumics ,我们认为经典的基准数据集和竞赛应该得到扩展,以反映这一发展。
? 这就是为什么我们发布具有特定应用增强的基准数据集(例如嵌入、基准结果、不确定性、标签误差分数)。我们希望这能以以下方式帮助机器学习社区:
? 该数据集是 Food101 Data Set 的增强版本。
这些增强功能使您能够快速了解数据集。开源数据整理工具 Renumics Spotlight 可以通过几行代码实现:
在笔记本中通过数据集和Spotlight进行安装:
!pip install renumics-spotlight datasets
从huggingface中加载数据集:
import datasets dataset = datasets.load_dataset("renumics/food101-enriched", split="train")
用简单视图开始探索:
from renumics import spotlight df_show = dataset.to_pandas() spotlight.show(df_show, port=8000, dtype={"image": spotlight.Image})
您可以使用UI与数据进行交互式配置。根据具体任务(例如模型比较、调试、异常检测),您可能需要利用不同的增强功能和元数据。
该数据集包含101个食物类别的101,000张图像。为每个类别提供了250张经过手动审核的测试图像以及750张训练图像。出于目的考虑,训练图像没有进行清理,因此仍然包含一些噪声。这主要以强烈的颜色和有时错误的标签形式存在。所有图像都被重新缩放为最大边长为512像素。
英文类别标签。
下面提供了训练集的一个样本:
{ "image": "/huggingface/datasets/downloads/extracted/49750366cbaf225ce1b5a5c033fa85ceddeee2e82f1d6e0365e8287859b4c7c8/0/0.jpg", "label": 6, "label_str": "beignets", "split": "train" }类别标签映射
{ "apple_pie": 0, "baby_back_ribs": 1, "baklava": 2, "beef_carpaccio": 3, "beef_tartare": 4, "beet_salad": 5, "beignets": 6, "bibimbap": 7, "bread_pudding": 8, "breakfast_burrito": 9, "bruschetta": 10, "caesar_salad": 11, "cannoli": 12, "caprese_salad": 13, "carrot_cake": 14, "ceviche": 15, "cheesecake": 16, "cheese_plate": 17, "chicken_curry": 18, "chicken_quesadilla": 19, "chicken_wings": 20, "chocolate_cake": 21, "chocolate_mousse": 22, "churros": 23, "clam_chowder": 24, "club_sandwich": 25, "crab_cakes": 26, "creme_brulee": 27, "croque_madame": 28, "cup_cakes": 29, "deviled_eggs": 30, "donuts": 31, "dumplings": 32, "edamame": 33, "eggs_benedict": 34, "escargots": 35, "falafel": 36, "filet_mignon": 37, "fish_and_chips": 38, "foie_gras": 39, "french_fries": 40, "french_onion_soup": 41, "french_toast": 42, "fried_calamari": 43, "fried_rice": 44, "frozen_yogurt": 45, "garlic_bread": 46, "gnocchi": 47, "greek_salad": 48, "grilled_cheese_sandwich": 49, "grilled_salmon": 50, "guacamole": 51, "gyoza": 52, "hamburger": 53, "hot_and_sour_soup": 54, "hot_dog": 55, "huevos_rancheros": 56, "hummus": 57, "ice_cream": 58, "lasagna": 59, "lobster_bisque": 60, "lobster_roll_sandwich": 61, "macaroni_and_cheese": 62, "macarons": 63, "miso_soup": 64, "mussels": 65, "nachos": 66, "omelette": 67, "onion_rings": 68, "oysters": 69, "pad_thai": 70, "paella": 71, "pancakes": 72, "panna_cotta": 73, "peking_duck": 74, "pho": 75, "pizza": 76, "pork_chop": 77, "poutine": 78, "prime_rib": 79, "pulled_pork_sandwich": 80, "ramen": 81, "ravioli": 82, "red_velvet_cake": 83, "risotto": 84, "samosa": 85, "sashimi": 86, "scallops": 87, "seaweed_salad": 88, "shrimp_and_grits": 89, "spaghetti_bolognese": 90, "spaghetti_carbonara": 91, "spring_rolls": 92, "steak": 93, "strawberry_shortcake": 94, "sushi": 95, "tacos": 96, "takoyaki": 97, "tiramisu": 98, "tuna_tartare": 99, "waffles": 100 }
Feature | Data Type |
---|---|
image | Image(decode=True, id=None) |
split | Value(dtype='string', id=None) |
label | ClassLabel(names=[...], id=None) |
label_str | Value(dtype='string', id=None) |
Dataset Split | Number of Images in Split |
---|---|
Train | 75750 |
Test | 25250 |
[需要更多信息]
[需要更多信息]
源语言制造商是谁?[需要更多信息]
[需要更多信息]
标注者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
Food-101数据集由Foodspotting [1]提供的图片组成,不属于苏黎世联邦理工学院(ETHZ)的财产。任何超出科学公正使用范围的使用都必须根据Foodspotting的使用条款与相应的图片所有者商议。 [1] http://www.foodspotting.com/ [2] http://www.foodspotting.com/terms/
如果您使用了这个数据集,请引用以下论文:
@inproceedings{bossard14, title = {Food-101 -- Mining Discriminative Components with Random Forests}, author = {Bossard, Lukas and Guillaumin, Matthieu and Van Gool, Luc}, booktitle = {European Conference on Computer Vision}, year = {2014} }
Lukas Bossard,Matthieu Guillaumin,Luc Van Gool和Renumics GmbH。