数据集:

recipe_nlg

英文

RecipeNLG 数据集卡片

数据集概述

RecipeNLG:用于半结构化文本生成的烹饪食谱数据集。

虽然 RecipeNLG 数据集基于 Recipe1M+ 数据集,但它大大扩展了可用的食谱数量。新数据集在 Recipe1M+ 数据集基础上提供了超过100万条新的、经过预处理和去重的食谱。

支持的任务和排行榜

[需要更多信息]

语言

该数据集为英文。

数据集结构

数据实例

{'id': 0,
 'title': 'No-Bake Nut Cookies',
 'ingredients': ['1 c. firmly packed brown sugar',
  '1/2 c. evaporated milk',
  '1/2 tsp. vanilla',
  '1/2 c. broken nuts (pecans)',
  '2 Tbsp. butter or margarine',
  '3 1/2 c. bite size shredded rice biscuits'],
 'directions': ['In a heavy 2-quart saucepan, mix brown sugar, nuts, evaporated milk and butter or margarine.',
  'Stir over medium heat until mixture bubbles all over top.',
  'Boil and stir 5 minutes more. Take off heat.',
  'Stir in vanilla and cereal; mix well.',
  'Using 2 teaspoons, drop and shape into 30 clusters on wax paper.',
  'Let stand until firm, about 30 minutes.'],
 'link': 'www.cookbooks.com/Recipe-Details.aspx?id=44874',
 'source': 0,
 'ner': ['brown sugar',
  'milk',
  'vanilla',
  'nuts',
  'butter',
  'bite size shredded rice biscuits']}

数据字段

  • id (int): ID。
  • title (str): 食谱标题。
  • ingredients (str的列表): 食材。
  • directions (str的列表): 指导步骤。
  • link (str): URL链接。
  • source (ClassLabel): 每个食谱记录的来源,可能的取值为{"Gathered", "Recipes1M"}:
    • "Gathered" (0): 从多个烹饪网页中获取的额外食谱,使用自动化脚本进行网页抓取过程。
    • "Recipes1M" (1): 来自 "Recipe1M+" 数据集的食谱。
  • ner (str的列表): NER 食品实体。

数据集划分

该数据集包含一个训练集划分。

数据集创建

策划理由

[需要更多信息]

源数据

[需要更多信息]

初始数据收集和标准化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

[需要更多信息]

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

我(“研究人员”)已请求获得使用 RecipeNLG 数据集(“数据集”)的许可,该许可是在波兹南理工大学(PUT)获得的。作为获得许可的交换,研究人员在此同意以下条款和条件:

  • 研究人员只能将数据集用于非商业研究和教育目的。
  • PUT 对数据集不做任何明示或暗示的保证,包括但不限于非侵权或特定目的适用性的保证。
  • 研究人员对其使用数据集承担全部责任,并应对其使用数据集所产生的任何索赔进行辩护和赔偿 PUT,包括其员工、受托人、职员和代理人,包括但不限于因研究人员使用从数据集创建的任何版权图像或文本而产生的索赔。
  • 研究人员可以让研究助手和同事访问数据集,但必须首先同意遵守这些条款和条件。
  • 如果研究人员受雇于营利性商业实体,该研究人员的雇主也应受这些条款和条件的约束,研究人员在此声明他或她完全被授权代表该雇主签订此协议。
  • 引用信息

    @inproceedings{bien-etal-2020-recipenlg,
        title = "{R}ecipe{NLG}: A Cooking Recipes Dataset for Semi-Structured Text Generation",
        author = "Bie{\'n}, Micha{\l}  and
          Gilski, Micha{\l}  and
          Maciejewska, Martyna  and
          Taisner, Wojciech  and
          Wisniewski, Dawid  and
          Lawrynowicz, Agnieszka",
        booktitle = "Proceedings of the 13th International Conference on Natural Language Generation",
        month = dec,
        year = "2020",
        address = "Dublin, Ireland",
        publisher = "Association for Computational Linguistics",
        url = "https://www.aclweb.org/anthology/2020.inlg-1.4",
        pages = "22--28",
    }
    

    贡献

    感谢 @abhishekkrthakur 添加此数据集。