数据集:
recipe_nlg
RecipeNLG:用于半结构化文本生成的烹饪食谱数据集。
虽然 RecipeNLG 数据集基于 Recipe1M+ 数据集,但它大大扩展了可用的食谱数量。新数据集在 Recipe1M+ 数据集基础上提供了超过100万条新的、经过预处理和去重的食谱。
[需要更多信息]
该数据集为英文。
{'id': 0, 'title': 'No-Bake Nut Cookies', 'ingredients': ['1 c. firmly packed brown sugar', '1/2 c. evaporated milk', '1/2 tsp. vanilla', '1/2 c. broken nuts (pecans)', '2 Tbsp. butter or margarine', '3 1/2 c. bite size shredded rice biscuits'], 'directions': ['In a heavy 2-quart saucepan, mix brown sugar, nuts, evaporated milk and butter or margarine.', 'Stir over medium heat until mixture bubbles all over top.', 'Boil and stir 5 minutes more. Take off heat.', 'Stir in vanilla and cereal; mix well.', 'Using 2 teaspoons, drop and shape into 30 clusters on wax paper.', 'Let stand until firm, about 30 minutes.'], 'link': 'www.cookbooks.com/Recipe-Details.aspx?id=44874', 'source': 0, 'ner': ['brown sugar', 'milk', 'vanilla', 'nuts', 'butter', 'bite size shredded rice biscuits']}
该数据集包含一个训练集划分。
[需要更多信息]
[需要更多信息]
初始数据收集和标准化
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
注释过程[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
我(“研究人员”)已请求获得使用 RecipeNLG 数据集(“数据集”)的许可,该许可是在波兹南理工大学(PUT)获得的。作为获得许可的交换,研究人员在此同意以下条款和条件:
@inproceedings{bien-etal-2020-recipenlg, title = "{R}ecipe{NLG}: A Cooking Recipes Dataset for Semi-Structured Text Generation", author = "Bie{\'n}, Micha{\l} and Gilski, Micha{\l} and Maciejewska, Martyna and Taisner, Wojciech and Wisniewski, Dawid and Lawrynowicz, Agnieszka", booktitle = "Proceedings of the 13th International Conference on Natural Language Generation", month = dec, year = "2020", address = "Dublin, Ireland", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.inlg-1.4", pages = "22--28", }
感谢 @abhishekkrthakur 添加此数据集。