数据集:
common_gen
任务:
文生文语言:
en计算机处理:
monolingual大小:
10K<n<100K批注创建人:
crowdsourced源数据集:
original预印本库:
arxiv:1911.03705其他:
concepts-to-text许可:
mitCommonGen 是一个受到基准数据集支持的约束文本生成任务,旨在显式测试机器对生成性常识推理的能力。给定一组常见的概念,任务是使用这些概念生成一个描述日常场景的连贯句子。
CommonGen 具有挑战性,因为它本质上需要以下两点能力:1)使用背景常识知识进行关系推理,2)能够以组合方式进行泛化,处理未见过的概念组合。我们的数据集是通过 AMT 的众包和现有的标题语料库相结合构建的,总共包含30,000个概念集和50,000个句子。
'train' 的示例如下所示。
{ "concept_set_idx": 0, "concepts": ["ski", "mountain", "skier"], "target": "Three skiers are skiing on a snowy mountain." }
所有拆分的数据字段相同。
默认值name | train | validation | test |
---|---|---|---|
default | 67389 | 4018 | 1497 |
该数据集基于 MIT License 许可。
@inproceedings{lin-etal-2020-commongen, title = "{C}ommon{G}en: A Constrained Text Generation Challenge for Generative Commonsense Reasoning", author = "Lin, Bill Yuchen and Zhou, Wangchunshu and Shen, Ming and Zhou, Pei and Bhagavatula, Chandra and Choi, Yejin and Ren, Xiang", booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020", month = nov, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.findings-emnlp.165", doi = "10.18653/v1/2020.findings-emnlp.165", pages = "1823--1840" }
感谢 @JetRunner 、 @yuchenlin 、 @thomwolf 、 @lhoestq 添加此数据集。