数据集:
numer_sense
子任务:
slot-filling语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
crowdsourced批注创建人:
expert-generated源数据集:
extended|other预印本库:
arxiv:2005.00683许可:
mitNumerSense是一个新的常识数值推理探测任务,包含3145个遮蔽词预测探测。基本思想是在从常识语料库中挖掘出的句子中,遮蔽0-10之间的数字,评估语言模型是否能正确预测遮蔽的值。
该数据集支持的任务是槽填充,特别是作为数值常识评估。 排行榜包含了对GPT-2、RoBERTa、BERT和人类表现的基准测试。排行榜包括核心集和下文中讨论的对抗集的数据。
该数据集为英文。
每个示例包含一句带有遮蔽的0-10之间的数字的句子,以及(在训练集中)一个目标。训练集的示例:
sentence: Black bears are about <mask> metres tall. target: two
训练集的每个值包含以下字段:
数据集包括以下预定义的数据拆分:
此数据集的目的是“研究预训练语言模型是否获取了数值常识知识,即提供实体之间数值关系理解的常识知识”。这项研究的动机源于先前的研究,探索语言模型是否具有常识知识。
该数据集是 Open Mind Common Sense 语料库的扩展。首先执行查询以发现包含0-12之间数字的句子,然后手动评估结果句子的准确性、拼写错误以及常识知识的表达。然后对数字进行了遮蔽处理。
谁是源语言制作者?此数据集所涉及的 Open Mind Common Sense 语料库是由麻省理工学院媒体实验室维护的众包数据集。
此数据集除了根据上述讨论从遮蔽的句子中自动收集的目标值之外,不包含其他注释。
谁是注释者?策划和检查由研究生两轮完成。
[需要更多信息]
测量模型将数值与现实概念相关联的能力的动机似乎相对无害。然而,如下一节所讨论的,源数据集可能会受到从众包工作者中编码的偏见的影响,特别是在事实涵盖方面。因此,模型在此基准测试中的表现良好不应被视为证明其比人类执行类似任务更没有偏见或客观。
[需要更多信息]
该数据集源自众包的常识知识库。虽然图中包含的信息通常被认为质量很高,但它被认为在作为所有可能常识知识的代表时覆盖范围非常低。某些事实的表达方式可能也会受到众包工作者人群的偏见影响。例如,ConceptNet常识库中将“恐同症”与“伊斯兰教”相关联,但与其他宗教或群体没有相关性,可能是因为参与该项目的众包工作者的偏见。
[需要更多信息]
该数据集由南加州大学的计算机科学研究人员Bill Yuchen Lin、Seyeon Lee、Rahul Khanna和Xiang Ren收集。
数据托管在 GitHub仓库中。
@inproceedings{lin2020numersense, title={Birds have four legs?! NumerSense: Probing Numerical Commonsense Knowledge of Pre-trained Language Models}, author={Bill Yuchen Lin and Seyeon Lee and Rahul Khanna and Xiang Ren}, booktitle={Proceedings of EMNLP}, year={2020}, note={to appear} }
感谢 @joeddav 添加了该数据集。