数据集:

numer_sense

子任务:

slot-filling

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

crowdsourced

批注创建人:

expert-generated

源数据集:

extended|other

预印本库:

arxiv:2005.00683

许可:

mit
英文

数据集卡片:[数据集名称]

数据集概述

NumerSense是一个新的常识数值推理探测任务,包含3145个遮蔽词预测探测。基本思想是在从常识语料库中挖掘出的句子中,遮蔽0-10之间的数字,评估语言模型是否能正确预测遮蔽的值。

支持的任务和排行榜

该数据集支持的任务是槽填充,特别是作为数值常识评估。 排行榜包含了对GPT-2、RoBERTa、BERT和人类表现的基准测试。排行榜包括核心集和下文中讨论的对抗集的数据。

语言

该数据集为英文。

数据集结构

数据示例

每个示例包含一句带有遮蔽的0-10之间的数字的句子,以及(在训练集中)一个目标。训练集的示例:

sentence: Black bears are about <mask> metres tall.
target: two

数据字段

训练集的每个值包含以下字段:

  • sentence: 带有 "" 标记的遮蔽数字的句子。
  • target: 目标真实值。由于测试集不包括真实值,因此 test_core 和 test_all 部分的 target 字段为空字符串。

数据拆分

数据集包括以下预定义的数据拆分:

  • 训练集包含超过10,000个标记示例(即具有真实值)。
  • 核心测试集(test_core)包含1,132个示例(不提供真实值)。
  • 扩展测试集(test_all)包含核心测试集以及额外的对抗性示例,共计3,146个示例。有关这些示例如何构建的讨论,请参见[论文]的第2.2节。

数据集创建

策 curate 理

此数据集的目的是“研究预训练语言模型是否获取了数值常识知识,即提供实体之间数值关系理解的常识知识”。这项研究的动机源于先前的研究,探索语言模型是否具有常识知识。

源数据

初始数据收集和规范化

该数据集是 Open Mind Common Sense 语料库的扩展。首先执行查询以发现包含0-12之间数字的句子,然后手动评估结果句子的准确性、拼写错误以及常识知识的表达。然后对数字进行了遮蔽处理。

谁是源语言制作者?

此数据集所涉及的 Open Mind Common Sense 语料库是由麻省理工学院媒体实验室维护的众包数据集。

注释

注释过程

此数据集除了根据上述讨论从遮蔽的句子中自动收集的目标值之外,不包含其他注释。

谁是注释者?

策划和检查由研究生两轮完成。

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

测量模型将数值与现实概念相关联的能力的动机似乎相对无害。然而,如下一节所讨论的,源数据集可能会受到从众包工作者中编码的偏见的影响,特别是在事实涵盖方面。因此,模型在此基准测试中的表现良好不应被视为证明其比人类执行类似任务更没有偏见或客观。

[需要更多信息]

偏见讨论

该数据集源自众包的常识知识库。虽然图中包含的信息通常被认为质量很高,但它被认为在作为所有可能常识知识的代表时覆盖范围非常低。某些事实的表达方式可能也会受到众包工作者人群的偏见影响。例如,ConceptNet常识库中将“恐同症”与“伊斯兰教”相关联,但与其他宗教或群体没有相关性,可能是因为参与该项目的众包工作者的偏见。

其他已知限制

[需要更多信息]

其他信息

数据集策 curator

该数据集由南加州大学的计算机科学研究人员Bill Yuchen Lin、Seyeon Lee、Rahul Khanna和Xiang Ren收集。

许可信息

数据托管在 GitHub仓库中。

引用信息

@inproceedings{lin2020numersense,
  title={Birds have four legs?! NumerSense: Probing Numerical Commonsense Knowledge of Pre-trained Language Models},
  author={Bill Yuchen Lin and Seyeon Lee and Rahul Khanna and Xiang Ren}, 
  booktitle={Proceedings of EMNLP},
  year={2020},
  note={to appear}
}

贡献

感谢 @joeddav 添加了该数据集。