数据集:

tne

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:2109.12085

许可:

mit
英文

文本基于名词短语丰富化数据集

数据集概述

文本基于名词短语丰富化(TNE)是一项自然语言理解(NLU)任务,其关注名词短语(NPs)之间可以通过介词相连的关系。该数据集包含5,497个文档,对每个文档中所有可能的NPs之间的链接进行了详尽注释。

主要数据来自WikiNews,用于训练/开发/测试。我们还额外收集了509个文档作为分布外(OOD)数据点,来自Book Corpus、IMDB评论和Reddit。

支持的任务和排行榜

数据包含TNE任务的主要数据,以及指代消解数据。TNE数据有两个排行榜,一个是标准测试集的排行榜,另一个是OOD测试集的排行榜:

语言

数据集中的文本为英语,以我们所包含的不同领域的口语为准。关联的BCP-47代码为en。

数据集结构

数据实例

原始文件以jsonl格式存在,每一行包含一个文档的字典。每个文档由于NPs的数量不同,包含不同数量的标签。测试集和OOD数据集没有带注释的标签。

数据字段

一个文档由以下组成:

  • id :文档的唯一标识符,以r开头,后面跟着一个数字
  • text :文档的文本。标题和副标题(如果存在)之间用两个换行符分隔。段落之间用一个换行符分隔。
  • tokens :一个包含标记化标记的字符串列表
  • nps :一个包含以下条目的字典列表:
    • text :np的文本
    • start_index :指示文本中起始索引的整数
    • end_index :指示文本中结束索引的整数
    • start_token :指示标记化标记中np的第一个标记的整数
    • end_token :指示标记化标记中np的最后一个标记的整数
    • id :np的id
  • np_relations :文档的关系标签。它是一个字典列表,每个字典包含:
    • anchor :锚np的id
    • complement :补语np的id
    • preposition :链接锚和补语之间的介词。它可以取24个预定义的介词之一(23 + member(s)-of)
    • complement_coref_cluster_id :补语所属的共指id
  • coref :指代消解标签。它包含一个字典列表,每个字典包含:
    • id :共指簇的id
    • members :共指簇的NPs成员的id
    • np_type :簇的类型。可以是:
      • standard :常规共指簇
      • time/date/measurement :时间/日期/测量np。这些将是单个的
      • idiomatic :习语表达
  • metadata :文档的元数据。它包含以下内容:
    • annotators :一个带有匿名化注释者id的字典
      • coref_worker :指代消解工作者id
      • consolidator_worker :整合工作者id
      • np-relations_worker :np关系工作者id
    • url :提取文档的URL(不一定存在)
    • source :提取文档的原始文件名

数据拆分

数据集分布在四个文件中,用于四种不同的拆分:训练集、开发集、测试集和测试OOD集。有关数据统计的其他详细信息可以在 paper 中找到。

数据集创建

策划理由

TNE作为一项新的语言理解任务,专注于提取名词之间由介词调节的关系。

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的制作人?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

该数据集是由Yanai Elazar、Victoria Basmov、Yoav Goldberg和Reut Tsarfaty在巴尔干大学和AI2进行的工作期间创建的。

许可信息

数据根据MIT许可证发布。

引文信息

@article{tne,
    author = {Elazar, Yanai and Basmov, Victoria and Goldberg, Yoav and Tsarfaty, Reut},
    title = "{Text-based NP Enrichment}",
    journal = {Transactions of the Association for Computational Linguistics},
    year = {2022},
}

贡献

感谢 @yanaiela ,他也是文章的第一作者,为添加此数据集做出了贡献。