数据集:

tne

任务:

文本检索

子任务:

document-retrieval

语言:

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:2109.12085

许可:

mit

数据集介绍文件清单

英文

文本基于名词短语丰富化数据集

数据集概述

文本基于名词短语丰富化（TNE）是一项自然语言理解（NLU）任务，其关注名词短语（NPs）之间可以通过介词相连的关系。该数据集包含5,497个文档，对每个文档中所有可能的NPs之间的链接进行了详尽注释。

主要数据来自WikiNews，用于训练/开发/测试。我们还额外收集了509个文档作为分布外（OOD）数据点，来自Book Corpus、IMDB评论和Reddit。

支持的任务和排行榜

数据包含TNE任务的主要数据，以及指代消解数据。TNE数据有两个排行榜，一个是标准测试集的排行榜，另一个是OOD测试集的排行榜：

语言

数据集中的文本为英语，以我们所包含的不同领域的口语为准。关联的BCP-47代码为en。

数据集结构

数据实例

原始文件以jsonl格式存在，每一行包含一个文档的字典。每个文档由于NPs的数量不同，包含不同数量的标签。测试集和OOD数据集没有带注释的标签。

数据字段

一个文档由以下组成：

id ：文档的唯一标识符，以r开头，后面跟着一个数字
text ：文档的文本。标题和副标题（如果存在）之间用两个换行符分隔。段落之间用一个换行符分隔。
tokens ：一个包含标记化标记的字符串列表
nps ：一个包含以下条目的字典列表：
- text ：np的文本
- start_index ：指示文本中起始索引的整数
- end_index ：指示文本中结束索引的整数
- start_token ：指示标记化标记中np的第一个标记的整数
- end_token ：指示标记化标记中np的最后一个标记的整数
- id ：np的id
np_relations ：文档的关系标签。它是一个字典列表，每个字典包含：
- anchor ：锚np的id
- complement ：补语np的id
- preposition ：链接锚和补语之间的介词。它可以取24个预定义的介词之一（23 + member(s)-of）
- complement_coref_cluster_id ：补语所属的共指id
coref ：指代消解标签。它包含一个字典列表，每个字典包含：
- id ：共指簇的id
- members ：共指簇的NPs成员的id
- np_type ：簇的类型。可以是：
  - standard ：常规共指簇
  - time/date/measurement ：时间/日期/测量np。这些将是单个的
  - idiomatic ：习语表达
metadata ：文档的元数据。它包含以下内容：
- annotators ：一个带有匿名化注释者id的字典
  - coref_worker ：指代消解工作者id
  - consolidator_worker ：整合工作者id
  - np-relations_worker ：np关系工作者id
- url ：提取文档的URL（不一定存在）
- source ：提取文档的原始文件名

数据拆分

数据集分布在四个文件中，用于四种不同的拆分：训练集、开发集、测试集和测试OOD集。有关数据统计的其他详细信息可以在 paper 中找到。

数据集创建

策划理由

TNE作为一项新的语言理解任务，专注于提取名词之间由介词调节的关系。

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的制作人？

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

该数据集是由Yanai Elazar、Victoria Basmov、Yoav Goldberg和Reut Tsarfaty在巴尔干大学和AI2进行的工作期间创建的。

许可信息

数据根据MIT许可证发布。

引文信息

@article{tne,
    author = {Elazar, Yanai and Basmov, Victoria and Goldberg, Yoav and Tsarfaty, Reut},
    title = "{Text-based NP Enrichment}",
    journal = {Transactions of the Association for Computational Linguistics},
    year = {2022},
}

贡献

感谢 @yanaiela ，他也是文章的第一作者，为添加此数据集做出了贡献。

作者:

佚名

数据集大小:

22.41 KB