数据集:
tne
任务:
文本检索子任务:
document-retrieval语言:
en计算机处理:
monolingual大小:
1K<n<10K语言创建人:
found批注创建人:
crowdsourced源数据集:
original预印本库:
arxiv:2109.12085许可:
mit文本基于名词短语丰富化(TNE)是一项自然语言理解(NLU)任务,其关注名词短语(NPs)之间可以通过介词相连的关系。该数据集包含5,497个文档,对每个文档中所有可能的NPs之间的链接进行了详尽注释。
主要数据来自WikiNews,用于训练/开发/测试。我们还额外收集了509个文档作为分布外(OOD)数据点,来自Book Corpus、IMDB评论和Reddit。
数据包含TNE任务的主要数据,以及指代消解数据。TNE数据有两个排行榜,一个是标准测试集的排行榜,另一个是OOD测试集的排行榜:
数据集中的文本为英语,以我们所包含的不同领域的口语为准。关联的BCP-47代码为en。
原始文件以jsonl格式存在,每一行包含一个文档的字典。每个文档由于NPs的数量不同,包含不同数量的标签。测试集和OOD数据集没有带注释的标签。
一个文档由以下组成:
数据集分布在四个文件中,用于四种不同的拆分:训练集、开发集、测试集和测试OOD集。有关数据统计的其他详细信息可以在 paper 中找到。
TNE作为一项新的语言理解任务,专注于提取名词之间由介词调节的关系。
[需要更多信息]
谁是源语言的制作人?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
该数据集是由Yanai Elazar、Victoria Basmov、Yoav Goldberg和Reut Tsarfaty在巴尔干大学和AI2进行的工作期间创建的。
数据根据MIT许可证发布。
@article{tne, author = {Elazar, Yanai and Basmov, Victoria and Goldberg, Yoav and Tsarfaty, Reut}, title = "{Text-based NP Enrichment}", journal = {Transactions of the Association for Computational Linguistics}, year = {2022}, }
感谢 @yanaiela ,他也是文章的第一作者,为添加此数据集做出了贡献。