数据集:

acronym_identification

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2010.14678

许可:

mit
英文

Acronym Identification Dataset数据集数据卡

数据集概述

该数据集包含了AAAI-21科学文档理解研讨会的任务1“首字母缩略词识别”的训练、验证和测试数据。

支持的任务和排行榜

该数据集支持一个首字母缩略词识别任务,目的是预测预分词句子中哪些标记对应于首字母缩略词。该数据集是为支持一个 leaderboard 的共享任务而发布的。

语言

数据集中的句子是用英语(en)编写的。

数据集结构

数据实例

下面是训练集的样本:

{'id': 'TR-0',
 'labels': [4, 4, 4, 4, 0, 2, 2, 4, 1, 4, 4, 4, 4, 4, 4, 4, 4, 4],
 'tokens': ['What',
  'is',
  'here',
  'called',
  'controlled',
  'natural',
  'language',
  '(',
  'CNL',
  ')',
  'has',
  'traditionally',
  'been',
  'given',
  'many',
  'different',
  'names',
  '.']}

请注意,测试集中仅提供id和tokens字段,labels字段可以忽略。测试集中的标签全部为O。

数据字段

数据实例具有以下字段:

  • id:一个字符串变量,表示示例id,在整个数据集中是唯一的
  • tokens:表示单词分词后的句子的字符串变量列表
  • labels:一个具有可能值为["B-long", "B-short", "I-long", "I-short", "O"]的分类变量列表,对应于BIO方案。-long对应于扩展首字母缩略词,例如这里的"controlled natural language",而-short对应于缩略词,例如这里的"CNL"。

数据拆分

训练集、验证集和测试集分别包含14,006、1,717和1750个句子。

数据集创建

策划理由

首先,大多数现有的首字母缩略词识别(AI)数据集的规模要么有限,要么使用简单的基于规则的方法创建。不幸的是,规则通常不能捕捉到表达首字母缩略词及其长形式在文本中的所有不同形式的多样性。其次,大多数现有的数据集都是医学领域的,忽视了其他科学领域的挑战。为了解决这些限制,本文介绍了两个新的首字母缩略词识别数据集。值得注意的是,我们的数据集经过人工注释,质量较高,并且比非医学领域现有的AI数据集具有更多的示例。

数据源

初始数据收集与标准化

为了准备首字母缩略词注释语料库,我们从arXiv收集了6786篇英文论文。这些论文包括2031592个将用于本文首字母缩略词注释任务的句子。

数据集论文没有报告确切的分词方法。

数据源语言的制作人是谁?

语言来源于托管在在线数字档案 arXiv 上的论文。关于选择过程或作者身份的更多信息尚不可用。

注释

注释过程

每个需要注释的句子至少需要包含一个单词,其中超过一半字符是大写字母(即缩写候选词)。然后,我们搜索一个单词的子序列,其中单词的前一个、两个或三个字符的连接(按单词在子序列中的顺序)可以形成缩写候选词。我们称之为长形式候选词。如果我们找不到任何长形式候选词,我们将删除该句子。使用此过程,我们最终得到17,506个句子,由来自Amazon Mechanical Turk(MTurk)的标注器进行手动注释。特别是,我们为每个句子创建一个HIT,并要求工作者注释句子中的缩写形式和长形式。如果产生分歧,如果三名工作者中的两名一致同意一个注释,我们将采用多数投票来决定正确的注释。否则,我们会雇佣第四名标注者来解决冲突。

谁是标注者?

工作者是通过Amazon Mechanical Turk招募的,每个注释支付0.05美元。没有提供进一步的人口统计信息。

个人和敏感信息

在arXiv上发表的论文不太可能包含太多个人信息,尽管有些论文确实包含了一些选择不当的例子,透露了个人细节,因此在使用数据时应谨慎对待。

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

仅供研究目的使用的数据集。有关详细信息,请查阅数据集许可证。

其他信息

数据集策划者

[需要更多信息]

许可信息

该共享任务提供的数据集在CC BY-NC-SA 4.0国际许可下发布。

引用信息

@inproceedings{Veyseh2020,
  author    = {Amir Pouran Ben Veyseh and
               Franck Dernoncourt and
               Quan Hung Tran and
               Thien Huu Nguyen},
  editor    = {Donia Scott and
               N{\'{u}}ria Bel and
               Chengqing Zong},
  title     = {What Does This Acronym Mean? Introducing a New Dataset for Acronym
               Identification and Disambiguation},
  booktitle = {Proceedings of the 28th International Conference on Computational
               Linguistics, {COLING} 2020, Barcelona, Spain (Online), December 8-13,
               2020},
  pages     = {3285--3301},
  publisher = {International Committee on Computational Linguistics},
  year      = {2020},
  url       = {https://doi.org/10.18653/v1/2020.coling-main.292},
  doi       = {10.18653/v1/2020.coling-main.292}
}

贡献

感谢 @abhishekkrthakur 添加了该数据集。