数据集:
acronym_identification
任务:
标记分类语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:2010.14678许可:
mit该数据集包含了AAAI-21科学文档理解研讨会的任务1“首字母缩略词识别”的训练、验证和测试数据。
该数据集支持一个首字母缩略词识别任务,目的是预测预分词句子中哪些标记对应于首字母缩略词。该数据集是为支持一个 leaderboard 的共享任务而发布的。
数据集中的句子是用英语(en)编写的。
下面是训练集的样本:
{'id': 'TR-0', 'labels': [4, 4, 4, 4, 0, 2, 2, 4, 1, 4, 4, 4, 4, 4, 4, 4, 4, 4], 'tokens': ['What', 'is', 'here', 'called', 'controlled', 'natural', 'language', '(', 'CNL', ')', 'has', 'traditionally', 'been', 'given', 'many', 'different', 'names', '.']}
请注意,测试集中仅提供id和tokens字段,labels字段可以忽略。测试集中的标签全部为O。
数据实例具有以下字段:
训练集、验证集和测试集分别包含14,006、1,717和1750个句子。
首先,大多数现有的首字母缩略词识别(AI)数据集的规模要么有限,要么使用简单的基于规则的方法创建。不幸的是,规则通常不能捕捉到表达首字母缩略词及其长形式在文本中的所有不同形式的多样性。其次,大多数现有的数据集都是医学领域的,忽视了其他科学领域的挑战。为了解决这些限制,本文介绍了两个新的首字母缩略词识别数据集。值得注意的是,我们的数据集经过人工注释,质量较高,并且比非医学领域现有的AI数据集具有更多的示例。
为了准备首字母缩略词注释语料库,我们从arXiv收集了6786篇英文论文。这些论文包括2031592个将用于本文首字母缩略词注释任务的句子。
数据集论文没有报告确切的分词方法。
数据源语言的制作人是谁?语言来源于托管在在线数字档案 arXiv 上的论文。关于选择过程或作者身份的更多信息尚不可用。
每个需要注释的句子至少需要包含一个单词,其中超过一半字符是大写字母(即缩写候选词)。然后,我们搜索一个单词的子序列,其中单词的前一个、两个或三个字符的连接(按单词在子序列中的顺序)可以形成缩写候选词。我们称之为长形式候选词。如果我们找不到任何长形式候选词,我们将删除该句子。使用此过程,我们最终得到17,506个句子,由来自Amazon Mechanical Turk(MTurk)的标注器进行手动注释。特别是,我们为每个句子创建一个HIT,并要求工作者注释句子中的缩写形式和长形式。如果产生分歧,如果三名工作者中的两名一致同意一个注释,我们将采用多数投票来决定正确的注释。否则,我们会雇佣第四名标注者来解决冲突。
谁是标注者?工作者是通过Amazon Mechanical Turk招募的,每个注释支付0.05美元。没有提供进一步的人口统计信息。
在arXiv上发表的论文不太可能包含太多个人信息,尽管有些论文确实包含了一些选择不当的例子,透露了个人细节,因此在使用数据时应谨慎对待。
[需要更多信息]
[需要更多信息]
仅供研究目的使用的数据集。有关详细信息,请查阅数据集许可证。
[需要更多信息]
该共享任务提供的数据集在CC BY-NC-SA 4.0国际许可下发布。
@inproceedings{Veyseh2020, author = {Amir Pouran Ben Veyseh and Franck Dernoncourt and Quan Hung Tran and Thien Huu Nguyen}, editor = {Donia Scott and N{\'{u}}ria Bel and Chengqing Zong}, title = {What Does This Acronym Mean? Introducing a New Dataset for Acronym Identification and Disambiguation}, booktitle = {Proceedings of the 28th International Conference on Computational Linguistics, {COLING} 2020, Barcelona, Spain (Online), December 8-13, 2020}, pages = {3285--3301}, publisher = {International Committee on Computational Linguistics}, year = {2020}, url = {https://doi.org/10.18653/v1/2020.coling-main.292}, doi = {10.18653/v1/2020.coling-main.292} }
感谢 @abhishekkrthakur 添加了该数据集。