数据集:

allenai/csabstruct

预印本库:

arxiv:1909.04054

许可:

apache-2.0
英文

CSAbstruct

CSAbstruct是作为《预训练语言模型用于顺序句子分类》( ACL Anthology arXiv GitHub )的一部分而创建的。

它包含2,189个手动注释的计算机科学摘要,其中的句子根据它们在摘要中的修辞角色进行了注释,类似于 PUBMED-RCT 个类别。

数据集构建细节

CSAbstruct是一个新的数据集,其中包含按照句子的修辞角色进行标记的计算机科学摘要。此数据集与 PUBMED-RCT 的主要区别在于PubMed摘要是按照预定义的结构撰写的,而计算机科学论文是自由形式的。因此,CSAbstruct中的写作风格更加多样化。CSAbstruct是从1256321的Semantic Scholar语料库中收集而来的。每个句子由5名工作者按照 Figure-eight platform 进行注释,并且属于5个类别之一{背景,目标,方法,结果,其他}。

我们使用8个摘要(共51个句子)作为测试问题来训练众包工作者。准确率低于75%的注释工作者无资格进行实际注释工作。使用单个句子上的一致性按照注释者在初始测试问题上的准确性加权来聚合注释。每个实例都与置信度分数相关联,该分数基于注释者的初始准确性和所有注释者对该实例的一致性。然后,将数据集分为75%/ 15%/ 10%的训练/开发/测试分区,以使测试集具有最高的置信度分数。在200个随机的句子子集上的一致性率为75%,鉴于任务的难度,这是相当高的。与 PUBMED-RCT 相比,我们的数据集展示了更多样化的写作风格,因为其摘要并未使用显式的结构模板编写。

数据集统计

Statistic Avg ± std
Doc length in sentences 6.7 ± 1.99
Sentence length in words 21.8 ± 10.0
Label % in Dataset
BACKGROUND 33%
METHOD 32%
RESULT 21%
OBJECTIVE 12%
OTHER 03%

引用

如果您使用此数据集,请引用以下论文:

@inproceedings{Cohan2019EMNLP,
  title={Pretrained Language Models for Sequential Sentence Classification},
  author={Arman Cohan, Iz Beltagy, Daniel King, Bhavana Dalvi, Dan Weld},
  year={2019},
  booktitle={EMNLP},
}