数据集:

copenlu/citeworth

英文

CiteWorth 数据集卡片

数据集简介

科学文献的理解具有挑战性,因为数据在领域上高度特定且多样。然而,科学文本任务的数据集需要昂贵的手动标注,并且往往规模较小,仅限于一个或少数几个领域。同时,科学文档中包含许多潜在的训练信号,例如引用,可以用来构建大型的标记数据集。鉴于此,我们在英文中提出了一项关于引用值检测的深入研究,其中一个句子被标记为是否引用了外部来源。为了实现这一目标,我们介绍了CiteWorth,这是一个从大量抽取的纯文本科学文档构建的大规模、具有上下文的、经过严格清理的引用值检测标记数据集。我们展示了CiteWorth的高质量、具有挑战性和适合研究领域适应等问题。我们表现最佳的引用值检测模型是基于Longformer的段落级上下文化句子标记模型,相对于仅考虑个别句子的SciBERT,它呈现了5个F1点的改进。最后,我们证明了将引用值作为次要任务进行的语言模型微调可以提高下游科学文档理解任务的性能。

数据集结构

数据结构如下所示

  • paper_id: 段落所属的S2ORC论文ID
  • section_idx: 原始S2ORC数据中章节数组的索引
  • file_index: 论文所属的S2ORC数据集中的卷
  • file_offset: S2ORC论文PDF文件中论文JSON起始位置的字节偏移
  • mag_field_of_study: 论文所属的研究领域(数组,但每个论文属于一个领域)
  • original_text: 段落的原始文本
  • section_title: 段落所属部分的标题
  • samples: 包含按顺序排列的清理后句子的字典数组。每个字典的字段如下所示
    • text: 句子的清理文本
    • label: 句子的标签,可以是 "check-worthy" 表示值得引用的句子,或者 "non-check-worthy" 表示不值得引用的句子
    • original_text: 句子的原始文本
    • ref_ids: 引用了该句子中S2ORC数据集中的论文的引用ID列表
    • citation_text: 该句子中所有引文的文本列表

数据集创建

数据来自于 S2ORC dataset ,具体来说是数据的20200705v1版本。它在 CC By-NC 2.0 许可下发布。有关数据集创建过程的详细信息,请参阅 paper 的第3部分。

引用

在引用此工作或使用数据时,请使用以下引文:

@inproceedings{wright2021citeworth,
    title={{CiteWorth: Cite-Worthiness Detection for Improved Scientific Document Understanding}},
    author={Dustin Wright and Isabelle Augenstein},
    booktitle = {Findings of ACL-IJCNLP},
    publisher = {Association for Computational Linguistics},
    year = 2021
}