数据集:
copenlu/citeworth
任务:
文本分类语言:
en计算机处理:
monolingual大小:
1M<n<10M语言创建人:
found批注创建人:
expert-generated源数据集:
extended|s2orc许可:
cc-by-nc-4.0科学文献的理解具有挑战性,因为数据在领域上高度特定且多样。然而,科学文本任务的数据集需要昂贵的手动标注,并且往往规模较小,仅限于一个或少数几个领域。同时,科学文档中包含许多潜在的训练信号,例如引用,可以用来构建大型的标记数据集。鉴于此,我们在英文中提出了一项关于引用值检测的深入研究,其中一个句子被标记为是否引用了外部来源。为了实现这一目标,我们介绍了CiteWorth,这是一个从大量抽取的纯文本科学文档构建的大规模、具有上下文的、经过严格清理的引用值检测标记数据集。我们展示了CiteWorth的高质量、具有挑战性和适合研究领域适应等问题。我们表现最佳的引用值检测模型是基于Longformer的段落级上下文化句子标记模型,相对于仅考虑个别句子的SciBERT,它呈现了5个F1点的改进。最后,我们证明了将引用值作为次要任务进行的语言模型微调可以提高下游科学文档理解任务的性能。
数据结构如下所示
数据来自于 S2ORC dataset ,具体来说是数据的20200705v1版本。它在 CC By-NC 2.0 许可下发布。有关数据集创建过程的详细信息,请参阅 paper 的第3部分。
在引用此工作或使用数据时,请使用以下引文:
@inproceedings{wright2021citeworth, title={{CiteWorth: Cite-Worthiness Detection for Improved Scientific Document Understanding}}, author={Dustin Wright and Isabelle Augenstein}, booktitle = {Findings of ACL-IJCNLP}, publisher = {Association for Computational Linguistics}, year = 2021 }