数据集:

yuanchuan/annotated_reference_strings

子任务:

parsing

语言:

en

计算机处理:

monolingual

大小:

10M<n<100M

语言创建人:

found

批注创建人:

other

源数据集:

original

许可:

cc-by-4.0
英文

annotated_reference_strings数据集卡片

数据集概述

annotated_reference_strings数据集包含数百万个带有注释的参考字符串,即字符串的每个标记都有一个相关的标签,例如作者、标题、年份等等。

这些字符串使用引文处理器合成,这些引文来自不同科学领域的各种来源,涵盖不同的科学领域。

支持的任务

这个数据集可以用于结构预测。

语言

该数据集由英文参考字符串组成。

数据集结构

数据实例

{
  "source": "pubmed",
  "lang": "en",
  "entry_type": "article",
  "doi_prefix": "pubmed19n0001",
  "csl_style": "annual-reviews",
  "content": "<citation-number>8.</citation-number> <author>Mohr W.</author> <year>1977.</year> <title>[Morphology of bone tumors. 2. Morphology of benign bone tumors].</title> <container-title>Aktuelle Probleme in Chirurgie und Orthopadie.</container-title> <volume>5:</volume> <page>29–42</page>"
}
  • 每个引文最多呈现为17个CSL样式。因此,会有近似重复的样本。
  • 段落的所有字符(包括标点符号)(一个段落由一个或多个标记组成)都被标签之间的标签括起来。
  • 只有作为"连接词"的标记不被标签括起来。这些标记将被标记为"other"。
  • 有些段落可能被多个标签括起来,例如<issued><year>2021</year></issued>。这取决于样式的作者。
  • 数据字段

    • source:描述引文的来源。{pubmed、jstor、crossref}
    • lang:描述引文的语言。{en}
    • entry_type:描述BibTeX条目类型。{article、book、inbook、misc、techreport、phdthesis、incollection、inproceedings}
    • doi_prefix:对于JSTOR和CrossRef,这是DOI的前缀。对于PubMed,它是生成引文的目录(例如pubmed19nXXXX,其中XXXX是4位数字)。
    • csl_style:引文呈现的CSL样式。
    • content:特定样式的引文,每个段落都由以CSL变量命名的标签括起来。

    数据拆分

    数据拆分目前不可用。

    数据集创建

    源数据

    初始数据收集和规范化

    用于生成这些参考字符串的引文来自3个主要来源:

    如果引文不是BibTeX格式,将使用 bibutils 将其转换为BibTeX。

    数据源的语言是谁?

    引文以参考字符串的方式呈现的方式基于出版商规则/规范. CSL是一种已经确立的标准,该标准规定了此类规范.有数千种引文样式可用。

    注释

    注释过程

    注释过程包括两个主要干预措施:

  • 修改样式的CSL规范,在呈现过程中注入CSL变量名称
  • 使用正则表达式对呈现的字符串进行清理,确保所有标记和字符都包含在标签中
  • 谁是注释者?

    原始的CSL规范可在 GitHub 上找到。

    样式修改和清理过程由本文的作者完成。

    其他信息

    许可信息

    该数据集根据 Creative Commons Attribution 4.0 International (CC BY 4.0) 进行许可。

    引用信息

    该数据集是新加坡国立大学的一项硕士项目的成果。

    如果您使用该数据集,请引用如下:

    @techreport{kee2021,
        author = {Yuan Chuan Kee},
        title = {Synthesis of a large dataset of annotated reference strings for developing citation parsers},
        institution = {National University of Singapore},
        year = {2021}
    }
    

    贡献

    感谢 @kylase 添加了该数据集。