数据集:

yuanchuan/annotated_reference_strings

任务:

标记分类

子任务:

parsing

语言:

计算机处理:

monolingual

大小:

10M<n<100M

语言创建人:

found

批注创建人:

other

源数据集:

original

许可:

cc-by-4.0

数据集介绍文件清单

英文

annotated_reference_strings数据集卡片

数据集概述

annotated_reference_strings数据集包含数百万个带有注释的参考字符串，即字符串的每个标记都有一个相关的标签，例如作者、标题、年份等等。

这些字符串使用引文处理器合成，这些引文来自不同科学领域的各种来源，涵盖不同的科学领域。

支持的任务

这个数据集可以用于结构预测。

语言

该数据集由英文参考字符串组成。

数据集结构

数据实例

{
  "source": "pubmed",
  "lang": "en",
  "entry_type": "article",
  "doi_prefix": "pubmed19n0001",
  "csl_style": "annual-reviews",
  "content": "<citation-number>8.</citation-number> <author>Mohr W.</author> <year>1977.</year> <title>[Morphology of bone tumors. 2. Morphology of benign bone tumors].</title> <container-title>Aktuelle Probleme in Chirurgie und Orthopadie.</container-title> <volume>5:</volume> <page>29–42</page>"
}

每个引文最多呈现为17个CSL样式。因此，会有近似重复的样本。

段落的所有字符（包括标点符号）（一个段落由一个或多个标记组成）都被标签之间的标签括起来。

只有作为"连接词"的标记不被标签括起来。这些标记将被标记为"other"。

有些段落可能被多个标签括起来，例如<issued><year>2021</year></issued>。这取决于样式的作者。

数据字段

source：描述引文的来源。{pubmed、jstor、crossref}
lang：描述引文的语言。{en}
entry_type：描述BibTeX条目类型。{article、book、inbook、misc、techreport、phdthesis、incollection、inproceedings}
doi_prefix：对于JSTOR和CrossRef，这是DOI的前缀。对于PubMed，它是生成引文的目录（例如pubmed19nXXXX，其中XXXX是4位数字）。
csl_style：引文呈现的CSL样式。
content：特定样式的引文，每个段落都由以CSL变量命名的标签括起来。

数据拆分

数据拆分目前不可用。

数据集创建

源数据

初始数据收集和规范化

用于生成这些参考字符串的引文来自3个主要来源：

PubMed （2019基线）
通过 Open Academic Graph v2 获取的CrossRef
JSTOR样本数据集（截至发布日期尚未在线提供）

如果引文不是BibTeX格式，将使用 bibutils 将其转换为BibTeX。

数据源的语言是谁？

引文以参考字符串的方式呈现的方式基于出版商规则/规范. CSL是一种已经确立的标准，该标准规定了此类规范.有数千种引文样式可用。

注释

注释过程

注释过程包括两个主要干预措施：

修改样式的CSL规范，在呈现过程中注入CSL变量名称

使用正则表达式对呈现的字符串进行清理，确保所有标记和字符都包含在标签中

谁是注释者？

原始的CSL规范可在 GitHub 上找到。

样式修改和清理过程由本文的作者完成。

其他信息

许可信息

该数据集根据 Creative Commons Attribution 4.0 International (CC BY 4.0) 进行许可。

引用信息

该数据集是新加坡国立大学的一项硕士项目的成果。

如果您使用该数据集，请引用如下：

@techreport{kee2021,
    author = {Yuan Chuan Kee},
    title = {Synthesis of a large dataset of annotated reference strings for developing citation parsers},
    institution = {National University of Singapore},
    year = {2021}
}

贡献

感谢 @kylase 添加了该数据集。

作者:

yuanchuan

数据集大小:

39.76 GB