数据集:
yuanchuan/annotated_reference_strings
任务:
标记分类子任务:
parsing语言:
en计算机处理:
monolingual大小:
10M<n<100M语言创建人:
found批注创建人:
other源数据集:
original许可:
cc-by-4.0annotated_reference_strings数据集包含数百万个带有注释的参考字符串,即字符串的每个标记都有一个相关的标签,例如作者、标题、年份等等。
这些字符串使用引文处理器合成,这些引文来自不同科学领域的各种来源,涵盖不同的科学领域。
这个数据集可以用于结构预测。
该数据集由英文参考字符串组成。
{ "source": "pubmed", "lang": "en", "entry_type": "article", "doi_prefix": "pubmed19n0001", "csl_style": "annual-reviews", "content": "<citation-number>8.</citation-number> <author>Mohr W.</author> <year>1977.</year> <title>[Morphology of bone tumors. 2. Morphology of benign bone tumors].</title> <container-title>Aktuelle Probleme in Chirurgie und Orthopadie.</container-title> <volume>5:</volume> <page>29–42</page>" }
数据拆分目前不可用。
用于生成这些参考字符串的引文来自3个主要来源:
如果引文不是BibTeX格式,将使用 bibutils 将其转换为BibTeX。
数据源的语言是谁?引文以参考字符串的方式呈现的方式基于出版商规则/规范. CSL是一种已经确立的标准,该标准规定了此类规范.有数千种引文样式可用。
注释过程包括两个主要干预措施:
原始的CSL规范可在 GitHub 上找到。
样式修改和清理过程由本文的作者完成。
该数据集根据 Creative Commons Attribution 4.0 International (CC BY 4.0) 进行许可。
该数据集是新加坡国立大学的一项硕士项目的成果。
如果您使用该数据集,请引用如下:
@techreport{kee2021, author = {Yuan Chuan Kee}, title = {Synthesis of a large dataset of annotated reference strings for developing citation parsers}, institution = {National University of Singapore}, year = {2021} }
感谢 @kylase 添加了该数据集。