数据集:
allenai/s2orc
语言:
en计算机处理:
monolingual大小:
100M<n<1B语言创建人:
crowdsourced批注创建人:
machine-generated源数据集:
original预印本库:
arxiv:1911.02782许可:
cc-by-2.0这是一个包含8110万篇英文学术论文的大型语料库,涵盖许多学术领域。数据集包含丰富的元数据、论文摘要、已解析的参考文献以及810万篇开放获取论文的结构化全文。全文中的引用、图表及相应的论文对象都进行了自动检测和标注。从数百家学术出版商和数字档案中聚合了论文,创建了迄今为止最大的公开可用的可机读学术文本集合。
[需要更多信息]
数据集中的文本为英文。
示例论文记录:
{ "id":"4cd223df721b722b1c40689caa52932a41fcc223", "title":"Knowledge-rich, computer-assisted composition of Chinese couplets", "paperAbstract":"Recent research effort in poem composition has focused on the use of automatic language generation...", "entities":[ ], "fieldsOfStudy":[ "Computer Science" ], "s2Url":"https://semanticscholar.org/paper/4cd223df721b722b1c40689caa52932a41fcc223", "pdfUrls":[ "https://doi.org/10.1093/llc/fqu052" ], "s2PdfUrl":"", "authors":[ { "name":"John Lee", "ids":[ "3362353" ] }, "..." ], "inCitations":[ "c789e333fdbb963883a0b5c96c648bf36b8cd242" ], "outCitations":[ "abe213ed63c426a089bdf4329597137751dbb3a0", "..." ], "year":2016, "venue":"DSH", "journalName":"DSH", "journalVolume":"31", "journalPages":"152-163", "sources":[ "DBLP" ], "doi":"10.1093/llc/fqu052", "doiUrl":"https://doi.org/10.1093/llc/fqu052", "pmid":"", "magId":"2050850752" }
paper_id:一个str类型字段,为每个S2ORC论文提供唯一标识符。
arxiv_id:该字段为 arXiv.org 上的论文提供str类型值。
acl_id:该字段为 the ACL Anthology 上的论文提供str类型值。
pmc_id:该字段为 PubMed Central 上的论文提供str类型值。
pubmed_id:该字段为 PubMed 上的论文提供str类型值,包括MEDLINE编号。在PubMed中也被称为pmid。
mag_id:该字段为 Microsoft Academic 上的论文提供str类型值。
doi:该字段为 DOI 提供str类型值。
尤其要注意的是:
title:论文标题字段的str类型值。每篇S2ORC论文必须有标题,可以来自出版商或从PDF中解析得到。我们优先考虑由出版商提供的值。
authors:论文作者字段的List[Dict]类型值。作者按顺序列出。每个字典具有first、middle、last和suffix键,用于作者的名称,除了middle字段是List[str]类型的。每篇S2ORC论文必须至少有一个作者。
venue和journal:论文出版场所/期刊的str类型字段。请注意,对于什么构成“场所”与“期刊”的定义往往并不一致。考虑在未来版本中合并这些字段。
year:出版年份的整数类型字段。如果一篇论文在2019年被发表,但在2020年被发表,则我们会确保venue/journal和year字段一致,并优先选择非预印本的出版信息。缺失的年份将被替换为-1。我们知道这样的决定会禁止某些类型的分析,例如比较论文的预印本和已发表版本。我们正在研究这个问题,以在未来发布中解决。
abstract:摘要的str类型字段。这些摘要直接来自黄金源(而非从PDF解析得到)。我们通过使用“:::”来表示结构化摘要中的换行符(这在医学论文中很常见)。
inbound_citations:包含引用当前论文的其他S2ORC论文的paper_id的List[str]类型字段。当前从解析PDF的文献目录中派生,但将来可能有黄金源。
outbound_citations:包含当前论文引用的其他S2ORC论文的paper_id的List[str]类型字段。同上。
has_inbound_citations:一个bool类型字段,如果inbound_citations至少有一个条目,则值为true;否则为false。
has_outbound_citations:一个bool类型字段,如果outbound_citations至少有一个条目,则值为true;否则为false。
我们并非每个元数据字段都有值。如果缺失,str类型字段取null值,而List类型字段为空列表。
数据集中没有给出训练/开发/测试切分。
学术论文是自然语言处理(NLP)研究中越来越重要的文本领域。除了从人类的集体研究努力中获得有价值的知识外,学术论文还具有许多有趣的特点-数千字被组织成章节,包含诸如表、图和方程等对象,频繁的内联引用这些对象,在脚注中引用其他论文等等。
为了构建S2ORC,我们必须克服以下挑战:(i)论文元数据聚合,(ii)识别开放获取出版物,(iii)对论文进行聚类,以及(iv)在语料库中解析论文的全文和文献计量学注释,清理数据。创建S2ORC的流程如下:
S2ORC是使用Semantic Scholar文献语料库(Ammar等,2018)的数据构建的。Semantic Scholar的论文来自多个来源:直接从出版商获得,从诸如MAG的资源获得,从各种档案库(如arXiv或PubMed)中获得,或者从开放互联网上爬取。基于标题相似性和DOI重叠,Semantic Scholar通过对这些论文进行聚类,得到了最初约200M篇论文群集。
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
Semantic Scholar Open Research Corpus在ODC-BY许可下发布。
@misc{lo2020s2orc, title={S2ORC: The Semantic Scholar Open Research Corpus}, author={Kyle Lo and Lucy Lu Wang and Mark Neumann and Rodney Kinney and Dan S. Weld}, year={2020}, eprint={1911.02782}, archivePrefix={arXiv}, primaryClass={cs.CL} }
感谢 @bhavitvyamalik 添加该数据集。