英文

S2ORC: The Semantic Scholar Open Research Corpus 数据集卡片

数据集摘要

这是一个包含8110万篇英文学术论文的大型语料库,涵盖许多学术领域。数据集包含丰富的元数据、论文摘要、已解析的参考文献以及810万篇开放获取论文的结构化全文。全文中的引用、图表及相应的论文对象都进行了自动检测和标注。从数百家学术出版商和数字档案中聚合了论文,创建了迄今为止最大的公开可用的可机读学术文本集合。

支持的任务和排行榜

[需要更多信息]

语言

数据集中的文本为英文。

数据集结构

数据实例

示例论文记录:

{
   "id":"4cd223df721b722b1c40689caa52932a41fcc223",
   "title":"Knowledge-rich, computer-assisted composition of Chinese couplets",
   "paperAbstract":"Recent research effort in poem composition has focused on the use of automatic language generation...",
   "entities":[

   ],
   "fieldsOfStudy":[
      "Computer Science"
   ],
   "s2Url":"https://semanticscholar.org/paper/4cd223df721b722b1c40689caa52932a41fcc223",
   "pdfUrls":[
      "https://doi.org/10.1093/llc/fqu052"
   ],
   "s2PdfUrl":"",
   "authors":[
      {
         "name":"John Lee",
         "ids":[
            "3362353"
         ]
      },
      "..."
   ],
   "inCitations":[
      "c789e333fdbb963883a0b5c96c648bf36b8cd242"
   ],
   "outCitations":[
      "abe213ed63c426a089bdf4329597137751dbb3a0",
      "..."
   ],
   "year":2016,
   "venue":"DSH",
   "journalName":"DSH",
   "journalVolume":"31",
   "journalPages":"152-163",
   "sources":[
      "DBLP"
   ],
   "doi":"10.1093/llc/fqu052",
   "doiUrl":"https://doi.org/10.1093/llc/fqu052",
   "pmid":"",
   "magId":"2050850752"
}

数据字段

标识符字段
  • paper_id:一个str类型字段,为每个S2ORC论文提供唯一标识符。

  • arxiv_id:该字段为 arXiv.org 上的论文提供str类型值。

  • acl_id:该字段为 the ACL Anthology 上的论文提供str类型值。

  • pmc_id:该字段为 PubMed Central 上的论文提供str类型值。

  • pubmed_id:该字段为 PubMed 上的论文提供str类型值,包括MEDLINE编号。在PubMed中也被称为pmid。

  • mag_id:该字段为 Microsoft Academic 上的论文提供str类型值。

  • doi:该字段为 DOI 提供str类型值。

尤其要注意的是:

  • 解析的引用链接由被引用的论文的paper_id表示。
  • paper_id可以通过s2_url字段验证,解析为语义学者的论文页面。
  • 并非每个标识符字段都有值。如果缺失,它们将采用null值。
元数据字段
  • title:论文标题字段的str类型值。每篇S2ORC论文必须有标题,可以来自出版商或从PDF中解析得到。我们优先考虑由出版商提供的值。

  • authors:论文作者字段的List[Dict]类型值。作者按顺序列出。每个字典具有first、middle、last和suffix键,用于作者的名称,除了middle字段是List[str]类型的。每篇S2ORC论文必须至少有一个作者。

  • venue和journal:论文出版场所/期刊的str类型字段。请注意,对于什么构成“场所”与“期刊”的定义往往并不一致。考虑在未来版本中合并这些字段。

  • year:出版年份的整数类型字段。如果一篇论文在2019年被发表,但在2020年被发表,则我们会确保venue/journal和year字段一致,并优先选择非预印本的出版信息。缺失的年份将被替换为-1。我们知道这样的决定会禁止某些类型的分析,例如比较论文的预印本和已发表版本。我们正在研究这个问题,以在未来发布中解决。

  • abstract:摘要的str类型字段。这些摘要直接来自黄金源(而非从PDF解析得到)。我们通过使用“:::”来表示结构化摘要中的换行符(这在医学论文中很常见)。

  • inbound_citations:包含引用当前论文的其他S2ORC论文的paper_id的List[str]类型字段。当前从解析PDF的文献目录中派生,但将来可能有黄金源。

  • outbound_citations:包含当前论文引用的其他S2ORC论文的paper_id的List[str]类型字段。同上。

  • has_inbound_citations:一个bool类型字段,如果inbound_citations至少有一个条目,则值为true;否则为false。

  • has_outbound_citations:一个bool类型字段,如果outbound_citations至少有一个条目,则值为true;否则为false。

我们并非每个元数据字段都有值。如果缺失,str类型字段取null值,而List类型字段为空列表。

数据切分

数据集中没有给出训练/开发/测试切分。

数据集创建

策划理由

学术论文是自然语言处理(NLP)研究中越来越重要的文本领域。除了从人类的集体研究努力中获得有价值的知识外,学术论文还具有许多有趣的特点-数千字被组织成章节,包含诸如表、图和方程等对象,频繁的内联引用这些对象,在脚注中引用其他论文等等。

来源数据

初始数据收集和归一化

为了构建S2ORC,我们必须克服以下挑战:(i)论文元数据聚合,(ii)识别开放获取出版物,(iii)对论文进行聚类,以及(iv)在语料库中解析论文的全文和文献计量学注释,清理数据。创建S2ORC的流程如下:

  • 处理PDF和LATEX源代码,获取元数据,清理全文、内联引用和参考文献条目
  • 为每个论文群选择最佳的元数据和全文解析
  • 过滤具有不足元数据或内容的论文群
  • 解析语料库中论文群之间的参考文献链接
  • 资源语言生产者是谁?

    S2ORC是使用Semantic Scholar文献语料库(Ammar等,2018)的数据构建的。Semantic Scholar的论文来自多个来源:直接从出版商获得,从诸如MAG的资源获得,从各种档案库(如arXiv或PubMed)中获得,或者从开放互联网上爬取。基于标题相似性和DOI重叠,Semantic Scholar通过对这些论文进行聚类,得到了最初约200M篇论文群集。

    注释

    注释过程

    [需要更多信息]

    注释者是谁?

    [需要更多信息]

    个人和敏感信息

    [需要更多信息]

    使用数据的注意事项

    数据集的社会影响

    [需要更多信息]

    偏见讨论

    [需要更多信息]

    其他已知限制

    [需要更多信息]

    其他信息

    数据集策划者

    [需要更多信息]

    许可信息

    Semantic Scholar Open Research Corpus在ODC-BY许可下发布。

    引用信息

    @misc{lo2020s2orc,
          title={S2ORC: The Semantic Scholar Open Research Corpus},
          author={Kyle Lo and Lucy Lu Wang and Mark Neumann and Rodney Kinney and Dan S. Weld},
          year={2020},
          eprint={1911.02782},
          archivePrefix={arXiv},
          primaryClass={cs.CL}
    }
    

    贡献

    感谢 @bhavitvyamalik 添加该数据集。