数据集:

allenai/s2orc

任务:

task_categories:other

文本生成

填充掩码

子任务:

language-modeling masked-language-modeling multi-class-classification

语言:

计算机处理:

monolingual

大小:

100M<n<1B

语言创建人:

crowdsourced

批注创建人:

machine-generated

源数据集:

original

预印本库:

arxiv:1911.02782

其他:

citation-recommendation

许可:

cc-by-2.0

数据集介绍文件清单

英文

S2ORC: The Semantic Scholar Open Research Corpus 数据集卡片

数据集摘要

这是一个包含8110万篇英文学术论文的大型语料库，涵盖许多学术领域。数据集包含丰富的元数据、论文摘要、已解析的参考文献以及810万篇开放获取论文的结构化全文。全文中的引用、图表及相应的论文对象都进行了自动检测和标注。从数百家学术出版商和数字档案中聚合了论文，创建了迄今为止最大的公开可用的可机读学术文本集合。

支持的任务和排行榜

[需要更多信息]

语言

数据集中的文本为英文。

数据集结构

数据实例

示例论文记录：

{
   "id":"4cd223df721b722b1c40689caa52932a41fcc223",
   "title":"Knowledge-rich, computer-assisted composition of Chinese couplets",
   "paperAbstract":"Recent research effort in poem composition has focused on the use of automatic language generation...",
   "entities":[

   ],
   "fieldsOfStudy":[
      "Computer Science"
   ],
   "s2Url":"https://semanticscholar.org/paper/4cd223df721b722b1c40689caa52932a41fcc223",
   "pdfUrls":[
      "https://doi.org/10.1093/llc/fqu052"
   ],
   "s2PdfUrl":"",
   "authors":[
      {
         "name":"John Lee",
         "ids":[
            "3362353"
         ]
      },
      "..."
   ],
   "inCitations":[
      "c789e333fdbb963883a0b5c96c648bf36b8cd242"
   ],
   "outCitations":[
      "abe213ed63c426a089bdf4329597137751dbb3a0",
      "..."
   ],
   "year":2016,
   "venue":"DSH",
   "journalName":"DSH",
   "journalVolume":"31",
   "journalPages":"152-163",
   "sources":[
      "DBLP"
   ],
   "doi":"10.1093/llc/fqu052",
   "doiUrl":"https://doi.org/10.1093/llc/fqu052",
   "pmid":"",
   "magId":"2050850752"
}

数据字段

标识符字段

paper_id：一个str类型字段，为每个S2ORC论文提供唯一标识符。
arxiv_id：该字段为 arXiv.org 上的论文提供str类型值。
acl_id：该字段为 the ACL Anthology 上的论文提供str类型值。
pmc_id：该字段为 PubMed Central 上的论文提供str类型值。
pubmed_id：该字段为 PubMed 上的论文提供str类型值，包括MEDLINE编号。在PubMed中也被称为pmid。
mag_id：该字段为 Microsoft Academic 上的论文提供str类型值。
doi：该字段为 DOI 提供str类型值。

尤其要注意的是：

解析的引用链接由被引用的论文的paper_id表示。
paper_id可以通过s2_url字段验证，解析为语义学者的论文页面。
并非每个标识符字段都有值。如果缺失，它们将采用null值。

元数据字段

title：论文标题字段的str类型值。每篇S2ORC论文必须有标题，可以来自出版商或从PDF中解析得到。我们优先考虑由出版商提供的值。
authors：论文作者字段的List[Dict]类型值。作者按顺序列出。每个字典具有first、middle、last和suffix键，用于作者的名称，除了middle字段是List[str]类型的。每篇S2ORC论文必须至少有一个作者。
venue和journal：论文出版场所/期刊的str类型字段。请注意，对于什么构成“场所”与“期刊”的定义往往并不一致。考虑在未来版本中合并这些字段。
year：出版年份的整数类型字段。如果一篇论文在2019年被发表，但在2020年被发表，则我们会确保venue/journal和year字段一致，并优先选择非预印本的出版信息。缺失的年份将被替换为-1。我们知道这样的决定会禁止某些类型的分析，例如比较论文的预印本和已发表版本。我们正在研究这个问题，以在未来发布中解决。
abstract：摘要的str类型字段。这些摘要直接来自黄金源（而非从PDF解析得到）。我们通过使用“:::”来表示结构化摘要中的换行符（这在医学论文中很常见）。
inbound_citations：包含引用当前论文的其他S2ORC论文的paper_id的List[str]类型字段。当前从解析PDF的文献目录中派生，但将来可能有黄金源。
outbound_citations：包含当前论文引用的其他S2ORC论文的paper_id的List[str]类型字段。同上。
has_inbound_citations：一个bool类型字段，如果inbound_citations至少有一个条目，则值为true；否则为false。
has_outbound_citations：一个bool类型字段，如果outbound_citations至少有一个条目，则值为true；否则为false。

我们并非每个元数据字段都有值。如果缺失，str类型字段取null值，而List类型字段为空列表。

数据切分

数据集中没有给出训练/开发/测试切分。

数据集创建

策划理由

学术论文是自然语言处理（NLP）研究中越来越重要的文本领域。除了从人类的集体研究努力中获得有价值的知识外，学术论文还具有许多有趣的特点-数千字被组织成章节，包含诸如表、图和方程等对象，频繁的内联引用这些对象，在脚注中引用其他论文等等。

来源数据

初始数据收集和归一化

为了构建S2ORC，我们必须克服以下挑战：（i）论文元数据聚合，（ii）识别开放获取出版物，（iii）对论文进行聚类，以及（iv）在语料库中解析论文的全文和文献计量学注释，清理数据。创建S2ORC的流程如下：

处理PDF和LATEX源代码，获取元数据，清理全文、内联引用和参考文献条目

为每个论文群选择最佳的元数据和全文解析

过滤具有不足元数据或内容的论文群

解析语料库中论文群之间的参考文献链接

资源语言生产者是谁？

S2ORC是使用Semantic Scholar文献语料库（Ammar等，2018）的数据构建的。Semantic Scholar的论文来自多个来源：直接从出版商获得，从诸如MAG的资源获得，从各种档案库（如arXiv或PubMed）中获得，或者从开放互联网上爬取。基于标题相似性和DOI重叠，Semantic Scholar通过对这些论文进行聚类，得到了最初约200M篇论文群集。

注释

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

Semantic Scholar Open Research Corpus在ODC-BY许可下发布。

引用信息

@misc{lo2020s2orc,
      title={S2ORC: The Semantic Scholar Open Research Corpus},
      author={Kyle Lo and Lucy Lu Wang and Mark Neumann and Rodney Kinney and Dan S. Weld},
      year={2020},
      eprint={1911.02782},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献

感谢 @bhavitvyamalik 添加该数据集。

作者:

allenai

数据集大小:

1.2 MB