数据集:

orieg/elsevier-oa-cc-by

任务:

填充掩码

摘要生成

文本分类

子任务:

masked-language-modeling news-articles-summarization news-articles-headline-generation

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2008.00774

许可:

cc-by-4.0

数据集介绍文件清单

英文

Elsevier OA CC-By 数据集卡片

数据集摘要

Elsevier OA CC-By：这是一个包含了来自Elsevier期刊的40,091篇开放获取（OA）CC-BY文章的语料库，代表了一个大规模、跨学科的研究数据集，用于支持自然语言处理（NLP）和机器学习（ML）研究。该语料库包括2014年至2020年发表的全文文章，并按照27个中级ASJC代码（学科分类）进行分类。

发表年份分布

Publication Year	Number of Articles
2014	3018
2015	4438
2016	5913
2017	6419
2018	8016
2019	10135
2020	2159

每个中级ASJC代码的文章数分布。每篇文章可以属于多个ASJC代码。

Discipline	Count
General	3847
Agricultural and Biological Sciences	4840
Arts and Humanities	982
Biochemistry, Genetics and Molecular Biology	8356
Business, Management and Accounting	937
Chemical Engineering	1878
Chemistry	2490
Computer Science	2039
Decision Sciences	406
Earth and Planetary Sciences	2393
Economics, Econometrics and Finance	976
Energy	2730
Engineering	4778
Environmental Science	6049
Immunology and Microbiology	3211
Materials Science	3477
Mathematics	538
Medicine	7273
Neuroscience	3669
Nursing	308
Pharmacology, Toxicology and Pharmaceutics	2405
Physics and Astronomy	2404
Psychology	1760
Social Sciences	3540
Veterinary	991
Dentistry	40
Health Professions	821

支持的任务和排行榜

[需要更多信息]

语言

英语（en）。

数据集结构

数据实例

原始数据集的 JSON 结构如下：

{
    "docId": <str>,
    "metadata":{
        "title": <str>,
        "authors": [
            {
                "first": <str>,
                "initial": <str>,
                "last": <str>,
                "email": <str>
            },
            ...
        ],
        "issn": <str>,
        "volume": <str>,
        "firstpage": <str>,
        "lastpage": <str>,
        "pub_year": <int>,
        "doi": <str>,
        "pmid": <str>,
        "openaccess": "Full",
        "subjareas": [<str>],
        "keywords": [<str>],
        "asjc": [<int>],
    },
    "abstract":[
        {
          "sentence": <str>,
          "startOffset": <int>,
          "endOffset": <int>
        },
        ...
    ],
    "bib_entries":{
        "BIBREF0":{
            "title":<str>,
            "authors":[
                {
                "last":<str>,
                "initial":<str>,
                "first":<str>
                },
                ...
            ],
            "issn": <str>,
            "volume": <str>,
            "firstpage": <str>,
            "lastpage": <str>,
            "pub_year": <int>,
            "doi": <str>,
            "pmid": <str>
        },
        ...
    },
    "body_text":[
        {
        "sentence": <str>,
        "secId": <str>,
        "startOffset": <int>,
        "endOffset": <int>,
        "title": <str>,
        "refoffsets": {
            <str>:{
                "endOffset":<int>,
                "startOffset":<int>
                }
            },
        "parents": [
            {
            "id": <str>,
            "title": <str>
            },
            ...
        ]
    },
    ...
    ]
}

docId：文档的标识符。这是唯一的标识符，可以通过添加 "https//www.sciencedirect.com/science/pii/<docId>" 来解析成文档的 URL。

abstract：这是作者提供的文档摘要。

body_text：文档的全文。文本已根据句子边界进行分割，以便在研究项目中更容易使用。每个句子包含所属部分的标题（及其ID），以及上级部分的标题（及其ID）。最高级别的部分在父级数组中索引0。如果数组为空，则句子的部分标题为最高级别的部分标题。这将允许重建文章的结构。参考文献已从句子中提取出来，提取的参考文献的ID和其在句子中的偏移量可以在 "refoffsets" 字段中找到。完整的参考文献列表可以在 "bib_entry" 字段中找到，以及它们各自的元数据。由于我们只保留了“干净”的句子，可能会有一些参考文献丢失。

bib_entities：该部分包含文档内的所有引用。如果引用的元数据可用，它将添加在对应的引用键上。在可能的情况下，包括文档标题、作者和相关标识符（DOI和PMID）等信息。每个引用的键可以在使用引用的句子中找到，该句子中给出了引用的开始和结束偏移量。

metadata：元数据包括有关文章的其他信息，如作者列表、相关标识符（DOI和PMID）以及一些分类方案，如ASJC和学科分类。

author_highlights：对于作者提供了作者亮点的文档，我们在语料库中包含了它们，该部分涵盖了所有文章的61%。作者亮点由作者提供的4至6个句子组成，目的是概述文章的核心发现和结果。

数据字段

title：文档的作者提供的标题。100%覆盖率。
abstract：作者提供的文档摘要。覆盖率为99.25%。
keywords：作者和出版商提供的文档关键词。100%覆盖率。
asjc：文档的学科，以334个ASJC（All Science Journal Classification）代码表示。100%覆盖率。
subjareas：文档的学科分类，以27个ASJC一级学科分类表示。100%覆盖率。
body_text：文档的全文。覆盖率为100%。
author_highlights：作者提供的文档亮点。覆盖率为61.31%。

数据拆分

发表年份分布

Train	Test	Validation
All Articles	32072	4009	4008
With Author Highlights	19644	2420	2514

数据集创建

策划理由

[需要更多信息]

源数据

最初的数据收集和归一化

数据收集日期：2020-06-25T11:00:00.000Z

有关数据收集过程的更多详细信息，请参见 original paper 。

谁是源语言的生产者？

请参阅 original paper 中的 3.1 数据采样。

注释

注释过程

[需要更多信息]

谁是标注者？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

CC BY 4.0

引用信息

@article{Kershaw2020ElsevierOC,
  title     = {Elsevier OA CC-By Corpus},
  author    = {Daniel James Kershaw and R. Koeling},
  journal   = {ArXiv},
  year      = {2020},
  volume    = {abs/2008.00774},
  doi       = {https://doi.org/10.48550/arXiv.2008.00774},
  url       = {https://elsevier.digitalcommonsdata.com/datasets/zm33cdndxs},
  keywords  = {Science, Natural Language Processing, Machine Learning, Open Dataset},
  abstract  = {We introduce the Elsevier OA CC-BY corpus. This is the first open
               corpus of Scientific Research papers which has a representative sample
               from across scientific disciplines. This corpus not only includes the
               full text of the article, but also the metadata of the documents, 
               along with the bibliographic information for each reference.}
}

@dataset{https://10.17632/zm33cdndxs.3,
  doi       = {10.17632/zm33cdndxs.2},
  url       = {https://data.mendeley.com/datasets/zm33cdndxs/3},
  author    = "Daniel Kershaw and Rob Koeling",
  keywords  = {Science, Natural Language Processing, Machine Learning, Open Dataset},
  title     = {Elsevier OA CC-BY Corpus},
  publisher = {Mendeley},
  year      = {2020},
  month     = {sep}
}

贡献者

感谢 @orieg 添加了此数据集。

作者:

orieg

数据集大小:

13.34 MB