英文

Elsevier OA CC-By 数据集卡片

数据集摘要

Elsevier OA CC-By:这是一个包含了来自Elsevier期刊的40,091篇开放获取(OA)CC-BY文章的语料库,代表了一个大规模、跨学科的研究数据集,用于支持自然语言处理(NLP)和机器学习(ML)研究。该语料库包括2014年至2020年发表的全文文章,并按照27个中级ASJC代码(学科分类)进行分类。

发表年份分布

Publication Year Number of Articles
2014 3018
2015 4438
2016 5913
2017 6419
2018 8016
2019 10135
2020 2159

每个中级ASJC代码的文章数分布。每篇文章可以属于多个ASJC代码。

Discipline Count
General 3847
Agricultural and Biological Sciences 4840
Arts and Humanities 982
Biochemistry, Genetics and Molecular Biology 8356
Business, Management and Accounting 937
Chemical Engineering 1878
Chemistry 2490
Computer Science 2039
Decision Sciences 406
Earth and Planetary Sciences 2393
Economics, Econometrics and Finance 976
Energy 2730
Engineering 4778
Environmental Science 6049
Immunology and Microbiology 3211
Materials Science 3477
Mathematics 538
Medicine 7273
Neuroscience 3669
Nursing 308
Pharmacology, Toxicology and Pharmaceutics 2405
Physics and Astronomy 2404
Psychology 1760
Social Sciences 3540
Veterinary 991
Dentistry 40
Health Professions 821

支持的任务和排行榜

[需要更多信息]

语言

英语(en)。

数据集结构

数据实例

原始数据集的 JSON 结构如下:

{
    "docId": <str>,
    "metadata":{
        "title": <str>,
        "authors": [
            {
                "first": <str>,
                "initial": <str>,
                "last": <str>,
                "email": <str>
            },
            ...
        ],
        "issn": <str>,
        "volume": <str>,
        "firstpage": <str>,
        "lastpage": <str>,
        "pub_year": <int>,
        "doi": <str>,
        "pmid": <str>,
        "openaccess": "Full",
        "subjareas": [<str>],
        "keywords": [<str>],
        "asjc": [<int>],
    },
    "abstract":[
        {
          "sentence": <str>,
          "startOffset": <int>,
          "endOffset": <int>
        },
        ...
    ],
    "bib_entries":{
        "BIBREF0":{
            "title":<str>,
            "authors":[
                {
                "last":<str>,
                "initial":<str>,
                "first":<str>
                },
                ...
            ],
            "issn": <str>,
            "volume": <str>,
            "firstpage": <str>,
            "lastpage": <str>,
            "pub_year": <int>,
            "doi": <str>,
            "pmid": <str>
        },
        ...
    },
    "body_text":[
        {
        "sentence": <str>,
        "secId": <str>,
        "startOffset": <int>,
        "endOffset": <int>,
        "title": <str>,
        "refoffsets": {
            <str>:{
                "endOffset":<int>,
                "startOffset":<int>
                }
            },
        "parents": [
            {
            "id": <str>,
            "title": <str>
            },
            ...
        ]
    },
    ...
    ]
}

docId:文档的标识符。这是唯一的标识符,可以通过添加 "https//www.sciencedirect.com/science/pii/<docId>" 来解析成文档的 URL。

abstract:这是作者提供的文档摘要。

body_text:文档的全文。文本已根据句子边界进行分割,以便在研究项目中更容易使用。每个句子包含所属部分的标题(及其ID),以及上级部分的标题(及其ID)。最高级别的部分在父级数组中索引0。如果数组为空,则句子的部分标题为最高级别的部分标题。这将允许重建文章的结构。参考文献已从句子中提取出来,提取的参考文献的ID和其在句子中的偏移量可以在 "refoffsets" 字段中找到。完整的参考文献列表可以在 "bib_entry" 字段中找到,以及它们各自的元数据。由于我们只保留了“干净”的句子,可能会有一些参考文献丢失。

bib_entities:该部分包含文档内的所有引用。如果引用的元数据可用,它将添加在对应的引用键上。在可能的情况下,包括文档标题、作者和相关标识符(DOI和PMID)等信息。每个引用的键可以在使用引用的句子中找到,该句子中给出了引用的开始和结束偏移量。

metadata:元数据包括有关文章的其他信息,如作者列表、相关标识符(DOI和PMID)以及一些分类方案,如ASJC和学科分类。

author_highlights:对于作者提供了作者亮点的文档,我们在语料库中包含了它们,该部分涵盖了所有文章的61%。作者亮点由作者提供的4至6个句子组成,目的是概述文章的核心发现和结果。

数据字段

  • title:文档的作者提供的标题。100%覆盖率。
  • abstract:作者提供的文档摘要。覆盖率为99.25%。
  • keywords:作者和出版商提供的文档关键词。100%覆盖率。
  • asjc:文档的学科,以334个ASJC(All Science Journal Classification)代码表示。100%覆盖率。
  • subjareas:文档的学科分类,以27个ASJC一级学科分类表示。100%覆盖率。
  • body_text:文档的全文。覆盖率为100%。
  • author_highlights:作者提供的文档亮点。覆盖率为61.31%。

数据拆分

发表年份分布

Train Test Validation
All Articles 32072 4009 4008
With Author Highlights 19644 2420 2514

数据集创建

策划理由

[需要更多信息]

源数据

最初的数据收集和归一化

数据收集日期:2020-06-25T11:00:00.000Z

有关数据收集过程的更多详细信息,请参见 original paper

谁是源语言的生产者?

请参阅 original paper 中的 3.1 数据采样 。

注释

注释过程

[需要更多信息]

谁是标注者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

CC BY 4.0

引用信息

@article{Kershaw2020ElsevierOC,
  title     = {Elsevier OA CC-By Corpus},
  author    = {Daniel James Kershaw and R. Koeling},
  journal   = {ArXiv},
  year      = {2020},
  volume    = {abs/2008.00774},
  doi       = {https://doi.org/10.48550/arXiv.2008.00774},
  url       = {https://elsevier.digitalcommonsdata.com/datasets/zm33cdndxs},
  keywords  = {Science, Natural Language Processing, Machine Learning, Open Dataset},
  abstract  = {We introduce the Elsevier OA CC-BY corpus. This is the first open
               corpus of Scientific Research papers which has a representative sample
               from across scientific disciplines. This corpus not only includes the
               full text of the article, but also the metadata of the documents, 
               along with the bibliographic information for each reference.}
}
@dataset{https://10.17632/zm33cdndxs.3,
  doi       = {10.17632/zm33cdndxs.2},
  url       = {https://data.mendeley.com/datasets/zm33cdndxs/3},
  author    = "Daniel Kershaw and Rob Koeling",
  keywords  = {Science, Natural Language Processing, Machine Learning, Open Dataset},
  title     = {Elsevier OA CC-BY Corpus},
  publisher = {Mendeley},
  year      = {2020},
  month     = {sep}
}

贡献者

感谢 @orieg 添加了此数据集。