数据集:
orieg/elsevier-oa-cc-by
语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:2008.00774许可:
cc-by-4.0Elsevier OA CC-By:这是一个包含了来自Elsevier期刊的40,091篇开放获取(OA)CC-BY文章的语料库,代表了一个大规模、跨学科的研究数据集,用于支持自然语言处理(NLP)和机器学习(ML)研究。该语料库包括2014年至2020年发表的全文文章,并按照27个中级ASJC代码(学科分类)进行分类。
发表年份分布
Publication Year | Number of Articles |
---|---|
2014 | 3018 |
2015 | 4438 |
2016 | 5913 |
2017 | 6419 |
2018 | 8016 |
2019 | 10135 |
2020 | 2159 |
每个中级ASJC代码的文章数分布。每篇文章可以属于多个ASJC代码。
Discipline | Count |
---|---|
General | 3847 |
Agricultural and Biological Sciences | 4840 |
Arts and Humanities | 982 |
Biochemistry, Genetics and Molecular Biology | 8356 |
Business, Management and Accounting | 937 |
Chemical Engineering | 1878 |
Chemistry | 2490 |
Computer Science | 2039 |
Decision Sciences | 406 |
Earth and Planetary Sciences | 2393 |
Economics, Econometrics and Finance | 976 |
Energy | 2730 |
Engineering | 4778 |
Environmental Science | 6049 |
Immunology and Microbiology | 3211 |
Materials Science | 3477 |
Mathematics | 538 |
Medicine | 7273 |
Neuroscience | 3669 |
Nursing | 308 |
Pharmacology, Toxicology and Pharmaceutics | 2405 |
Physics and Astronomy | 2404 |
Psychology | 1760 |
Social Sciences | 3540 |
Veterinary | 991 |
Dentistry | 40 |
Health Professions | 821 |
[需要更多信息]
英语(en)。
原始数据集的 JSON 结构如下:
{ "docId": <str>, "metadata":{ "title": <str>, "authors": [ { "first": <str>, "initial": <str>, "last": <str>, "email": <str> }, ... ], "issn": <str>, "volume": <str>, "firstpage": <str>, "lastpage": <str>, "pub_year": <int>, "doi": <str>, "pmid": <str>, "openaccess": "Full", "subjareas": [<str>], "keywords": [<str>], "asjc": [<int>], }, "abstract":[ { "sentence": <str>, "startOffset": <int>, "endOffset": <int> }, ... ], "bib_entries":{ "BIBREF0":{ "title":<str>, "authors":[ { "last":<str>, "initial":<str>, "first":<str> }, ... ], "issn": <str>, "volume": <str>, "firstpage": <str>, "lastpage": <str>, "pub_year": <int>, "doi": <str>, "pmid": <str> }, ... }, "body_text":[ { "sentence": <str>, "secId": <str>, "startOffset": <int>, "endOffset": <int>, "title": <str>, "refoffsets": { <str>:{ "endOffset":<int>, "startOffset":<int> } }, "parents": [ { "id": <str>, "title": <str> }, ... ] }, ... ] }
docId:文档的标识符。这是唯一的标识符,可以通过添加 "https//www.sciencedirect.com/science/pii/<docId>" 来解析成文档的 URL。
abstract:这是作者提供的文档摘要。
body_text:文档的全文。文本已根据句子边界进行分割,以便在研究项目中更容易使用。每个句子包含所属部分的标题(及其ID),以及上级部分的标题(及其ID)。最高级别的部分在父级数组中索引0。如果数组为空,则句子的部分标题为最高级别的部分标题。这将允许重建文章的结构。参考文献已从句子中提取出来,提取的参考文献的ID和其在句子中的偏移量可以在 "refoffsets" 字段中找到。完整的参考文献列表可以在 "bib_entry" 字段中找到,以及它们各自的元数据。由于我们只保留了“干净”的句子,可能会有一些参考文献丢失。
bib_entities:该部分包含文档内的所有引用。如果引用的元数据可用,它将添加在对应的引用键上。在可能的情况下,包括文档标题、作者和相关标识符(DOI和PMID)等信息。每个引用的键可以在使用引用的句子中找到,该句子中给出了引用的开始和结束偏移量。
metadata:元数据包括有关文章的其他信息,如作者列表、相关标识符(DOI和PMID)以及一些分类方案,如ASJC和学科分类。
author_highlights:对于作者提供了作者亮点的文档,我们在语料库中包含了它们,该部分涵盖了所有文章的61%。作者亮点由作者提供的4至6个句子组成,目的是概述文章的核心发现和结果。
发表年份分布
Train | Test | Validation | |
---|---|---|---|
All Articles | 32072 | 4009 | 4008 |
With Author Highlights | 19644 | 2420 | 2514 |
[需要更多信息]
数据收集日期:2020-06-25T11:00:00.000Z
有关数据收集过程的更多详细信息,请参见 original paper 。
谁是源语言的生产者?请参阅 original paper 中的 3.1 数据采样 。
[需要更多信息]
谁是标注者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@article{Kershaw2020ElsevierOC, title = {Elsevier OA CC-By Corpus}, author = {Daniel James Kershaw and R. Koeling}, journal = {ArXiv}, year = {2020}, volume = {abs/2008.00774}, doi = {https://doi.org/10.48550/arXiv.2008.00774}, url = {https://elsevier.digitalcommonsdata.com/datasets/zm33cdndxs}, keywords = {Science, Natural Language Processing, Machine Learning, Open Dataset}, abstract = {We introduce the Elsevier OA CC-BY corpus. This is the first open corpus of Scientific Research papers which has a representative sample from across scientific disciplines. This corpus not only includes the full text of the article, but also the metadata of the documents, along with the bibliographic information for each reference.} }
@dataset{https://10.17632/zm33cdndxs.3, doi = {10.17632/zm33cdndxs.2}, url = {https://data.mendeley.com/datasets/zm33cdndxs/3}, author = "Daniel Kershaw and Rob Koeling", keywords = {Science, Natural Language Processing, Machine Learning, Open Dataset}, title = {Elsevier OA CC-BY Corpus}, publisher = {Mendeley}, year = {2020}, month = {sep} }
感谢 @orieg 添加了此数据集。