数据集:

allenai/cord19

预印本库:

arxiv:2004.07180

源数据集:

original

批注创建人:

no-annotation

语言创建人:

found

大小:

100K<n<1M

计算机处理:

monolingual

语言:

en
英文

CORD-19数据集卡

数据集概述

CORD-19是有关COVID-19和相关冠状病毒研究的学术论文语料库。由艾伦人工智能研究所的Semantic Scholar团队策划和维护,以支持文本挖掘和自然语言处理研究。

支持的任务和排行榜

请参见相关的 Kaggle challenge 中定义的任务。

语言

该数据集是英文(en)。

数据集结构

数据示例

以下代码块以类似json的语法(缩写,因为某些字段很长)呈现了样本的概述:

{
    "abstract": "OBJECTIVE: This retrospective chart review describes the epidemiology and clinical features of 40 patients with culture-proven Mycoplasma pneumoniae infections at King Abdulaziz University Hospital, Jeddah, Saudi Arabia. METHODS: Patients with positive M. pneumoniae cultures from respiratory specimens from January 1997 through December 1998 were identified through the Microbiology records. Charts of patients were reviewed. RESULTS: 40 patients were identified [...]", 
    "authors": "Madani, Tariq A; Al-Ghamdi, Aisha A", 
    "cord_uid": "ug7v899j", 
    "doc_embeddings": [
    -2.939983606338501,
    -6.312200546264648,
    -1.0459030866622925,
    [...] 766 values in total [...]
    -4.107113361358643,
    -3.8174145221710205,
    1.8976187705993652,
    5.811529159545898,
    -2.9323840141296387
],
"doi": "10.1186/1471-2334-1-6",
"journal": "BMC Infect Dis",
"publish_time": "2001-07-04",
"sha": "d1aafb70c066a2068b02786f8929fd9c900897fb",
"source_x": "PMC",
"title": "Clinical features of culture-proven Mycoplasma pneumoniae infections at King Abdulaziz University Hospital, Jeddah, Saudi Arabia",
"url": "https: //www.ncbi.nlm.nih.gov/pmc/articles/PMC35282/"
}

数据字段

当前只集成了以下字段:cord_uid, sha, source_x, title, doi, abstract, publish_time, authors, journal。通过使用fulltext配置,将pdf_json_files中转录的部分转换为fulltext特征。

  • cord_uid:每个CORD-19论文分配的唯一标识。这不一定在每一行中都是唯一的,这在常见问题解答中有解释。
  • sha:与CORD-19论文相关联的所有PDF的SHA1值。大多数论文在此处只会有零个或一个值(因为要么有PDF,要么没有),但某些论文可能有多个。例如,主论文可能有在单独的PDF中保存的补充信息。或者我们可能有相同论文的两个单独PDF副本。如果存在多个PDF,则它们的SHA1将以分号分隔(例如“4eb6e165ee705e2ae2a24ed2d4e67da42831ff4a; d4f0247db5e916c20eae3f6d772e8572eb828236”)。
  • source_x:我们从中获得此论文的来源名称。同样以分号分隔。例如,“ArXiv; Elsevier; PMC; WHO”。应至少列出一个来源。
  • title:论文标题的字符串。
  • doi:论文的DOI字符串。
  • pmcid:PubMed Central上该论文的ID字符串。应以“PMC”开头,后跟整数。
  • pubmed_id:PubMed上该论文的ID整数。
  • license:与该论文关联的最宽松的许可证字符串。可能的值包括:“cc0”,“hybrid-oa”,“els-covid”,“no-cc”,“cc-by-nc-sa”,“cc-by”,“gold-oa”,“biorxiv”,“green-oa”,“bronze-oa”,“cc-by-nc”,“medrxiv”,“cc-by-nd”,“arxiv”,“unk”,“cc-by-sa”,“cc-by-nc-nd”。
  • abstract:论文摘要的字符串。
  • publish_time:论文发表日期的字符串形式,格式为yyyy-mm-dd。由于某些出版商会用未知日期表示未知日期,因此此字段并不总是准确的,例如yyyy-12-31。
  • authors:论文作者的字符串列表。每个作者名称的格式为“Last, First Middle”,以分号分隔。
  • journal:论文所属期刊的字符串。字符串未规范化(例如BMJ和British Medical Journal都可能存在)。如果未知则为空字符串。
  • mag_id:已弃用,但最初是表示论文在Microsoft Academic Graph中的整数字段。
  • who_covidence_id:为该论文分配的WHO ID字符串。格式类似于“#72306”。
  • arxiv_id:该论文的arXiv ID字符串。
  • pdf_json_files:包含从当前数据转储版本的根目录到将论文PDF解析成JSON格式的路径的字符串列表。多个路径以分号分隔。示例:“document_parses/pdf_json/4eb6e165ee705e2ae2a24ed2d4e67da42831ff4a.json; document_parses/pdf_json/d4f0247db5e916c20eae3f6d772e8572eb828236.json”
  • pmc_json_files:与上述相同,但对应于从PMC下载的全文XML文件,解析为相同的JSON格式。
  • url:与该论文相关联的所有URL字符串。以分号分隔。
  • s2_id:该论文的Semantic Scholar ID字符串。可与Semantic Scholar API一起使用(例如s2_id=9445722对应于http://api.semanticscholar.org/corpusid:9445722)。

基于所选的加载配置的额外字段:

  • fulltext:一个包含从json(从pdf中提取的文本部分本身)中所有文本部分的字符串。
  • doc_embeddings:包含文档嵌入的浮点数元素序列,作为浮点数向量(从由","分隔的值字符串解析而来)。有关提取嵌入所使用的系统的详细信息,请参见: SPECTER: Document-level Representation Learning using Citation-informed Transformers 。简而言之,它依赖于预先训练在文档级别相关性上的BERT模型,使用引文图。可以通过REST查询该系统(请参见 public API documentation )。

数据集划分

该数据集没有提供注释,因此所有实例都在训练集中提供。

各个配置的大小如下:

train
metadata 368618
fulltext 368618
embeddings 368618

数据集创建

策划理由

请参见 official readme

源数据

请参见 official readme

初始数据收集和规范化

请参见 official readme

源语言生产者是谁?

请参见 official readme

注释

没有注释。

注释过程

N/A

注释者是谁?

N/A

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@article{Wang2020CORD19TC,
  title={CORD-19: The Covid-19 Open Research Dataset},
  author={Lucy Lu Wang and Kyle Lo and Yoganand Chandrasekhar and Russell Reas and Jiangjiang Yang and Darrin Eide and
  K. Funk and Rodney Michael Kinney and Ziyang Liu and W. Merrill and P. Mooney and D. Murdick and Devvret Rishi and
  Jerry Sheehan and Zhihong Shen and B. Stilson and A. Wade and K. Wang and Christopher Wilhelm and Boya Xie and
  D. Raymond and Daniel S. Weld and Oren Etzioni and Sebastian Kohlmeier},
  journal={ArXiv},
  year={2020}
}

贡献

感谢 @ggdupont 添加此数据集。