数据集:

covid_qa_deepset

任务:

问答

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

许可:

apache-2.0
英文

COVID-QA 数据集卡片

数据集摘要

COVID-QA 是一个包含2019个问题/回答对的问答数据集,由志愿生物医学专家在与COVID-19相关的科学文章上进行了注释。总共有15位专家对来自CORD-19数据集的147篇科学文章进行了注释。

支持的任务和排行榜

[需要更多信息]

语言

数据集中的文本是英文。

数据集结构

数据实例

数据集中的实例代表什么?每个实例代表一个问题,一个上下文(来自CORD19数据集的文档段落)和一个答案。

总共有多少个实例?2019个实例

每个实例由什么数据组成?每个实例都有一个问题、一组答案和与每个答案相关联的id。

[需要更多信息]

数据字段

数据按照SQuAD的风格进行了注释,每一行包含以下内容:

  • 问题:查询问题
  • 上下文:从中获取答案的上下文文本
  • document_id:上下文文本的文档ID
  • 答案:包含答案字符串和起始索引的字典

数据拆分

data/COVID-QA.json:由志愿生物医学专家在与COVID-19相关的科学文章上进行的2019个问题/答案对的注释。

[需要更多信息]

数据集创建

策展理由

[需要更多信息]

数据源

初始数据收集和归一化

最初收集的数据来自CORD-19数据集的147篇科学文章。问题和答案是之后进行的注释。

谁是源语言生成者?

[需要更多信息]

注释

注释过程

虽然注释者是志愿者,但他们必须至少拥有生物医学科学硕士学位。注释团队由一名医生(G.A.R.)领导,他核查志愿者的资格并手动验证每个问题/答案对。我们使用一个现有的基于Web的注释工具,该工具由deepset创建,并可在他们的Neural Search框架 haystack 中获得。

注释者是谁?

这些注释者是15名志愿者生物医学专家,他们研究与COVID-19相关的科学文章。

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

该数据集旨在帮助构建为临床和科学研究人员、公共卫生机构和一线工作者提供服务的问答模型。这些问答系统可以帮助他们从科学文章中找到答案和模式,定位与常见问题相关的答案。

偏见讨论

[需要更多信息]

其他已知限制

附加信息

首页上列出的作者正在维护/支持此数据集。

数据集策展者

[需要更多信息]

许可信息

COVID-QA数据集根据 Apache License 2.0 许可

引用信息

@inproceedings{moller2020covid,
  title={COVID-QA: A Question Answering Dataset for COVID-19},
  author={M{\"o}ller, Timo and Reina, Anthony and Jayakumar, Raghavan and Pietsch, Malte},
  booktitle={Proceedings of the 1st Workshop on NLP for COVID-19 at ACL 2020},
  year={2020}
}

贡献

感谢 @olinguyen 添加了这个数据集。