数据集:

covid_qa_deepset

任务:

问答

子任务:

closed-domain-qa extractive-qa

语言:

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

许可:

apache-2.0

数据集介绍文件清单

英文

COVID-QA 数据集卡片

数据集摘要

COVID-QA 是一个包含2019个问题/回答对的问答数据集，由志愿生物医学专家在与COVID-19相关的科学文章上进行了注释。总共有15位专家对来自CORD-19数据集的147篇科学文章进行了注释。

支持的任务和排行榜

[需要更多信息]

语言

数据集中的文本是英文。

数据集结构

数据实例

数据集中的实例代表什么？每个实例代表一个问题，一个上下文（来自CORD19数据集的文档段落）和一个答案。

总共有多少个实例？2019个实例

每个实例由什么数据组成？每个实例都有一个问题、一组答案和与每个答案相关联的id。

[需要更多信息]

数据字段

数据按照SQuAD的风格进行了注释，每一行包含以下内容：

问题：查询问题
上下文：从中获取答案的上下文文本
document_id：上下文文本的文档ID
答案：包含答案字符串和起始索引的字典

数据拆分

data/COVID-QA.json：由志愿生物医学专家在与COVID-19相关的科学文章上进行的2019个问题/答案对的注释。

[需要更多信息]

数据集创建

策展理由

[需要更多信息]

数据源

初始数据收集和归一化

最初收集的数据来自CORD-19数据集的147篇科学文章。问题和答案是之后进行的注释。

谁是源语言生成者？

[需要更多信息]

注释

注释过程

虽然注释者是志愿者，但他们必须至少拥有生物医学科学硕士学位。注释团队由一名医生（G.A.R.）领导，他核查志愿者的资格并手动验证每个问题/答案对。我们使用一个现有的基于Web的注释工具，该工具由deepset创建，并可在他们的Neural Search框架 haystack 中获得。

注释者是谁？

这些注释者是15名志愿者生物医学专家，他们研究与COVID-19相关的科学文章。

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

该数据集旨在帮助构建为临床和科学研究人员、公共卫生机构和一线工作者提供服务的问答模型。这些问答系统可以帮助他们从科学文章中找到答案和模式，定位与常见问题相关的答案。

偏见讨论

[需要更多信息]

其他已知限制

附加信息

首页上列出的作者正在维护/支持此数据集。

数据集策展者

[需要更多信息]

许可信息

COVID-QA数据集根据 Apache License 2.0 许可

引用信息

@inproceedings{moller2020covid,
  title={COVID-QA: A Question Answering Dataset for COVID-19},
  author={M{\"o}ller, Timo and Reina, Anthony and Jayakumar, Raghavan and Pietsch, Malte},
  booktitle={Proceedings of the 1st Workshop on NLP for COVID-19 at ACL 2020},
  year={2020}
}

贡献

感谢 @olinguyen 添加了这个数据集。

作者:

佚名

数据集大小:

13.22 KB