数据集:
covid_qa_deepset
任务:
问答语言:
en计算机处理:
monolingual大小:
1K<n<10K语言创建人:
found批注创建人:
expert-generated源数据集:
original许可:
apache-2.0COVID-QA 是一个包含2019个问题/回答对的问答数据集,由志愿生物医学专家在与COVID-19相关的科学文章上进行了注释。总共有15位专家对来自CORD-19数据集的147篇科学文章进行了注释。
[需要更多信息]
数据集中的文本是英文。
数据集中的实例代表什么?每个实例代表一个问题,一个上下文(来自CORD19数据集的文档段落)和一个答案。
总共有多少个实例?2019个实例
每个实例由什么数据组成?每个实例都有一个问题、一组答案和与每个答案相关联的id。
[需要更多信息]
数据按照SQuAD的风格进行了注释,每一行包含以下内容:
data/COVID-QA.json:由志愿生物医学专家在与COVID-19相关的科学文章上进行的2019个问题/答案对的注释。
[需要更多信息]
[需要更多信息]
最初收集的数据来自CORD-19数据集的147篇科学文章。问题和答案是之后进行的注释。
谁是源语言生成者?[需要更多信息]
虽然注释者是志愿者,但他们必须至少拥有生物医学科学硕士学位。注释团队由一名医生(G.A.R.)领导,他核查志愿者的资格并手动验证每个问题/答案对。我们使用一个现有的基于Web的注释工具,该工具由deepset创建,并可在他们的Neural Search框架 haystack 中获得。
注释者是谁?这些注释者是15名志愿者生物医学专家,他们研究与COVID-19相关的科学文章。
[需要更多信息]
该数据集旨在帮助构建为临床和科学研究人员、公共卫生机构和一线工作者提供服务的问答模型。这些问答系统可以帮助他们从科学文章中找到答案和模式,定位与常见问题相关的答案。
[需要更多信息]
首页上列出的作者正在维护/支持此数据集。
[需要更多信息]
COVID-QA数据集根据 Apache License 2.0 许可
@inproceedings{moller2020covid, title={COVID-QA: A Question Answering Dataset for COVID-19}, author={M{\"o}ller, Timo and Reina, Anthony and Jayakumar, Raghavan and Pietsch, Malte}, booktitle={Proceedings of the 1st Workshop on NLP for COVID-19 at ACL 2020}, year={2020} }
感谢 @olinguyen 添加了这个数据集。