数据集:
covid_qa_ucsd
任务:
问答子任务:
closed-domain-qa计算机处理:
monolingual批注创建人:
found源数据集:
original预印本库:
arxiv:2005.05442许可:
license:unknownCOVID-Dialogue-Dataset-English 是关于COVID-19和其他类型肺炎的英文医疗对话数据集。担心感染COVID-19或其他肺炎的患者向医生咨询并且医生提供建议。数据集中包含603个咨询。
COVID-Dialogue-Dataset-Chinese 是关于COVID-19和其他类型肺炎的中文医疗对话数据集。担心感染COVID-19或其他肺炎的患者向医生咨询并且医生提供建议。数据集中包含1393个咨询。
数据集以单个文本文件形式呈现。中文数据集为COVID-Dialogue-Dataset-Chinese.txt,英文数据集为COVID-Dialogue-Dataset-English.txt。
用于问答任务。还有一个可用于中文数据的COVID-19对话生成模型。预印版和更多信息可在 this arxiv pre-print 找到。
单语言。数据集以英文(EN)和中文(ZH)形式呈现。
对话示例:
{ 'dialogue_id': 602, 'dialogue_url': 'https://www.healthtap.com/member/fg?page=/search/covid', 'dialogue_turns': [{'speaker': 'Patient', 'utterance': 'Can coronavirus symptoms be mild for some people versus severe? For example, could it just involve being very fatigued, low grade fever for a few days and not the extreme symptoms? Or is it always a full blown cold and struggle to breathe?Can coronavirus symptoms be mild for some people versus severe? For example, could it just involve being very fatigued, low grade fever for a few days and not the extreme symptoms? Or is it always a full blown cold and struggle to breathe?'}, {'speaker': 'Doctor', 'utterance': 'In brief: Symptoms vary. Some may have no symptoms at all. Some can be life threatening. Would you like to video or text chat with me?'}] }
数据集基于 icliniq.com 、 healthcaremagic.com 、 healthtap.com 构建,所有数据的版权归这些网站所有(适用于英文)。
数据集基于 Haodf.com 构建,所有数据的版权归 Haodf.com 所有(适用于中文)。
每个咨询包含以下字段:
为了生成QA,只考虑了以下字段:
在准备好的数据集中,它们的排列如下所示。每个元素将用这些参数表示。
原始数据中没有拆分数据。
[需要更多信息]
[需要更多信息]
源语言生产者是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@article{ju2020CovidDialog, title={CovidDialog: Medical Dialogue Datasets about COVID-19}, author={Ju, Zeqian and Chakravorty, Subrato and He, Xuehai and Chen, Shu and Yang, Xingyi and Xie, Pengtao}, journal={ https://github.com/UCSD-AI4H/COVID-Dialogue} , year={2020}}
特别感谢 @vrindaprabhu 添加此数据集。