数据集:

covid_qa_ucsd

任务:

问答

语言:

en zh

计算机处理:

monolingual

批注创建人:

found

源数据集:

original

预印本库:

arxiv:2005.05442
英文

[数据集名称] 数据集卡片

数据集概述

COVID-Dialogue-Dataset-English 是关于COVID-19和其他类型肺炎的英文医疗对话数据集。担心感染COVID-19或其他肺炎的患者向医生咨询并且医生提供建议。数据集中包含603个咨询。

COVID-Dialogue-Dataset-Chinese 是关于COVID-19和其他类型肺炎的中文医疗对话数据集。担心感染COVID-19或其他肺炎的患者向医生咨询并且医生提供建议。数据集中包含1393个咨询。

数据集以单个文本文件形式呈现。中文数据集为COVID-Dialogue-Dataset-Chinese.txt,英文数据集为COVID-Dialogue-Dataset-English.txt。

支持的任务和排行榜

用于问答任务。还有一个可用于中文数据的COVID-19对话生成模型。预印版和更多信息可在 this arxiv pre-print 找到。

语言

单语言。数据集以英文(EN)和中文(ZH)形式呈现。

数据集结构

数据实例

对话示例:

{
    'dialogue_id': 602, 
    'dialogue_url': 'https://www.healthtap.com/member/fg?page=/search/covid', 
    'dialogue_turns': [{'speaker': 'Patient', 
                'utterance': 'Can coronavirus symptoms be mild for some people versus severe? For example, could it just involve being very fatigued, low grade fever for a few days and not the extreme symptoms? Or is it always a full blown cold and struggle to breathe?Can coronavirus symptoms be mild for some people versus severe? For example, could it just involve being very fatigued, low grade fever for a few days and not the extreme symptoms? Or is it always a full blown cold and struggle to breathe?'}, 
                           {'speaker': 'Doctor', 
                            'utterance': 'In brief:   Symptoms vary.   Some may have no symptoms at all. Some can be life threatening.   Would you like to video or text chat with me?'}]
}

数据集基于 icliniq.com healthcaremagic.com healthtap.com 构建,所有数据的版权归这些网站所有(适用于英文)。

数据集基于 Haodf.com 构建,所有数据的版权归 Haodf.com 所有(适用于中文)。

数据字段

每个咨询包含以下字段:

  • ID
  • URL
  • 患者病情描述
  • 对话
  • 诊断和建议(可选,主要用于中文数据)

为了生成QA,只考虑了以下字段:

  • ID:咨询标识符(每个文件重新开始计数)
  • URL:提取对话的网址链接
  • 对话:医生和患者之间的对话

在准备好的数据集中,它们的排列如下所示。每个元素将用这些参数表示。

  • "文件名":字符串 - 表示对话提取自的文件
  • "对话ID":int32 - 对话ID
  • "对话URL":字符串 - 对话的网址
  • "对话轮次":datasets.Sequence - 患者和医生之间的对话序列。对于每一轮,包括ClassLabel(names=["病人", "医生"])和"utterance"(字符串)。(对于英文,是ClassLabel(names=["Patient", "Doctor"]))

数据拆分

原始数据中没有拆分数据。

数据集创建

策划理由

[需要更多信息]

源数据

开始数据收集和规范化

[需要更多信息]

源语言生产者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@article{ju2020CovidDialog, title={CovidDialog: Medical Dialogue Datasets about COVID-19}, author={Ju, Zeqian and Chakravorty, Subrato and He, Xuehai and Chen, Shu and Yang, Xingyi and Xie, Pengtao}, journal={ https://github.com/UCSD-AI4H/COVID-Dialogue} , year={2020}}

贡献者

特别感谢 @vrindaprabhu 添加此数据集。