数据集:

medical_dialog

任务:

问答

语言:

en zh

计算机处理:

monolingual

大小:

1M<n<10M

批注创建人:

found

源数据集:

original

预印本库:

arxiv:2004.03329
英文

MedDialog 数据集卡片

数据集摘要

MedDialog 数据集(中文版)包含医生和患者之间的对话(用中文进行)。数据集包含 110 万个对话和 400 万个话语。数据集在不断增长,并会添加更多的对话。原始对话来自 haodf.com 网站。所有数据的版权归 haodf.com 所有。

MedDialog 数据集(英文版)包含医生和患者之间的对话(用英文进行)。数据集包含 26 万个对话。数据集在不断增长,并会添加更多的对话。原始对话来自 healthcaremagic.com 和 icliniq.com 网站。所有数据的版权归 healthcaremagic.com 和 icliniq.com 所有。

首页提供了使用 PyTorch 和 BERT 进行预训练模型的使用指南。

支持的任务和排行榜

关闭领域常见问题解答(qa)

语言

单语言。数据集包含英文(EN)和中文(ZH)的数据。

数据集结构

数据实例

有 4 种配置:

  • 原始数据:
    • en
    • zh
  • 处理后的数据:
    • processed.en
    • processed.zh
en

每个咨询包括以下内容:

  • ID
  • URL
  • 患者病情描述
  • 对话

数据集构建于 icliniq.com healthcaremagic.com healthtap.com 等,并且所有数据的版权归这些网站所有。

zh

每个咨询包括以下内容:

  • ID
  • URL
  • 患者病情描述
  • 对话
  • (可选)诊断和建议

数据集构建于 Haodf.com ,并且所有数据的版权归 Haodf.com 所有。

中文的一个例子是

{
{'dialogue_id': 2,
  'dialogue_turns': [{'speaker': '病人',
    'utterance': '孩子哭闹时,鸡鸡旁边会肿起,情绪平静时肿块会消失,去一个私人诊所看过,说是疝气.如果确定是疝气,是不是一定要手术治疗?我孩子只有1岁10月,自愈的可能性大吗?如果一定要手术,这么小的孩子风险大吗?术后的恢复困难吗?谢谢.'},
   {'speaker': '医生', 'utterance': '南方医的B超说得不清楚,可能是鞘膜积液,可到我医院复查一个B超。'}],
  'dialogue_url': 'https://www.haodf.com/doctorteam/flow_team_6477251152.htm',
  'file_name': '2020.txt'},
}
processed.en
{
  'description': 'throat a bit sore and want to get a good imune booster, especially in light of the virus. please advise. have not been in contact with nyone with the virus.',
  'utterances': [
    'patient: throat a bit sore and want to get a good imune booster, especially in light of the virus. please advise. have not been in contact with nyone with the virus.',
    "doctor: during this pandemic. throat pain can be from a strep throat infection (antibiotics needed), a cold or influenza or other virus, or from some other cause such as allergies or irritants. usually, a person sees the doctor (call first) if the sore throat is bothersome, recurrent, or doesn't go away quickly. covid-19 infections tend to have cough, whereas strep throat usually lacks cough but has more throat pain. (3/21/20)"
  ]
}
processed.zh
{
  'utterances': [
    '病人:强制性脊柱炎,晚上睡觉翻身时腰骶骨区域疼痛,其他身体任何部位均不疼痛。', 
    '医生:应该没有问题,但最好把图像上传看看。'
  ]
}

数据字段

仅在生成 QA 时考虑以下字段:

  • ID:咨询识别符(每个文件重新开始)
  • URL:提取对话的链接
  • 对话:医生和患者之间的对话

在准备好的数据集中,它们按如下方式安排。每个项目将用这些参数表示。

  • "file_name":string - 表示提取对话的文件
  • "dialogue_id":int32 - 对话 id
  • "dialogue_url":string - 对话的链接
  • "dialogue_turns":datasets.Sequence - 患者和医生之间的对话序列。每个回合包括 ClassLabel(names=["病人", "医生"])和 "utterance"(字符串)。(英文中为 ClassLabel(names=["Patient", "Doctor"]))
processed.en
  • 描述(str):对话的描述
  • utterances(字符串列表):医患之间的对话
processed.zh
  • utterances(字符串列表):医患之间的对话

数据拆分

原始原始数据没有数据拆分。每种语言的 "train" 拆分包含:

  • en:229674 个示例
  • zh:1921127 个示例

对于处理后的配置,数据被拆分为训练、验证和测试集,具体示例数如下:

train validation test
processed.en 482 60 61
processed.zh 2725989 340748 340754

数据集创建

策划原因

医疗对话系统在协助远程医疗上有着广阔的前景,可以提高医疗服务的可及性、改善患者护理质量并降低医疗成本。

数据来源

初始数据收集和归一化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

未知。

引用信息

@article{chen2020meddiag,
  title={MedDialog: a large-scale medical dialogue dataset},
  author={Chen, Shu and Ju, Zeqian and Dong, Xiangyu and Fang, Hongchao and Wang, Sicheng and Yang, Yue and Zeng, Jiaqi and Zhang, Ruisi and Zhang, Ruoyu and Zhou, Meng and Zhu, Penghui and Xie, Pengtao},
  journal={arXiv preprint arXiv:2004.03329}, 
  year={2020}
}

贡献者

感谢 @vrindaprabhu 添加了该数据集。