数据集:
medical_dialog
任务:
问答子任务:
closed-domain-qa计算机处理:
monolingual大小:
1M<n<10M批注创建人:
found源数据集:
original预印本库:
arxiv:2004.03329许可:
license:unknownMedDialog 数据集(中文版)包含医生和患者之间的对话(用中文进行)。数据集包含 110 万个对话和 400 万个话语。数据集在不断增长,并会添加更多的对话。原始对话来自 haodf.com 网站。所有数据的版权归 haodf.com 所有。
MedDialog 数据集(英文版)包含医生和患者之间的对话(用英文进行)。数据集包含 26 万个对话。数据集在不断增长,并会添加更多的对话。原始对话来自 healthcaremagic.com 和 icliniq.com 网站。所有数据的版权归 healthcaremagic.com 和 icliniq.com 所有。
首页提供了使用 PyTorch 和 BERT 进行预训练模型的使用指南。
关闭领域常见问题解答(qa)
单语言。数据集包含英文(EN)和中文(ZH)的数据。
有 4 种配置:
每个咨询包括以下内容:
数据集构建于 icliniq.com , healthcaremagic.com , healthtap.com 等,并且所有数据的版权归这些网站所有。
zh每个咨询包括以下内容:
数据集构建于 Haodf.com ,并且所有数据的版权归 Haodf.com 所有。
中文的一个例子是
{ {'dialogue_id': 2, 'dialogue_turns': [{'speaker': '病人', 'utterance': '孩子哭闹时,鸡鸡旁边会肿起,情绪平静时肿块会消失,去一个私人诊所看过,说是疝气.如果确定是疝气,是不是一定要手术治疗?我孩子只有1岁10月,自愈的可能性大吗?如果一定要手术,这么小的孩子风险大吗?术后的恢复困难吗?谢谢.'}, {'speaker': '医生', 'utterance': '南方医的B超说得不清楚,可能是鞘膜积液,可到我医院复查一个B超。'}], 'dialogue_url': 'https://www.haodf.com/doctorteam/flow_team_6477251152.htm', 'file_name': '2020.txt'}, }processed.en
{ 'description': 'throat a bit sore and want to get a good imune booster, especially in light of the virus. please advise. have not been in contact with nyone with the virus.', 'utterances': [ 'patient: throat a bit sore and want to get a good imune booster, especially in light of the virus. please advise. have not been in contact with nyone with the virus.', "doctor: during this pandemic. throat pain can be from a strep throat infection (antibiotics needed), a cold or influenza or other virus, or from some other cause such as allergies or irritants. usually, a person sees the doctor (call first) if the sore throat is bothersome, recurrent, or doesn't go away quickly. covid-19 infections tend to have cough, whereas strep throat usually lacks cough but has more throat pain. (3/21/20)" ] }processed.zh
{ 'utterances': [ '病人:强制性脊柱炎,晚上睡觉翻身时腰骶骨区域疼痛,其他身体任何部位均不疼痛。', '医生:应该没有问题,但最好把图像上传看看。' ] }
仅在生成 QA 时考虑以下字段:
在准备好的数据集中,它们按如下方式安排。每个项目将用这些参数表示。
原始原始数据没有数据拆分。每种语言的 "train" 拆分包含:
对于处理后的配置,数据被拆分为训练、验证和测试集,具体示例数如下:
train | validation | test | |
---|---|---|---|
processed.en | 482 | 60 | 61 |
processed.zh | 2725989 | 340748 | 340754 |
医疗对话系统在协助远程医疗上有着广阔的前景,可以提高医疗服务的可及性、改善患者护理质量并降低医疗成本。
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
未知。
@article{chen2020meddiag, title={MedDialog: a large-scale medical dialogue dataset}, author={Chen, Shu and Ju, Zeqian and Dong, Xiangyu and Fang, Hongchao and Wang, Sicheng and Yang, Yue and Zeng, Jiaqi and Zhang, Ruisi and Zhang, Ruoyu and Zhou, Meng and Zhu, Penghui and Xie, Pengtao}, journal={arXiv preprint arXiv:2004.03329}, year={2020} }
感谢 @vrindaprabhu 添加了该数据集。