数据集:

medalpaca/medical_meadow_medqa

任务:

问答

语言:

en zh

其他:

medical
英文

MedQA数据集卡片

数据集概述

这是论文《What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams》的数据和基线源代码。

https://github.com/jind11/MedQA 提供了包含问答和教科书的数据的下载链接。关于数据的一些细节如下所述:

对于问答,我们有三个来源:美国、中国大陆和台湾地区,它们分别放在不同的文件夹中。所有问答数据文件都以jsonl格式存储,每一行都是一个数据样本,表示为一个字典。"XX_qbank.jsonl"文件包含所有的数据样本,同时我们还提供了官方的随机划分为训练、验证和测试集的版本。"metamap"文件夹中的文件是使用Metamap工具提取的与医学相关的短语。

对于问答,我们还包括了美国和中国大陆的"4_options"版本,因为我们在论文中报告了4个选项的结果。

关于教科书,我们提供了两种语言:英文和简体中文。对于简体中文,我们提供了两种句子分割方式:一种是按句子分割,另一种是按段落分割。

引用信息

@article{jin2020disease,
  title={What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams},
  author={Jin, Di and Pan, Eileen and Oufattole, Nassim and Weng, Wei-Hung and Fang, Hanyi and Szolovits, Peter},
  journal={arXiv preprint arXiv:2009.13081},
  year={2020}
}