数据集:

FreedomIntelligence/huatuo_consultation_qa

语言:

zh

大小:

1M<n<10M

预印本库:

arxiv:2305.01526

其他:

medical

许可:

apache-2.0
英文

《huatuo_consultation_qa》数据集卡片

数据集概述

我们从一个在线医疗咨询网站收集了数据,其中包含了医疗专家的许多在线咨询记录。每个记录都是一个问答对:一个病人提出一个问题,医生回答问题。我们记录了医生的基本信息(包括姓名、医院组织和科室)。

我们直接爬取病人的问题和医生的答案作为问答对,得到了32,708,346对。随后,我们删除了包含特殊字符和重复对的问答对。最后,我们得到了25,341,578个问答对。

请注意,由于某些原因,我们不能直接提供文本数据,因此我们数据集中的回答部分是URL。如果您想使用文本数据,您可以参考我们的另外两个开源数据集的部分( huatuo_encyclopedia_qa huatuo_knowledge_graph_qa ),或使用URL进行数据收集。

数据集创建

源数据

...

引用

@misc{li2023huatuo26m,
      title={Huatuo-26M, a Large-scale Chinese Medical QA Dataset}, 
      author={Jianquan Li and Xidong Wang and Xiangbo Wu and Zhiyi Zhang and Xiaolong Xu and Jie Fu and Prayag Tiwari and Xiang Wan and Benyou Wang},
      year={2023},
      eprint={2305.01526},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}