数据集:

FreedomIntelligence/huatuo_encyclopedia_qa

语言:

zh

大小:

100K<n<1M

预印本库:

arxiv:2305.01526

其他:

medical

许可:

apache-2.0
英文

Huatuo_encyclopedia_qa 数据集卡片

数据集摘要

该数据集共有364,420个医疗问答数据,其中一些以不同的方式提出多个问题。我们从普通文本(例如医学百科全书和医学文章)中提取医疗问答对。我们从中文维基百科收集了8,699个疾病百科词条和2,736个药物百科词条。此外,我们从千闻健康网站爬取了226,432篇高质量医疗文章。

数据集创建

源数据

https://zh.wikipedia.org/wiki/

https://51zyzy.com/

引用

@misc{li2023huatuo26m,
      title={Huatuo-26M, a Large-scale Chinese Medical QA Dataset}, 
      author={Jianquan Li and Xidong Wang and Xiangbo Wu and Zhiyi Zhang and Xiaolong Xu and Jie Fu and Prayag Tiwari and Xiang Wan and Benyou Wang},
      year={2023},
      eprint={2305.01526},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}