数据集:

bigbio/pubmed_qa

语言:

en

计算机处理:

monolingual

许可:

mit
英文

PubMedQA 数据集卡片

PubMedQA 是从 PubMed 文摘中收集的一种新型生物医学问答(QA)数据集。PubMedQA 的任务是使用相应的摘要回答研究生物医学问题,以是/否/可能的形式回答。PubMedQA 包括1k 专家注释(PQA-L),61.2k 无标签(PQA-U)和211.3k 人工生成的 QA 实例(PQA-A)。

每个 PubMedQA 实例由以下内容组成: (1)问题,可以是现有的研究文章标题或者从研究文章中衍生出来的;(2)上下文,是不带结论的相应的 PubMed 摘要;(3)长答案,是摘要的结论,预计回答研究问题;(4)是/否/可能的答案,总结结论。

PubMedQA 是第一个需要对生物医学研究文本进行推理,特别是其定量内容的问答数据集。

PubMedQA 数据集包括3个不同的子集:(1)PubMedQA Labeled(PQA-L):一个带有标签的 PubMedQA 子集,包含了从 PubMed 文章中收集的1k 个手动注释的是/否/可能的问答数据;(2)PubMedQA Artificial(PQA-A):一个带有人工标注的 PubMedQA 子集,包含了211.3k 个 PubMed 文章,根据论文标题自动生成的问题和使用简单启发式方法生成的是/否答案标签;(3)PubMedQA Unlabeled(PQA-U):一个无标签的 PubMedQA 子集,包含了从 PubMed 文章中收集的61.2k 个上下文-问题对数据。

引用信息

@inproceedings{jin2019pubmedqa,
  title={PubMedQA: A Dataset for Biomedical Research Question Answering},
  author={Jin, Qiao and Dhingra, Bhuwan and Liu, Zhengping and Cohen, William and Lu, Xinghua},
  booktitle={Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)},
  pages={2567--2577},
  year={2019}
}