数据集:

bigbio/biomrc

语言:

en

计算机处理:

monolingual
英文

BIOMRC 数据集卡片

我们介绍了 BIOMRC,这是一个大规模的生物医学 MRC 数据集。与 Pappas 等人 (2018) 的先前的 BIOREAD 数据集相比,我们采取了措施来减少噪音。实验表明,在这个新数据集上,简单的启发式方法表现不佳,而两个在 BIOREAD 上进行过测试的神经 MRC 模型在 BIOMRC 上表现更好,这表明新的数据集确实噪音较少,或者至少其任务更可行。与 BIOREAD 相比,非专业人员在新数据集上的表现也更好,而生物医学专家的表现甚至更好。我们还推出了一种基于 BERT 的 MRC 模型,其最佳版本在某些实验中明显优于所有其他测试方法,并达到了或超过了生物医学专家的准确性。我们提供了三种不同大小的新数据集,同时发布了我们的代码,并提供排行榜。

引用信息

@inproceedings{pappas-etal-2020-biomrc,
    title = "{B}io{MRC}: A Dataset for Biomedical Machine Reading Comprehension",
    author = "Pappas, Dimitris  and
      Stavropoulos, Petros  and
      Androutsopoulos, Ion  and
      McDonald, Ryan",
    booktitle = "Proceedings of the 19th SIGBioMed Workshop on Biomedical Language Processing",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.bionlp-1.15",
    pages = "140--149",
}