数据集:
bigbio/biomrc
我们介绍了 BIOMRC,这是一个大规模的生物医学 MRC 数据集。与 Pappas 等人 (2018) 的先前的 BIOREAD 数据集相比,我们采取了措施来减少噪音。实验表明,在这个新数据集上,简单的启发式方法表现不佳,而两个在 BIOREAD 上进行过测试的神经 MRC 模型在 BIOMRC 上表现更好,这表明新的数据集确实噪音较少,或者至少其任务更可行。与 BIOREAD 相比,非专业人员在新数据集上的表现也更好,而生物医学专家的表现甚至更好。我们还推出了一种基于 BERT 的 MRC 模型,其最佳版本在某些实验中明显优于所有其他测试方法,并达到了或超过了生物医学专家的准确性。我们提供了三种不同大小的新数据集,同时发布了我们的代码,并提供排行榜。
@inproceedings{pappas-etal-2020-biomrc, title = "{B}io{MRC}: A Dataset for Biomedical Machine Reading Comprehension", author = "Pappas, Dimitris and Stavropoulos, Petros and Androutsopoulos, Ion and McDonald, Ryan", booktitle = "Proceedings of the 19th SIGBioMed Workshop on Biomedical Language Processing", month = jul, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.bionlp-1.15", pages = "140--149", }