模型:

allenai/biomed_roberta_base

英文

BioMed-RoBERTa-base

BioMed-RoBERTa-base 是基于 RoBERTa-base(Liu et. al, 2019)架构的语言模型。通过继续预训练的方式,我们将 RoBERTa-base 适应了来自 Semantic Scholar 语料库的 268 万篇科学论文。这相当于 75.5 十亿个标记和 47GB 的数据。我们在训练中使用的是论文的全文,而不仅仅是摘要。

自适应预训练过程的具体细节可以在 Gururangan et. al, 2020 中找到。

评估

BioMed-RoBERTa 在生物医学领域的一些自然语言处理任务上取得了与最先进模型相竞争的性能(数字是基于 3+ 个随机种子的平均值(标准偏差))

Task Task Type RoBERTa-base BioMed-RoBERTa-base
RCT-180K Text Classification 86.4 (0.3) 86.9 (0.2)
ChemProt Relation Extraction 81.1 (1.1) 83.0 (0.7)
JNLPBA NER 74.3 (0.2) 75.2 (0.1)
BC5CDR NER 85.6 (0.1) 87.8 (0.1)
NCBI-Disease NER 86.6 (0.3) 87.1 (0.8)

更多评估待定。

引用

如果使用此模型,请引用以下论文:

@inproceedings{domains,
 author = {Suchin Gururangan and Ana Marasović and Swabha Swayamdipta and Kyle Lo and Iz Beltagy and Doug Downey and Noah A. Smith},
 title = {Don't Stop Pretraining: Adapt Language Models to Domains and Tasks},
 year = {2020},
 booktitle = {Proceedings of ACL},
}