模型:

allenai/scibert_scivocab_cased

英文

SciBERT

这是在 SciBERT: A Pretrained Language Model for Scientific Text 中提出的预训练模型,它是一个在科学文本上训练的BERT模型。

训练语料库来自 Semantic Scholar 中的论文。语料库大小为1.14M篇论文,3.1B个标记。我们在训练中使用论文的全文,而不仅仅是摘要。

SciBERT拥有自己的词片段词汇表(scivocab),其构建目的是为了最好地匹配训练语料库。我们训练了大小写敏感和大小写不敏感的版本。

可用的模型包括:

  • scibert_scivocab_cased
  • scibert_scivocab_uncased

原始存储库可以在 here 中找到。

如果使用这些模型,请引用以下论文:

@inproceedings{beltagy-etal-2019-scibert,
    title = "SciBERT: A Pretrained Language Model for Scientific Text",
    author = "Beltagy, Iz  and Lo, Kyle  and Cohan, Arman",
    booktitle = "EMNLP",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/D19-1371"
}