模型:

cambridgeltl/BioRedditBERT-uncased

英文

BioRedditBERT

模型描述

BioRedditBERT是一个基于BioBERT(BioBERT-Base v1.0 + PubMed 200K + PMC 270K)初始化的BERT模型,并在与健康相关的Reddit帖子上进行了进一步的预训练。有关详细信息,请参阅我们的论文 COMETA: A Corpus for Medical Entity Linking in the Social Media (EMNLP 2020)。

训练数据

我们爬取了所有健康主题的68个Subreddit的帖子,例如r/AskDocs,r/health等,时间从2015年初到2018年底,获得了超过800K个讨论的集合。然后通过删除已删除的帖子、机器人或版主的评论等方式对该集合进行了修剪。最终,我们得到了训练语料库,约有3亿个标记和约780,000个词汇。

训练过程

我们在原始 google-research/bert 代码库中使用相同的预训练脚本。模型使用 BioBERT-Base v1.0 + PubMed 200K + PMC 270K 进行初始化。我们使用64的批量大小、64的最大序列长度、2e-5的学习率,在两个GeForce GTX 1080Ti(11 GB)GPU上进行10万个步骤的训练。其他超参数与默认设置相同。

评估结果

为了展示在社交媒体领域进一步预训练的好处,我们在社交媒体上也使用了医学实体链接数据集进行了实验,即 AskAPatient (Limsopatham and Collier 2016) 。我们对所有模型采用相同的10折交叉验证过程,并报告未进行微调的平均结果。实体提及的表示使用[CLS](我们还尝试过所有标记的平均值,但发现[CLS]通常表现更好)。

Model Accuracy@1 Accuracy@5
1236321 38.2 43.3
1237321 41.4 51.5
1238321 43.9 54.3
1239321 41.5 48.5
12310321 42.3 51.9
12311321 42.5 49.6
BioRedditBERT 44.3 56.2

BibTeX条目和引文信息

@inproceedings{basaldella-2020-cometa,
    title = "{COMETA}: A Corpus for Medical Entity Linking in the Social Media",
    author = "Basaldella, Marco  and Liu, Fangyu, and Shareghi, Ehsan, and Collier, Nigel",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2020",
    publisher = "Association for Computational Linguistics"
}