模型:
cambridgeltl/BioRedditBERT-uncased
BioRedditBERT是一个基于BioBERT(BioBERT-Base v1.0 + PubMed 200K + PMC 270K)初始化的BERT模型,并在与健康相关的Reddit帖子上进行了进一步的预训练。有关详细信息,请参阅我们的论文 COMETA: A Corpus for Medical Entity Linking in the Social Media (EMNLP 2020)。
我们爬取了所有健康主题的68个Subreddit的帖子,例如r/AskDocs,r/health等,时间从2015年初到2018年底,获得了超过800K个讨论的集合。然后通过删除已删除的帖子、机器人或版主的评论等方式对该集合进行了修剪。最终,我们得到了训练语料库,约有3亿个标记和约780,000个词汇。
我们在原始 google-research/bert 代码库中使用相同的预训练脚本。模型使用 BioBERT-Base v1.0 + PubMed 200K + PMC 270K 进行初始化。我们使用64的批量大小、64的最大序列长度、2e-5的学习率,在两个GeForce GTX 1080Ti(11 GB)GPU上进行10万个步骤的训练。其他超参数与默认设置相同。
为了展示在社交媒体领域进一步预训练的好处,我们在社交媒体上也使用了医学实体链接数据集进行了实验,即 AskAPatient 和 (Limsopatham and Collier 2016) 。我们对所有模型采用相同的10折交叉验证过程,并报告未进行微调的平均结果。实体提及的表示使用[CLS](我们还尝试过所有标记的平均值,但发现[CLS]通常表现更好)。
Model | Accuracy@1 | Accuracy@5 |
---|---|---|
1236321 | 38.2 | 43.3 |
1237321 | 41.4 | 51.5 |
1238321 | 43.9 | 54.3 |
1239321 | 41.5 | 48.5 |
12310321 | 42.3 | 51.9 |
12311321 | 42.5 | 49.6 |
BioRedditBERT | 44.3 | 56.2 |
@inproceedings{basaldella-2020-cometa, title = "{COMETA}: A Corpus for Medical Entity Linking in the Social Media", author = "Basaldella, Marco and Liu, Fangyu, and Shareghi, Ehsan, and Collier, Nigel", booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing", month = nov, year = "2020", publisher = "Association for Computational Linguistics" }