BioRedditBERT

模型描述

BioRedditBERT是一个基于BioBERT（BioBERT-Base v1.0 + PubMed 200K + PMC 270K）初始化的BERT模型，并在与健康相关的Reddit帖子上进行了进一步的预训练。有关详细信息，请参阅我们的论文 COMETA: A Corpus for Medical Entity Linking in the Social Media （EMNLP 2020）。

训练数据

我们爬取了所有健康主题的68个Subreddit的帖子，例如r/AskDocs，r/health等，时间从2015年初到2018年底，获得了超过800K个讨论的集合。然后通过删除已删除的帖子、机器人或版主的评论等方式对该集合进行了修剪。最终，我们得到了训练语料库，约有3亿个标记和约780,000个词汇。

训练过程

我们在原始 google-research/bert 代码库中使用相同的预训练脚本。模型使用 BioBERT-Base v1.0 + PubMed 200K + PMC 270K 进行初始化。我们使用64的批量大小、64的最大序列长度、2e-5的学习率，在两个GeForce GTX 1080Ti（11 GB）GPU上进行10万个步骤的训练。其他超参数与默认设置相同。

评估结果

为了展示在社交媒体领域进一步预训练的好处，我们在社交媒体上也使用了医学实体链接数据集进行了实验，即 AskAPatient 和 (Limsopatham and Collier 2016) 。我们对所有模型采用相同的10折交叉验证过程，并报告未进行微调的平均结果。实体提及的表示使用[CLS]（我们还尝试过所有标记的平均值，但发现[CLS]通常表现更好）。

Model	Accuracy@1	Accuracy@5
1236321	38.2	43.3
1237321	41.4	51.5
1238321	43.9	54.3
1239321	41.5	48.5
12310321	42.3	51.9
12311321	42.5	49.6
BioRedditBERT	44.3	56.2

BibTeX条目和引文信息

@inproceedings{basaldella-2020-cometa,
    title = "{COMETA}: A Corpus for Medical Entity Linking in the Social Media",
    author = "Basaldella, Marco  and Liu, Fangyu, and Shareghi, Ehsan, and Collier, Nigel",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2020",
    publisher = "Association for Computational Linguistics"
}

作者:

Language Technology Lab @University of Cambridge

数据集大小:

1.61 GB