预训练大型神经语言模型,如BERT和ELECTRA,在许多自然语言处理(NLP)任务上取得了令人印象深刻的改进。然而,大多数预训练工作都集中在通用领域的语料库上,例如新闻稿和Web。一个普遍的假设是,即使是领域特定的预训练也可以从通用领域的语言模型开始受益。 Recent work 表明,对于具有丰富无标签文本的领域(如生物医学),从头开始预训练语言模型比继续预训练通用领域语言模型能够带来显著的收益。 Followup work 探讨了替代的预训练策略及其对BLURB基准测试性能的影响。
这个PubMedELECTRA是使用来自 PubMed 的摘要从头开始预训练的。
如果您在研究中发现PubMedELECTRA有用,请引用以下论文:
@misc{https://doi.org/10.48550/arxiv.2112.07869, doi = {10.48550/ARXIV.2112.07869}, url = {https://arxiv.org/abs/2112.07869}, author = {Tinn, Robert and Cheng, Hao and Gu, Yu and Usuyama, Naoto and Liu, Xiaodong and Naumann, Tristan and Gao, Jianfeng and Poon, Hoifung}, keywords = {Computation and Language (cs.CL), Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences}, title = {Fine-Tuning Large Neural Language Models for Biomedical Natural Language Processing}, publisher = {arXiv}, year = {2021}, copyright = {arXiv.org perpetual, non-exclusive license} }