模型:
Dr-BERT/CAS-Biomedical-POS-Tagging
近年来,预训练语言模型(PLMs)在各种自然语言处理(NLP)任务中取得了最佳性能。虽然最早的模型是在通用领域数据上进行训练的,但随后出现了更专门针对特定领域的模型,以更有效地处理特定领域的任务。在本文中,我们在法语医学领域提出了对PLMs的独特研究。我们首次比较了在公开数据和医疗机构私有数据上训练的PLMs的性能。我们还评估了不同的学习策略在一组生物医学任务上的表现。最后,我们发布了第一个针对法语生物医学领域的专用PLMs,称为DrBERT,以及用于训练这些模型的最大免费许可医学数据语料库。
Train | Dev | Test | |
---|---|---|---|
Documents | 5,306 | 1,137 | 1,137 |
ESSAIS(Dalloux等,2021)和CAS(Grabar等,2018)语料库分别包含13,848个和7,580个法语临床病例。部分临床病例附带有讨论内容。整个案例集的一个子集还配有形态句法(词性标注,词形还原)和语义(UMLS概念,否定,不确定性)注释。在我们的案例中,我们仅关注词性标注任务。
precision recall f1-score support ABR 0.8683 0.8480 0.8580 171 ADJ 0.9634 0.9751 0.9692 4018 ADV 0.9935 0.9849 0.9892 926 DET:ART 0.9982 0.9997 0.9989 3308 DET:POS 1.0000 1.0000 1.0000 133 INT 1.0000 0.7000 0.8235 10 KON 0.9883 0.9976 0.9929 845 NAM 0.9144 0.9353 0.9247 834 NOM 0.9827 0.9803 0.9815 7980 NUM 0.9825 0.9845 0.9835 1422 PRO:DEM 0.9924 1.0000 0.9962 131 PRO:IND 0.9630 1.0000 0.9811 78 PRO:PER 0.9948 0.9931 0.9939 579 PRO:REL 1.0000 0.9908 0.9954 109 PRP 0.9989 0.9982 0.9985 3785 PRP:det 1.0000 0.9985 0.9993 681 PUN 0.9996 0.9958 0.9977 2376 PUN:cit 0.9756 0.9524 0.9639 84 SENT 1.0000 0.9974 0.9987 1174 SYM 0.9495 1.0000 0.9741 94 VER:cond 1.0000 1.0000 1.0000 11 VER:futu 1.0000 0.9444 0.9714 18 VER:impf 1.0000 0.9963 0.9981 804 VER:infi 1.0000 0.9585 0.9788 193 VER:pper 0.9742 0.9564 0.9652 1261 VER:ppre 0.9617 0.9901 0.9757 203 VER:pres 0.9833 0.9904 0.9868 830 VER:simp 0.9123 0.7761 0.8387 67 VER:subi 1.0000 0.7000 0.8235 10 VER:subp 1.0000 0.8333 0.9091 18 accuracy 0.9842 32153 macro avg 0.9799 0.9492 0.9623 32153 weighted avg 0.9843 0.9842 0.9842 32153
@inproceedings{labrak2023drbert, title = {{DrBERT: A Robust Pre-trained Model in French for Biomedical and Clinical domains}}, author = {Labrak, Yanis and Bazoge, Adrien and Dufour, Richard and Rouvier, Mickael and Morin, Emmanuel and Daille, Béatrice and Gourraud, Pierre-Antoine}, booktitle = {Proceedings of the 61th Annual Meeting of the Association for Computational Linguistics (ACL'23), Long Paper}, month = july, year = 2023, address = {Toronto, Canada}, publisher = {Association for Computational Linguistics} }