这个模型是 SINAI 团队在 DISease TExt Mining Shared Task (DISTEMIST) 中参与的产物。DISTEMIST-entities 子任务要求自动在临床案例中找到疾病的提及。考虑到数据集中临床文本的长度,我们选择了基于微调的句子级命名实体识别方法,基于一个 RoBERTa model pre-trained on Spanish biomedical corpora 模型。
在电子健康记录上使用生物医学模型可以被视为域间实验,我们的生物医学系统在命名实体识别任务上表现出鼓舞人心的结果,突显了生物医学领域与临床领域之间存在领域转移的潜力。下表总结了此模型在官方评估过程中获得的官方微平均分数。团队排名可在 here 中查看。
Precision | Recall | F1-score |
---|---|---|
0.7520 | 0.7259 | 0.7387 |
系统描述 paper 已发表在第10届BioASQ研讨会论文集中,该研讨会将作为2022年9月5日至8日的CLEF实验室举行:
@inproceedings{ChizhikovaEtAl:CLEF2022, title = {SINAI at CLEF 2022: Leveraging biomedical transformers to detect and normalize disease mentions}, author = {Mariia Chizhikova and Jaime Collado-Montañéz and Pilar López-Úbeda and Manuel C. Díaz-Galiano and L. Alfonso Ureña-López and M. Teresa Martín-Valdivia}, pages = {265--273}, url = {http://ceur-ws.org/Vol-XXX/#paper-17}, crossref = {CLEF2022}}