模型:
CLTL/MedRoBERTa.nl
这个模型是基于RoBERTa的模型,是从荷兰电子健康记录中获取的医院笔记开始的训练。该模型没有进行微调。有关MedRoBERTa.nl的创建所使用的所有代码可在 https://github.com/cltl-students/verkijk_stella_rma_thesis_dutch_medical_language_model 处找到。
该模型可以在任何类型的任务上进行微调。由于它是在医疗数据上训练的领域特定模型,因此适用于荷兰语的医疗自然语言处理任务。
该模型是使用阿姆斯特丹大学医学中心的近1000万个医院笔记进行训练的。在开始预训练过程之前,训练数据已进行了匿名处理。
通过对训练数据进行匿名处理,确保模型没有学习到与姓名相关的任何代表性关联。除了训练数据外,模型的词汇表也经过了匿名处理。这确保了模型无法在生成填充掩码任务中预测任何姓名。
Stella Verkijk, Piek Vossen
论文:Verkijk, S. & Vossen, P. (2022) MedRoBERTa.nl:用于荷兰电子健康记录的语言模型。《荷兰计算语言学杂志》,第11期。