MedRoBERTa.nl

描述

这个模型是基于RoBERTa的模型，是从荷兰电子健康记录中获取的医院笔记开始的训练。该模型没有进行微调。有关MedRoBERTa.nl的创建所使用的所有代码可在 https://github.com/cltl-students/verkijk_stella_rma_thesis_dutch_medical_language_model 处找到。

该模型可以在任何类型的任务上进行微调。由于它是在医疗数据上训练的领域特定模型，因此适用于荷兰语的医疗自然语言处理任务。

该模型是使用阿姆斯特丹大学医学中心的近1000万个医院笔记进行训练的。在开始预训练过程之前，训练数据已进行了匿名处理。

通过对训练数据进行匿名处理，确保模型没有学习到与姓名相关的任何代表性关联。除了训练数据外，模型的词汇表也经过了匿名处理。这确保了模型无法在生成填充掩码任务中预测任何姓名。

Stella Verkijk, Piek Vossen

论文：Verkijk, S. & Vossen, P. (2022) MedRoBERTa.nl：用于荷兰电子健康记录的语言模型。《荷兰计算语言学杂志》，第11期。

作者:

CLTL FGW VU

数据集大小:

482.23 MB