模型:

emilyalsentzer/Bio_ClinicalBERT

英文

ClinicalBERT - Bio + Clinical BERT 模型

这篇论文介绍了四个独特的clinicalBERT模型:初始化为BERT-Base (cased_L-12_H-768_A-12)或BioBERT (BioBERT-Base v1.0 + PubMed 200K + PMC 270K),并且训练使用了全部MIMIC的记录或仅使用出院总结。

这个模型卡描述了Bio+Clinical BERT模型,该模型是从 BioBERT 开始初始化,并在所有MIMIC的记录上进行训练。

预训练数据

Bio_ClinicalBERT模型在数据库 MIMIC III 中的所有记录上进行了训练,该数据库包含来自马萨诸塞州波士顿的贝斯以色列医院( Beth Israel Hospital )的重症监护室患者的电子病历。有关MIMIC的详细信息,请参阅 here 。包含了NOTEEVENTS表中的所有记录(约880M个词)。

模型预训练

注意事项预处理

首先,使用基于规则的section splitter将MIMIC中的每个记录划分为不同的部分(例如,出院总结记录被划分为“目前病史”,“家族病史”,“住院经过简介”等部分)。然后,使用SciSpacy (en_core_sci_md分词器)将每个部分划分为句子。

预训练过程

该模型使用 Google's BERT repository 中的代码在一台GeForce GTX TITAN X 12 GB GPU上进行了训练。模型参数初始化使用了BioBERT (BioBERT-Base v1.0 + PubMed 200K + PMC 270K)。

预训练超参数

我们使用了批次大小为32,最大序列长度为128,学习率为5 · 10−5来预训练我们的模型。在全部MIMIC记录上训练的模型进行了150,000步的训练。用于使用不同掩码复制输入数据的dup因子设置为5。使用了所有其他默认参数(具体来说,掩码语言模型概率=0.15,每个序列的最大预测数量=20)。

如何使用该模型

通过transformers库加载模型:

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("emilyalsentzer/Bio_ClinicalBERT")
model = AutoModel.from_pretrained("emilyalsentzer/Bio_ClinicalBERT")

更多信息

有关详细信息以及在NLI和NER任务上的性能,请参阅原始论文 Publicly Available Clinical BERT Embeddings (2019年NAACL Clinical NLP Workshop)。

有问题吗?

clinicalBERT repo 上发布一个Github问题,或发送电子邮件至emilya@mit.edu进行咨询。