模型:

emilyalsentzer/Bio_Discharge_Summary_BERT

英文

ClinicalBERT - 生物 + 出院摘要 BERT 模型

Publicly Available Clinical BERT Embeddings 论文包含四个独特的 ClinicalBERT 模型:基于 BERT-Base(cased_L-12_H-768_A-12)或 BioBERT(BioBERT-Base v1.0 + PubMed 200K + PMC 270K)进行初始化,并且分别在所有 MIMIC 笔记或仅出院摘要上进行训练。

此模型卡片描述了 Bio+出院摘要 BERT 模型,该模型是从 BioBERT 进行初始化,并只在 MIMIC 的出院摘要上进行训练。

预训练数据

Bio_Discharge_Summary_BERT 模型是在 MIMIC III 的所有出院摘要上进行训练的,该数据库包含了波士顿贝斯以色列医院 ICU 患者的电子健康记录。有关 MIMIC 的更多详情,请参见 here 。NOTEEVENTS 表格中的所有笔记都包括在内(约 8.8 亿个单词)。

模型训练

注释预处理

首先,将 MIMIC 中的每个笔记使用基于规则的部分分割器分割成不同部分(例如,出院摘要笔记分成“目前病史”,“家族病史”,“简要住院经过”等部分)。然后使用 SciSpacy(en_core_sci_md 标记器)将每个部分拆分成句子。

预训练过程

使用 GeForce GTX TITAN X 12GB GPU 在 Google's BERT repository 的代码上进行模型训练。模型参数初始化使用了 BioBERT(BioBERT-Base v1.0 + PubMed 200K + PMC 270K)。

预训练超参数

我们使用批次大小为 32,最大序列长度为 128,并使用学习率为 5 · 10−5 进行模型的预训练。所有 MIMIC 笔记的模型训练步数设置为 150,000 步。用于使用不同掩码复制输入数据的 dup 因子设置为 5。其他所有默认参数均被使用(具体而言,掩码语言模型概率 = 0.15,每个序列的最大预测数 = 20)。

如何使用该模型

通过 transformers 库加载模型:

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("emilyalsentzer/Bio_Discharge_Summary_BERT")
model = AutoModel.from_pretrained("emilyalsentzer/Bio_Discharge_Summary_BERT")

更多信息

有关详细信息以及在 NLI 和 NER 任务中的性能,请参阅原始论文 Publicly Available Clinical BERT Embeddings (NAACL Clinical NLP Workshop 2019)。

有问题吗?

clinicalBERT repo 上发布 GitHub 问题或通过 emilya@mit.edu 发送电子邮件提问。