ClinicalBERT - 生物 + 出院摘要 BERT 模型

Publicly Available Clinical BERT Embeddings 论文包含四个独特的 ClinicalBERT 模型：基于 BERT-Base（cased_L-12_H-768_A-12）或 BioBERT（BioBERT-Base v1.0 + PubMed 200K + PMC 270K）进行初始化，并且分别在所有 MIMIC 笔记或仅出院摘要上进行训练。

此模型卡片描述了 Bio+出院摘要 BERT 模型，该模型是从 BioBERT 进行初始化，并只在 MIMIC 的出院摘要上进行训练。

预训练数据

Bio_Discharge_Summary_BERT 模型是在 MIMIC III 的所有出院摘要上进行训练的，该数据库包含了波士顿贝斯以色列医院 ICU 患者的电子健康记录。有关 MIMIC 的更多详情，请参见 here 。NOTEEVENTS 表格中的所有笔记都包括在内（约 8.8 亿个单词）。

模型训练

注释预处理

首先，将 MIMIC 中的每个笔记使用基于规则的部分分割器分割成不同部分（例如，出院摘要笔记分成“目前病史”，“家族病史”，“简要住院经过”等部分）。然后使用 SciSpacy（en_core_sci_md 标记器）将每个部分拆分成句子。

预训练过程

使用 GeForce GTX TITAN X 12GB GPU 在 Google's BERT repository 的代码上进行模型训练。模型参数初始化使用了 BioBERT（BioBERT-Base v1.0 + PubMed 200K + PMC 270K）。

预训练超参数

我们使用批次大小为 32，最大序列长度为 128，并使用学习率为 5 · 10−5 进行模型的预训练。所有 MIMIC 笔记的模型训练步数设置为 150,000 步。用于使用不同掩码复制输入数据的 dup 因子设置为 5。其他所有默认参数均被使用（具体而言，掩码语言模型概率 = 0.15，每个序列的最大预测数 = 20）。

如何使用该模型

通过 transformers 库加载模型：

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("emilyalsentzer/Bio_Discharge_Summary_BERT")
model = AutoModel.from_pretrained("emilyalsentzer/Bio_Discharge_Summary_BERT")

有问题吗？

在 clinicalBERT repo 上发布 GitHub 问题或通过 emilya@mit.edu 发送电子邮件提问。

作者:

Emily Alsentzer

数据集大小:

2.04 GB