Publicly Available Clinical BERT Embeddings 论文包含四个独特的 ClinicalBERT 模型:基于 BERT-Base(cased_L-12_H-768_A-12)或 BioBERT(BioBERT-Base v1.0 + PubMed 200K + PMC 270K)进行初始化,并且分别在所有 MIMIC 笔记或仅出院摘要上进行训练。
此模型卡片描述了 Bio+出院摘要 BERT 模型,该模型是从 BioBERT 进行初始化,并只在 MIMIC 的出院摘要上进行训练。
Bio_Discharge_Summary_BERT 模型是在 MIMIC III 的所有出院摘要上进行训练的,该数据库包含了波士顿贝斯以色列医院 ICU 患者的电子健康记录。有关 MIMIC 的更多详情,请参见 here 。NOTEEVENTS 表格中的所有笔记都包括在内(约 8.8 亿个单词)。
首先,将 MIMIC 中的每个笔记使用基于规则的部分分割器分割成不同部分(例如,出院摘要笔记分成“目前病史”,“家族病史”,“简要住院经过”等部分)。然后使用 SciSpacy(en_core_sci_md 标记器)将每个部分拆分成句子。
使用 GeForce GTX TITAN X 12GB GPU 在 Google's BERT repository 的代码上进行模型训练。模型参数初始化使用了 BioBERT(BioBERT-Base v1.0 + PubMed 200K + PMC 270K)。
我们使用批次大小为 32,最大序列长度为 128,并使用学习率为 5 · 10−5 进行模型的预训练。所有 MIMIC 笔记的模型训练步数设置为 150,000 步。用于使用不同掩码复制输入数据的 dup 因子设置为 5。其他所有默认参数均被使用(具体而言,掩码语言模型概率 = 0.15,每个序列的最大预测数 = 20)。
通过 transformers 库加载模型:
from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("emilyalsentzer/Bio_Discharge_Summary_BERT") model = AutoModel.from_pretrained("emilyalsentzer/Bio_Discharge_Summary_BERT")
有关详细信息以及在 NLI 和 NER 任务中的性能,请参阅原始论文 Publicly Available Clinical BERT Embeddings (NAACL Clinical NLP Workshop 2019)。
在 clinicalBERT repo 上发布 GitHub 问题或通过 emilya@mit.edu 发送电子邮件提问。