CXR-BERT-general 是一种胸部 X 射线(CXR)领域特定的语言模型,它利用改进的词汇表、新颖的预训练过程、权重正则化和文本增强。生成的模型在放射学自然语言推理、放射学掩码语言模型标记预测以及零样本短语对齐和图像分类等下游视觉-语言处理任务中展现了提高的性能。
首先,我们通过对来自公开 MIMIC-III 和 MIMIC-CXR 的摘要和临床记录进行蒙蔽语言模型(MLM)的预训练,将 CXR-BERT-general 从一个随机初始化的 BERT 模型进行预训练。在这方面,通用模型预计可以通过领域特定的微调适用于其他临床领域的研究。
CXR-BERT-specialized 是从 CXR-BERT-general 进一步专门用于胸部 X 射线领域的预训练模型。在最后阶段,CXR-BERT 在一个类似于 CLIP 框架的多模态对比学习框架中进行训练。利用 [CLS] 标记的潜在表示来对齐文本/图像嵌入。
Model | Model identifier on HuggingFace | Vocabulary | Note |
---|---|---|---|
CXR-BERT-general | 1236321 | PubMed & MIMIC | Pretrained for biomedical literature and clinical domains |
CXR-BERT-specialized (after multi-modal training) | 1237321 | PubMed & MIMIC | Pretrained for chest X-ray domain |
相应的论文已被接受并将在 European Conference on Computer Vision (ECCV) 2022 上展示。
@misc{https://doi.org/10.48550/arxiv.2204.09817, doi = {10.48550/ARXIV.2204.09817}, url = {https://arxiv.org/abs/2204.09817}, author = {Boecking, Benedikt and Usuyama, Naoto and Bannur, Shruthi and Castro, Daniel C. and Schwaighofer, Anton and Hyland, Stephanie and Wetscherek, Maria and Naumann, Tristan and Nori, Aditya and Alvarez-Valle, Javier and Poon, Hoifung and Oktay, Ozan}, title = {Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing}, publisher = {arXiv}, year = {2022}, }
该模型的预期用途仅限于:(一)未来的视觉-语言处理研究和(二)复现参考论文中报道的实验结果。
Primary Intended Use主要预期用途是为了支持在这项工作基础上进行深入研究的 AI 研究人员。CXR-BERT 及其相关模型应有助于探索各种临床自然语言处理和视觉-语言处理研究问题,特别是在放射学领域。
Out-of-Scope Use目前不包括模型的任何已部署用例,无论是商业用途还是其他用途。尽管我们使用了广泛的公开可用研究基准对模型进行了评估,但这些模型和评估并不适用于已部署的用例。更多详细信息,请参考 the associated paper 。
该模型基于现有的公开可用数据集进行构建:
这些数据集涵盖了各种来源,包括生物医学摘要、重症监护室记录和胸部 X 射线放射学记录。放射学记录附带其相关的 MIMIC-CXR 数据集中的胸部 X 射线 DICOM 图像。
我们证明该语言模型通过改进的词汇表和利用放射学报告中的语义和语篇特征的新颖语言预训练目标,在放射学自然语言推理方面取得了最先进的结果。
与其他常见模型(包括 ClinicalBERT 和 PubMedBERT )的对比亮点:
RadNLI accuracy (MedNLI transfer) | Mask prediction accuracy | Avg. # tokens after tokenization | Vocabulary size | |
---|---|---|---|---|
RadNLI baseline | 53.30 | - | - | - |
ClinicalBERT | 47.67 | 39.84 | 78.98 (+38.15%) | 28,996 |
PubMedBERT | 57.71 | 35.24 | 63.55 (+11.16%) | 28,895 |
CXR-BERT (after Phase-III) | 60.46 | 77.72 | 58.07 (+1.59%) | 30,522 |
CXR-BERT (after Phase-III + Joint Training) | 65.21 | 81.58 | 58.07 (+1.59%) | 30,522 |
CXR-BERT 还通过其改进的文本编码能力对改进的视觉-语言表示学习做出了贡献。以下是在 MS-CXR 数据集上的零样本短语对齐性能,用于评估图像-文本潜在表示的质量。
Vision–Language Pretraining Method | Text Encoder | MS-CXR Phrase Grounding (Avg. CNR Score) |
---|---|---|
Baseline | ClinicalBERT | 0.769 |
Baseline | PubMedBERT | 0.773 |
ConVIRT | ClinicalBERT | 0.818 |
GLoRIA | ClinicalBERT | 0.930 |
BioViL | CXR-BERT | 1.027 |
BioViL-L | CXR-BERT | 1.142 |
更多性能细节请参阅相应论文 Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing 。
该模型仅使用英文语料库开发,因此仅限于英语。
请参阅相应论文 "Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing", ECCV'22 ,了解有关模型训练和评估的更多详细信息。
有关 CXR-BERT 的额外推理流程,请参阅 HI-ML GitHub 存储库。相应的源文件即将通过此链接访问。