模型:

bionlp/bluebert_pubmed_mimic_uncased_L-24_H-1024_A-16

英文

BlueBert-Base,不区分大小写,PubMed和MIMIC-III

模型描述

一个在PubMed摘要和临床记录上预训练的BERT模型( MIMIC-III )。

预期用途和限制

如何使用

请参阅 https://github.com/ncbi-nlp/bluebert

训练数据

我们提供了用于预训练BlueBERT模型的 preprocessed PubMed texts 。该语料库包含从 PubMed ASCII code version 中提取的约4000M个单词。

预训练模型: https://huggingface.co/bert-large-uncased

训练过程

下面是一个代码片段,提供更多细节。

value = value.lower()
value = re.sub(r'[\r\n]+', ' ', value)
value = re.sub(r'[^\x00-\x7F]+', ' ', value)

tokenized = TreebankWordTokenizer().tokenize(value)
sentence = ' '.join(tokenized)
sentence = re.sub(r"\s's\b", "'s", sentence)

BibTeX条目和引用信息

@InProceedings{peng2019transfer,
  author    = {Yifan Peng and Shankai Yan and Zhiyong Lu},
  title     = {Transfer Learning in Biomedical Natural Language Processing: An Evaluation of BERT and ELMo on Ten Benchmarking Datasets},
  booktitle = {Proceedings of the 2019 Workshop on Biomedical Natural Language Processing (BioNLP 2019)},
  year      = {2019},
  pages     = {58--65},
}

致谢

本研究得到了国立卫生研究院、国家医学图书馆和临床中心的机构内研究项目的支持。本研究得到了国家卫生研究院国家医学图书馆的资助,奖励编号为4R00LM013001-01。

我们也要感谢BERT和ELMo的作者们公开提供了数据和代码。

我们要感谢Sun Kim博士处理PubMed文本。

免责声明

该工具显示了NCBI计算生物学分部进行的研究结果。本网站上生成的信息不适用于直接诊断或医疗决策,需经过临床专业人员审查和监督。个人不应仅依据本网站生成的信息改变其健康行为。NIH不独立验证此工具生成的信息的有效性或实用性。如果您对本网站生成的信息有疑问,请咨询医疗保健专业人员。更多关于NCBI免责声明政策的信息可供查阅。