一个在PubMed摘要和临床记录上预训练的BERT模型( MIMIC-III )。
请参阅 https://github.com/ncbi-nlp/bluebert
我们提供了用于预训练BlueBERT模型的 preprocessed PubMed texts 。该语料库包含从 PubMed ASCII code version 中提取的约4000M个单词。
预训练模型: https://huggingface.co/bert-large-uncased
下面是一个代码片段,提供更多细节。
value = value.lower() value = re.sub(r'[\r\n]+', ' ', value) value = re.sub(r'[^\x00-\x7F]+', ' ', value) tokenized = TreebankWordTokenizer().tokenize(value) sentence = ' '.join(tokenized) sentence = re.sub(r"\s's\b", "'s", sentence)
@InProceedings{peng2019transfer, author = {Yifan Peng and Shankai Yan and Zhiyong Lu}, title = {Transfer Learning in Biomedical Natural Language Processing: An Evaluation of BERT and ELMo on Ten Benchmarking Datasets}, booktitle = {Proceedings of the 2019 Workshop on Biomedical Natural Language Processing (BioNLP 2019)}, year = {2019}, pages = {58--65}, }
本研究得到了国立卫生研究院、国家医学图书馆和临床中心的机构内研究项目的支持。本研究得到了国家卫生研究院国家医学图书馆的资助,奖励编号为4R00LM013001-01。
我们也要感谢BERT和ELMo的作者们公开提供了数据和代码。
我们要感谢Sun Kim博士处理PubMed文本。
该工具显示了NCBI计算生物学分部进行的研究结果。本网站上生成的信息不适用于直接诊断或医疗决策,需经过临床专业人员审查和监督。个人不应仅依据本网站生成的信息改变其健康行为。NIH不独立验证此工具生成的信息的有效性或实用性。如果您对本网站生成的信息有疑问,请咨询医疗保健专业人员。更多关于NCBI免责声明政策的信息可供查阅。