一种在PubMed摘要上预训练的BERT模型。
请参阅 https://github.com/ncbi-nlp/bluebert
我们提供了 preprocessed PubMed texts 用于预训练BlueBERT模型的语料库。该语料库包含从 PubMed ASCII code version 中提取的约4000M个词。
预训练模型: https://huggingface.co/bert-large-uncased
以下是更多详细信息的代码片段。
value = value.lower() value = re.sub(r'[\r\n]+', ' ', value) value = re.sub(r'[^\x00-\x7F]+', ' ', value) tokenized = TreebankWordTokenizer().tokenize(value) sentence = ' '.join(tokenized) sentence = re.sub(r"\s's\b", "'s", sentence)
@InProceedings{peng2019transfer, author = {Yifan Peng and Shankai Yan and Zhiyong Lu}, title = {Transfer Learning in Biomedical Natural Language Processing: An Evaluation of BERT and ELMo on Ten Benchmarking Datasets}, booktitle = {Proceedings of the 2019 Workshop on Biomedical Natural Language Processing (BioNLP 2019)}, year = {2019}, pages = {58--65}, }
该工作得到了美国国立卫生研究院、国家医学图书馆和临床中心的院内研究计划的支持。该工作得到了美国国立卫生研究院国家医学图书馆在编号为4R00LM013001-01的授予号下的支持。
我们也感谢BERT和ELMo的作者公开提供数据和代码。
我们要感谢金日宇博士对PubMed文本的处理。
该工具展示了NCBI计算生物学分部进行的研究成果。本网站产生的信息不适用于直接的诊断使用或医疗决策,需经过临床专业人员的审查和监督。个人不应仅根据本网站上产生的信息改变其健康行为。NIH不独立验证该工具产生的信息的有效性或实用性。如果您对本网站上产生的信息有疑问,请咨询医疗专业人士。有关NCBI免责声明政策的更多信息可供参考。