BlueBert-Base, Uncased, PubMed

模型描述

一种在PubMed摘要上预训练的BERT模型。

使用意图和限制

如何使用

请参阅 https://github.com/ncbi-nlp/bluebert

训练数据

我们提供了 preprocessed PubMed texts 用于预训练BlueBERT模型的语料库。该语料库包含从 PubMed ASCII code version 中提取的约4000M个词。

预训练模型： https://huggingface.co/bert-large-uncased

训练过程

对文本进行小写处理
删除特殊字符\x00-\x7F
使用 NLTK Treebank tokenizer 对文本进行标记化

以下是更多详细信息的代码片段。

value = value.lower()
value = re.sub(r'[\r\n]+', ' ', value)
value = re.sub(r'[^\x00-\x7F]+', ' ', value)

tokenized = TreebankWordTokenizer().tokenize(value)
sentence = ' '.join(tokenized)
sentence = re.sub(r"\s's\b", "'s", sentence)

BibTeX条目和引文信息

@InProceedings{peng2019transfer,
  author    = {Yifan Peng and Shankai Yan and Zhiyong Lu},
  title     = {Transfer Learning in Biomedical Natural Language Processing: An Evaluation of BERT and ELMo on Ten Benchmarking Datasets},
  booktitle = {Proceedings of the 2019 Workshop on Biomedical Natural Language Processing (BioNLP 2019)},
  year      = {2019},
  pages     = {58--65},
}

致谢

该工作得到了美国国立卫生研究院、国家医学图书馆和临床中心的院内研究计划的支持。该工作得到了美国国立卫生研究院国家医学图书馆在编号为4R00LM013001-01的授予号下的支持。

我们也感谢BERT和ELMo的作者公开提供数据和代码。

我们要感谢金日宇博士对PubMed文本的处理。

免责声明

该工具展示了NCBI计算生物学分部进行的研究成果。本网站产生的信息不适用于直接的诊断使用或医疗决策，需经过临床专业人员的审查和监督。个人不应仅根据本网站上产生的信息改变其健康行为。NIH不独立验证该工具产生的信息的有效性或实用性。如果您对本网站上产生的信息有疑问，请咨询医疗专业人士。有关NCBI免责声明政策的更多信息可供参考。

作者:

Biomedical NLP

数据集大小:

6.27 GB