英文

BioLinkBERT-large

BioLinkBERT-large 模型在 PubMed 个摘要及引文链接信息的数据集上进行了预训练。该模型是在 LinkBERT: Pretraining Language Models with Document Links (ACL 2022) 篇论文中引入的。代码和数据可在 this repository 中获取。

该模型在多个生物医学自然语言处理基准测试任务(如 BLURB MedQA-USMLE )上取得了最先进的性能。

模型描述

LinkBERT 是一个基于 Transformer 编码器(类似 BERT)的模型,经过大量文档的预训练。它是对 BERT 的改进,新增捕获了文档链接(如超链接和引文链接)等,以获取跨多个文档的知识。具体而言,它是通过将链接的文档与单个文档一起提供给同一语言模型上下文中进行预训练的。

LinkBERT 可以作为 BERT 的替代模型。它在通用语言理解任务(如文本分类)上取得更好的性能,并且在知识密集型任务(如问答)和跨文档任务(如阅读理解、文档检索)中特别有效。

预期用途和限制

该模型可通过在下游任务上进行微调来使用,例如问答、序列分类和标记分类。您还可以使用原始模型进行特征提取(即获取输入文本的嵌入)。

如何使用

要使用模型在 PyTorch 中获取给定文本的特征:

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained('michiyasunaga/BioLinkBERT-large')
model = AutoModel.from_pretrained('michiyasunaga/BioLinkBERT-large')
inputs = tokenizer("Sunitinib is a tyrosine kinase inhibitor", return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

要进行微调,您可以使用 this repository 或遵循其他 BERT 微调代码库的方法。

评估结果

在下游任务上进行微调时,LinkBERT 实现了以下结果。

生物医学基准测试( BLURB MedQA MMLU 等):BioLinkBERT 实现了最新的最佳性能。

BLURB score PubMedQA BioASQ MedQA-USMLE
PubmedBERT-base 81.10 55.8 87.5 38.1
BioLinkBERT-base 83.39 70.2 91.4 40.0
BioLinkBERT-large 84.30 72.2 94.8 44.6
MMLU-professional medicine
GPT-3 (175 params) 38.7
UnifiedQA (11B params) 43.2
BioLinkBERT-large (340M params) 50.7

引用

如果您在项目中使用了 LinkBERT,请引用以下内容:

@InProceedings{yasunaga2022linkbert,
  author =  {Michihiro Yasunaga and Jure Leskovec and Percy Liang},
  title =   {LinkBERT: Pretraining Language Models with Document Links},
  year =    {2022},  
  booktitle = {Association for Computational Linguistics (ACL)},  
}