英文

BioLinkBERT-base

BioLinkBERT-base模型是在 PubMed 个摘要和引文链接信息上进行预训练的。该模型在 LinkBERT: Pretraining Language Models with Document Links (ACL 2022) 论文中进行了介绍。代码和数据可在 this repository 上获取。

该模型在多个生物医学自然语言处理基准测试中取得了最先进的性能,如 BLURB MedQA-USMLE

模型描述

LinkBERT是一个在大量文档语料库上进行预训练的转换编码器(类似BERT的模型)。它是BERT的改进版,新增了对超链接和引文链接等文档链接的捕捉,以包含跨多个文档的知识。具体而言,它通过在相同的语言模型上下文中提供链接的文档来进行预训练,除了单个文档之外。

LinkBERT可用作BERT的即插即用替代品。它在一般语言理解任务(如文本分类)上取得了更好的性能,对于知识密集型任务(如问答)和跨文档任务(如阅读理解、文档检索)也特别有效。

应用范围和限制

该模型可通过在下游任务上进行微调来使用,例如问答、序列分类和标记分类。您也可以使用原始模型进行特征提取(即获取输入文本的嵌入向量)。

使用方法

若要在PyTorch中使用模型获取给定文本的特征:

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained('michiyasunaga/BioLinkBERT-base')
model = AutoModel.from_pretrained('michiyasunaga/BioLinkBERT-base')
inputs = tokenizer("Sunitinib is a tyrosine kinase inhibitor", return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

要进行微调,可以使用 this repository 或遵循其他BERT微调代码库的操作。

评估结果

在下游任务上进行微调时,LinkBERT取得了以下结果。

生物医学基准测试( BLURB MedQA MMLU 等):BioLinkBERT达到了新的最优结果。

BLURB score PubMedQA BioASQ MedQA-USMLE
PubmedBERT-base 81.10 55.8 87.5 38.1
BioLinkBERT-base 83.39 70.2 91.4 40.0
BioLinkBERT-large 84.30 72.2 94.8 44.6
MMLU-professional medicine
GPT-3 (175 params) 38.7
UnifiedQA (11B params) 43.2
BioLinkBERT-large (340M params) 50.7

引用

如果您在项目中使用LinkBERT,请引用以下内容:

@InProceedings{yasunaga2022linkbert,
  author =  {Michihiro Yasunaga and Jure Leskovec and Percy Liang},
  title =   {LinkBERT: Pretraining Language Models with Document Links},
  year =    {2022},  
  booktitle = {Association for Computational Linguistics (ACL)},  
}