模型:

allenai/aspire-biencoder-biomed-scib

英文

概述

这是一篇关于建模文档之间细粒度相似性的论文中的模型:

标题:《具有文本指引的多向量模型用于细粒度科学文档相似性》

作者:Sheshera Mysore, Arman Cohan, Tom Hope

论文: https://arxiv.org/abs/2111.08366

Github: https://github.com/allenai/aspire

注:在论文的背景下,这个模型被称为Specter-CoCite_Scib,代表着科学文档相似性的基线双编码器。该模型与 allenai/specter 模型在架构上相似,但其在训练时使用的是共引数据而不是引用数据。

模型卡片

模型描述

这个模型是一个在生物医学科学论文的标题-摘要配对上训练的BERT双编码器模型。该模型使用SciBert模型进行初始化。该模型输入论文的标题和摘要,并通过对SciBert编码器每一层的CLS标记进行标量混合,得到一个表示。这些标量混合的权重在某些数据集上对性能很重要。需要注意的是,这些标量混合权重不包含在这个HF模型中,如果希望使用这些参数,请在 aspire-biencoder-biomed-scib-full.zip 处下载完整模型。

训练数据

模型是在对比学习的设置下,使用共引论文对进行训练的。该模型使用了120万个生物医学论文对进行训练。在训练过程中,对于对比损失,负例是从批次中随机选取的负样本。共引是从论文的全文中获得的,例如-下面括号中的论文都是被共引用的,每对论文的标题和摘要将被用作训练对:

"远程监督"的概念已在关系抽取中被提出并广泛使用 (Mintz et al., 2009; Riedel et al., 2010; Hoffmann et al., 2011; Surdeanu et al., 2012),其中标签的来源是一个外部知识库。

训练过程

模型使用Adam优化器进行训练,学习率为2e-5,前1000步为热身步骤,之后学习率线性衰减。模型训练的收敛性通过在保留的共引论文对上计算的损失进行检查。

预期用途和局限性

这个模型是为生物医学科学文本中的文档相似性任务训练的,使用每个文档的单一向量表示。在适当的微调下,该模型也可以用于其他任务,如分类。由于训练数据主要来自生物医学领域,对其他领域的性能可能较差。

如何使用

详细的使用说明请参考模型的Github代码库: https://github.com/allenai/aspire#specter-cocite

变量和指标

该模型在信息检索数据集上进行了评估,其中包括文档级别的查询。我们报告了在RELISH(生物医学/英文)和TRECCOVID(生物医学/英文)上的性能。这些详细信息可以在 github 和我们的 paper 中找到。这些数据集代表了一个抽象级别的检索任务,给定一个查询科学摘要,任务要求检索相关的候选摘要。

我们通过查询和候选文档之间的L2距离对文档进行排名。

评估结果

发布的aspire-biencoder-biomed-scib(和aspire-biencoder-biomed-scib-full)与allenai/specter进行了比较。aspire-biencoder-biomed-scib-full是我们的论文中通过对3次重复运行的模型进行平均得到的性能。发布的模型aspire-biencoder-biomed-scib和aspire-biencoder-biomed-scib-full是3次重复运行中的最佳结果。

TRECCOVID TRECCOVID RELISH RELISH
MAP NDCG%20 MAP NDCG%20
specter 28.24 59.28 60.62 77.20
aspire-biencoder-biomed-scib-full * 30.60 62.07 61.43 78.01
aspire-biencoder-biomed-scib 30.74 60.16 61.52 78.07
aspire-biencoder-biomed-scib-full 31.45 63.15 61.34 77.89

其他模型:

除了上述模型之外,还有其他在Aspire论文中发布的替代模型:

aspire-biencoder-compsci-spec :如果您想要在计算机科学论文上运行。

aspire-biencoder-biomed-spec :这是一个与上述模型完全相同的替代双编码器模型,只是它的初始化使用的是allenai/specter而不是SciBert。通常情况下,此模型的性能较低于此处发布的模型。