模型:

allenai/aspire-biencoder-compsci-spec

英文

概述

该模型用于建模文档之间的细粒度相似性,是一篇论文中的一部分:

标题:《具有文本指导的多向量模型用于细粒度科学文档相似性》

作者:Sheshera Mysore, Arman Cohan, Tom Hope

论文编号: https://arxiv.org/abs/2111.08366

Github: https://github.com/allenai/aspire

注意:在论文中,这个模型被称为Specter-CoCite_Spec,代表用于科学文档相似性的基线双编码器。这个模型在架构上与 allenai/specter 模型相似,但是训练数据来自共引用数据而不是引用数据。

模型卡片

模型描述

该模型是一个BERT双编码器模型,用于生物医学科学论文中标题-摘要对的相似性。该模型使用SPECTER模型进行初始化。该模型将论文的标题和摘要作为输入,并通过在基础编码器的每一层使用CLS标记的标量混合来表示。这些标量混合参数对于某些数据集的性能很重要。重要的是,这些标量混合权重不包含在HF模型的一部分中,如果您希望使用这些参数,请从 aspire-biencoder-compsci-spec-full.zip 下载完整模型。

训练数据

该模型是在对比学习设置中使用的共引用论文对进行训练的。该模型使用了120万个生物医学论文对进行训练。在训练模型时,对比损失的负样本是在批次中随机选择的。共引用是从论文的全文中获得的,例如下面括号中的论文都是共引用,并且每对论文的标题和摘要都将被用作训练对:

疏离监督的概念已经在关系抽取(Mintz et al., 2009; Riedel et al., 2010; Hoffmann et al., 2011; Surdeanu et al., 2012)中被提出并广泛使用,其中标签的来源是外部知识库。

训练过程

模型使用Adam优化器进行训练,学习率为2e-5,有1000个热身步骤,然后学习率线性衰减。在一个包含共引用论文对的保留集上,检查模型训练的收敛性通过损失进行。

预期用途与限制

该模型经过训练,用于计算机科学科学文本中的文档相似性任务,每个文档只使用一个向量。在适当的微调下,该模型也可以用于其他任务,如分类。由于训练数据主要来自计算机科学,对其他领域的性能可能较差。

如何使用

请按照模型Github存储库( https://github.com/allenai/aspire#specter-cocite )上详细说明的使用说明进行操作。

变量和指标

该模型在信息检索数据集中以文档级查询进行评估。这里的性能是基于CSFCube(计算机科学/英语)的,这在 github 和我们的 paper 中详细说明。CSFCube通过基于查询摘要中的选定句子提供了更细粒度的查询,根据该查询摘要必须从候选摘要中进行更细粒度的检索。上述双编码器忽略了更细粒度的查询句子,而使用了整个摘要,这在论文中作为基准提出。

我们通过查询和候选文档之间的L2距离对文档进行排名。

评估结果

发布的 aspire-biencoder-compsci-spec 的模型(以及 aspire-biencoder-compsci-spec-full )与 allenai/specter 进行了比较。aspire-biencoder-compsci-spec-full 是我们在论文中通过对3次重新运行模型求平均得到的性能。发布的 aspire-biencoder-compsci-spec 和 aspire-biencoder-compsci-spec-full 是3次重新运行中的最佳结果。

CSFCube aggregated CSFCube aggregated
MAP NDCG%20
specter 34.23 53.28
aspire-biencoder-compsci-spec-full * 37.90 58.16
aspire-biencoder-compsci-spec 37.17 57.91
aspire-biencoder-compsci-spec-full 37.67 59.26

备选模型:

除了上述模型之外,还考虑在Aspire论文中发布的这些备选模型:

aspire-biencoder-biomed-scib :如果您想在生物医学论文上运行。