allenai/aspire-biencoder-compsci-spec | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

模型:

allenai/aspire-biencoder-compsci-spec

任务:

特征提取

类库:

PyTorch Transformers

语言:

其他:

bert

预印本库:

arxiv:2111.08366

许可:

apache-2.0

模型介绍文件清单

英文

概述

该模型用于建模文档之间的细粒度相似性，是一篇论文中的一部分：

标题：《具有文本指导的多向量模型用于细粒度科学文档相似性》

作者：Sheshera Mysore, Arman Cohan, Tom Hope

论文编号： https://arxiv.org/abs/2111.08366

Github： https://github.com/allenai/aspire

注意：在论文中，这个模型被称为Specter-CoCite_Spec，代表用于科学文档相似性的基线双编码器。这个模型在架构上与 allenai/specter 模型相似，但是训练数据来自共引用数据而不是引用数据。

模型卡片

模型描述

该模型是一个BERT双编码器模型，用于生物医学科学论文中标题-摘要对的相似性。该模型使用SPECTER模型进行初始化。该模型将论文的标题和摘要作为输入，并通过在基础编码器的每一层使用CLS标记的标量混合来表示。这些标量混合参数对于某些数据集的性能很重要。重要的是，这些标量混合权重不包含在HF模型的一部分中，如果您希望使用这些参数，请从 aspire-biencoder-compsci-spec-full.zip 下载完整模型。

训练数据

该模型是在对比学习设置中使用的共引用论文对进行训练的。该模型使用了120万个生物医学论文对进行训练。在训练模型时，对比损失的负样本是在批次中随机选择的。共引用是从论文的全文中获得的，例如下面括号中的论文都是共引用，并且每对论文的标题和摘要都将被用作训练对：

疏离监督的概念已经在关系抽取（Mintz et al., 2009; Riedel et al., 2010; Hoffmann et al., 2011; Surdeanu et al., 2012）中被提出并广泛使用，其中标签的来源是外部知识库。

训练过程

模型使用Adam优化器进行训练，学习率为2e-5，有1000个热身步骤，然后学习率线性衰减。在一个包含共引用论文对的保留集上，检查模型训练的收敛性通过损失进行。

预期用途与限制

该模型经过训练，用于计算机科学科学文本中的文档相似性任务，每个文档只使用一个向量。在适当的微调下，该模型也可以用于其他任务，如分类。由于训练数据主要来自计算机科学，对其他领域的性能可能较差。

如何使用

请按照模型Github存储库（ https://github.com/allenai/aspire#specter-cocite ）上详细说明的使用说明进行操作。

变量和指标

该模型在信息检索数据集中以文档级查询进行评估。这里的性能是基于CSFCube（计算机科学/英语）的，这在 github 和我们的 paper 中详细说明。CSFCube通过基于查询摘要中的选定句子提供了更细粒度的查询，根据该查询摘要必须从候选摘要中进行更细粒度的检索。上述双编码器忽略了更细粒度的查询句子，而使用了整个摘要，这在论文中作为基准提出。

我们通过查询和候选文档之间的L2距离对文档进行排名。

评估结果

发布的 aspire-biencoder-compsci-spec 的模型（以及 aspire-biencoder-compsci-spec-full ）与 allenai/specter 进行了比较。aspire-biencoder-compsci-spec-full 是我们在论文中通过对3次重新运行模型求平均得到的性能。发布的 aspire-biencoder-compsci-spec 和 aspire-biencoder-compsci-spec-full 是3次重新运行中的最佳结果。

CSFCube aggregated	CSFCube aggregated
MAP	NDCG%20
specter	34.23	53.28
aspire-biencoder-compsci-spec-full *	37.90	58.16
aspire-biencoder-compsci-spec	37.17	57.91
aspire-biencoder-compsci-spec-full	37.67	59.26

备选模型：

除了上述模型之外，还考虑在Aspire论文中发布的这些备选模型：

aspire-biencoder-biomed-scib ：如果您想在生物医学论文上运行。

作者:

Allen Institute for AI

数据集大小:

419.68 MB