模型:

allenai/aspire-contextualsentence-singlem-compsci

英文

概述

存在于一篇论文中的模型,用于建模文档之间的细粒度相似性:

标题:《使用文本引导的多向量模型用于细粒度科学文献相似性》

作者:Sheshera Mysore、Arman Cohan、Tom Hope

论文: https://arxiv.org/abs/2111.08366

Github: https://github.com/allenai/aspire

注:在论文中,这个模型被称为tsAspire,代表了论文所提出的用于细粒度科学文献相似性的多向量模型。

模型卡片

模型描述

这个模型是基于BERT的多向量模型,用于计算计算机科学论文的细粒度相似性。该模型输入论文的标题和摘要,并通过对每个句子的令牌表示进行平均,使用上下文语句向量表示一篇论文。在编码器块中,标题和摘要经过交叉注意力编码后获得句子嵌入。该模型通过利用新颖的文本监督形式对模型进行训练,该形式利用共引文献的上下文来对齐正样本的句子。测试时,模型基于文档之间句子的最小L2距离或一组查询句子与候选文档之间的最小L2距离对文档进行排序。

训练数据

该模型是在共引文献的句子对上进行对比学习训练的,这些句子对通过共引文献的上下文对齐。模型在120万对计算机科学论文上进行训练。在训练模型时,对比损失的负例是从批次中随机选择的。共引文献来自于论文的全文。例如-下面括号中的论文都是共引的,每对论文将用作训练对,摘要的句子使用共引文献的上下文进行对齐。这里的上下文说明了引用论文的相似之处:

公开场合允许,可以使用遥远监督的方法进行关系提取(Mintz等,2009年; Riedel等,2010年; Hoffmann等,2011年; Surdeanu等,2012年),其中标签的来源是外部知识库。

训练过程

模型使用Adam优化器进行训练,学习率为2e-5,前1000步进行热身,然后线性衰减学习率。模型的训练收敛性通过在保留的开发集上计算对比引用文献对的损失来检查。

预期用途和限制

该模型经过训练,用于计算机科学科学文本中的细粒度文档相似性任务,使用每个文档的多个向量。该模型通过建立文档之间句子级别的相似性,允许细粒度的相似性。模型最适合于方面条件任务形式,其中查询可能由查询文档中的句子构成,并且必须从指定句子中检索候选项。这里,文档是一篇论文的标题和摘要。通过适当的微调,该模型还可以用于其他任务,如文档或句子级别的分类。由于训练数据主要来自计算机科学领域,对其他领域的性能可能较差。

如何使用

可以通过transformers库和一些附加代码来使用此模型计算上下文句子向量。

在模型的github库中查看示例用法: https://github.com/allenai/aspire#tsaspire

变量和指标

该模型在文档级别查询的信息检索数据集上进行评估。这里的性能报告基于CSFCube(计算机科学/英语)。关于这一点的详细信息可以在 github 和我们 paper 中找到。CSFCube通过在查询摘要中选择句子来提供更细粒度的查询,基于这些句子,必须从候选摘要中进行更细粒度的检索。

在使用这个句子级别模型时,我们通过查询句子和候选摘要之间的最小L2距离来对文档进行排序。

评估结果

发布的aspire-contextualsentence-singlem-compsci模型与allenai/specter(一个双编码器基准模型)和all-mpnet-base-v2(一个强大的非上下文的句子伯特基准模型,训练示例数量约为10亿)进行了比较。aspire-contextualsentence-singlem-compsci *是我们的论文中通过对模型进行3次平均得到的性能结果。发布的aspire-contextualsentence-singlem-compsci模型是3次重新运行中的最佳结果。

CSFCube aggregated CSFCube aggregated
MAP NDCG%20
all-mpnet-base-v2 34.64 54.94
specter 34.23 53.28
aspire-contextualsentence-singlem-compsci * 40.26 60.71
aspire-contextualsentence-singlem-compsci 41.33 61.46

其他模型:

除上述模型外,还考虑在Aspire论文中发布的这些备选模型:

aspire-contextualsentence-singlem-biomed :如果您想在生物医学论文上运行,并希望使用训练模型来匹配文档之间的单个句子。

aspire-contextualsentence-multim-biomed :如果您想在生物医学论文上运行,并希望使用训练模型来匹配文档之间的多个句子。

aspire-contextualsentence-multim-compsci :如果您想在计算机科学论文上运行,并希望使用训练模型来匹配文档之间的多个句子。