模型:
allenai/aspire-contextualsentence-singlem-biomed
这是一篇论文中用于建模文档之间细粒度相似性的模型:
标题:《具有文本指导的多向量模型用于细粒度科学文档相似性》
作者:Sheshera Mysore, Arman Cohan, Tom Hope
论文: https://arxiv.org/abs/2111.08366
Github: https://github.com/allenai/aspire
注意:在论文的上下文中,将此模型称为tsAspire,代表了论文提出的用于细粒度科学文档相似性的多向量模型。
这个基于BERT的多向量模型是用于细粒度生物医学科学论文相似性的。该模型输入一篇论文的标题和摘要,并通过对每个句子的标记表示求平均来表示整个标题和摘要的句子向量。在获取句子嵌入之前,在编码器块中通过交叉注意力对整个标题和摘要进行编码。该模型通过利用一种新颖的文本监督形式进行训练,该形式利用共引文献的上下文将正例示例的句子进行对齐。在测试时,根据文档之间的句子的最小L2距离或一组查询句子与候选文档之间的最小L2距离对文档进行排名。
该模型在共引的论文对上进行训练,在对比学习设置中使用共引文献的上下文对齐其句子。该模型在120万个生物医学论文对上进行训练。在训练模型时,对比损失的负例是从批次中随机获取的。共引文献来自论文的全文。例如-下面括号中的论文都是共引的,每对论文都将与共引文献的摘要句子使用共引上下文对齐。这里的上下文说明了为什么引用的论文是相似的:
"远程监督的想法已经在关系抽取中被提出并广泛使用(Mintz et al., 2009; Riedel et al., 2010; Hoffmann et al., 2011; Surdeanu et al., 2012),其中标签的来源是外部知识库。"
该模型使用Adam优化器进行训练,学习率为2e-5,先进行1000个热身步骤,然后线性衰减学习率。通过在由共引论文对组成的保留开发集上观察损失,检查模型训练的收敛性。
这个模型经过训练,用于处理生物医学科学文本中的细粒度文档相似性任务,使用多个向量表示每个文档。该模型通过建立文档之间句子级的相似性实现细粒度相似性。该模型最适合于一个条件任务设置,其中查询可能由查询文档中的句子组成,候选文档必须在指定的句子周围被检索到。这里的文档是一篇论文的标题和摘要。通过适当的微调,该模型还可以用于其他任务,如文档或句子级分类。由于训练数据主要来自生物医学领域,对其他领域的性能可能较差。
可以通过transformers库和一些附加代码来使用该模型计算上下文句子向量。
在模型的Github仓库中查看示例用法:
此模型在信息检索数据集上进行评估,该数据集具有文档级别的查询。我们报告了在RELISH(生物医学/英文)和TRECCOVID(生物医学/英文)上的性能。这些详细说明在 github 中,以及在我们的 paper 中。这些数据集代表了一个抽象级别的检索任务,给定一个查询科学摘要,任务要求检索相关的候选摘要。在使用这个句子级模型进行摘要级别的检索时,我们根据查询句子和候选摘要句子之间的最小L2距离对文档进行排名。
发布的模型aspire-contextualsentence-singlem-biomed与allenai/specter(一个基线双编码器)和all-mpnet-base-v2(一个基于句子级BERT的强基线模型,训练样本数约为10亿)进行了比较。aspire-contextualsentence-singlem-biomed是我们论文中三次运行模型结果的平均值。发布的模型aspire-contextualsentence-singlem-biomed是3次运行中最佳的一次。
TRECCOVID | TRECCOVID | RELISH | RELISH | |
---|---|---|---|---|
MAP | NDCG%20 | MAP | NDCG%20 | |
all-mpnet-base-v2 | 17.35 | 43.87 | 52.92 | 69.69 |
specter | 28.24 | 59.28 | 60.62 | 77.20 |
aspire-contextualsentence-singlem-biomed * | 26.24 | 56.55 | 61.29 | 77.89 |
aspire-contextualsentence-singlem-biomed | 26.68 | 57.21 | 61.06 | 77.70 |
其他模型:
除了上述模型,还有以下在Aspire论文中发布的替代模型:
aspire-contextualsentence-singlem-compsci :如果你想在计算机科学论文上运行,并想要使用经过训练的模型来匹配两个文档之间的单个句子。
aspire-contextualsentence-multim-biomed :如果你想在生物医学论文上运行,并想要使用经过训练的模型来匹配两个文档之间的多个句子。
aspire-contextualsentence-multim-compsci :如果你想在计算机科学论文上运行,并想要使用经过训练的模型来匹配两个文档之间的多个句子。