模型:
allenai/aspire-contextualsentence-multim-compsci
本模型用于建模文档间的细粒度相似性,是一篇论文中的模型:
标题:《基于文本引导的多向量模型用于科学文献的细粒度相似性》
作者:Sheshera Mysore, Arman Cohan, Tom Hope
论文: https://arxiv.org/abs/2111.08366
Github: https://github.com/allenai/aspire
注意:在论文上下文中,该模型被称为tsAspire,并代表论文提出的用于科学文献的细粒度相似性的多向量模型。
该模型是基于BERT的多向量模型,用于计算计算机科学论文的细粒度相似性。该模型输入论文的标题和摘要,并使用对个别句子的令牌表示进行平均以获得上下文句子向量表示 - 在获取句子嵌入之前,标题和摘要都经过交叉注意力编码器块的交叉注意力编码。该模型通过最小化一对文档的句子向量之间的Wasserstein/地球移动距离进行训练 - 在此过程中还学习了两个文档中句子之间的稀疏对齐。测试时,根据文档或一组查询句子和候选文档句子之间的Wasserstein距离对文档进行排序。
该模型在共引论文的一对对齐句子上进行训练,训练设置为反差学习。模型在120万个计算机科学论文对上进行了训练。在训练模型时,对比损失的负例是从当前批次中随机选择的。共引是从论文的全文中获得的。例如 - 下面括号中的论文都是共引的,并且每对论文将被用作训练对:
远程监督的概念已经被广泛用于关系抽取(Mintz et al.,2009; Riedel et al.,2010; Hoffmann et al., 2011; Surdeanu et al., 2012)中,其中标签的来源是一个外部知识库。
模型使用Adam优化器和学习率为2e-5进行训练,包括1000个热身步骤,随后学习率进行线性衰减。通过保持协同引用的论文对组成的开发集上的损失来检查模型训练的收敛性。
该模型是针对计算机科学科学文本中多个向量的细粒度文档相似性任务进行训练的。该模型允许在文档间进行多个细粒度句子到句子的相似性计算。该模型非常适合于一个方面条件的任务设置,其中查询可能由查询文档中的多个句子构成,并且必须根据指定的句子从候选项中进行检索。在这里,文档是论文的标题和摘要。通过适当的微调,该模型还可用于其他任务,如文档或句子级分类。由于训练数据主要来自计算机科学,对其他领域的性能可能较差。
可以通过transformers库使用此模型,并使用一些额外的代码计算上下文句子向量,并使用最优传输进行多次匹配。
在模型的Github仓库中查看示例用法和样本文档匹配: examples/demo-contextualsentence-multim.ipynb
该模型在文档级查询的信息检索数据集上进行评估。这里是关于CSFCube(计算机科学/英文)的详细信息。在使用此模型时,我们根据查询句子和候选句子之间的Wasserstein距离对文档进行排序。
发布的aspire-contextualsentence-multim-compsci模型与allenai/specter进行了比较,后者是双编码器基线模型,以及all-mpnet-base-v2,后者是在大约10亿个训练示例上进行训练的强大的非上下文句子BERT基线模型。aspire-contextualsentence-multim-compsci是我们论文中平均3次运行模型的性能报告。发布的模型aspire-contextualsentence-multim-compsci是3次运行中表现最好的一次。
CSFCube aggregated | CSFCube aggregated | |
---|---|---|
MAP | NDCG%20 | |
all-mpnet-base-v2 | 34.64 | 54.94 |
specter | 34.23 | 53.28 |
aspire-contextualsentence-multim-compsci * | 40.79 | 61.41 |
aspire-contextualsentence-multim-compsci | 41.24 | 61.81 |
其他模型:
除了上述模型,还考虑了在Aspire论文中发布的以下备选模型:
aspire-contextualsentence-multim-biomed :如果您希望运行生物医学论文,并想要使用经过训练以匹配文档间多个句子的模型。
aspire-contextualsentence-singlem-biomed :如果您希望在生物医学论文上运行,并想要使用经过训练以匹配文档间单个句子的模型。
aspire-contextualsentence-singlem-compsci :如果您希望在计算机科学论文上运行,并想要使用经过训练以匹配文档间单个句子的模型。