模型:
allenai/aspire-biencoder-biomed-spec
包含在一篇建模文档中的模型,用于建模文档之间的细粒度相似性:
标题: "具有文本指导的多向量模型用于细粒度科学文档相似性"
作者:Sheshera Mysore,Arman Cohan,Tom Hope
论文编号: https://arxiv.org/abs/2111.08366
Github: https://github.com/allenai/aspire
注意:在论文的背景下,该模型被称为Specter-CoCite_Spec,表示科学文档相似性的基线双编码器。该模型的体系结构与 allenai/specter 模型类似,但其训练数据是基于共引用数据而不是引用数据。
该模型是一个用于生物医学科学论文标题-摘要对相似性的BERT双编码器模型。该模型使用SPECTER编码器进行初始化。该模型输入一篇论文的标题和摘要,并通过对基础编码器每一层的CLS令牌进行标量混合来表示它。这些标量混合参数在某些数据集中可能对性能很重要。重要的是,这些标量混合权重不包含在本HF模型中,如果您想使用这些参数,请在 aspire-biencoder-biomed-spec-full.zip 处下载完整模型。
该模型在对比学习设置中使用共引用的论文对进行训练。该模型训练了120万个生物医学论文对。在训练模型时,对比损失的负例是从批内随机选择的。共引用数据是从论文的全文中获取的,例如下面的括号中的论文都是共引用的,每对论文的标题和摘要将被用作训练对:
远程监督的思想在关系抽取中已被提出并广泛使用(Mintz等,2009年;Riedel等,2010年;Hoffmann等,2011年;Surdeanu等,2012年)。其中标签的来源是外部知识库。
模型使用Adam优化器和学习率为1e-5进行训练,包括1000个热身步骤,然后学习率线性衰减。通过在包含共引用论文对的保留数据集上的损失来检查模型训练的收敛性。
该模型经过训练,用于生物医学科学文本中的文档相似性任务,每个文档使用单个向量表示。在适当的微调下,该模型也可用于其他任务,如分类。由于训练数据主要来自生物医学领域,对其他领域的性能可能较差。
遵循模型的github存储库上详细说明的使用说明: https://github.com/allenai/aspire#specter-cocite
该模型在信息检索数据集上进行了评估,其中包含文档级别的查询。这里我们报告了RELISH(生物医学/英语)和TRECCOVID(生物医学/英语)的性能。这些详细信息可以在 github 和我们的 paper 中找到。这些数据集代表了一个摘要级别的检索任务,即给定一个查询科学摘要,任务要求检索相关的候选摘要。
我们通过查询和候选文档之间的L2距离对文档进行排名。
发布的模型aspire-biencoder-biomed-spec(和aspire-biencoder-biomed-spec-full)与allenai/specter进行了比较。aspire-biencoder-biomed-spec-full是我们在论文中报告的性能,通过对3次重复运行的模型进行平均。发布的模型aspire-biencoder-biomed-spec和aspire-biencoder-biomed-spec-full是3次重新运行中的最佳单个运行。
TRECCOVID | TRECCOVID | RELISH | RELISH | |
---|---|---|---|---|
MAP | NDCG%20 | MAP | NDCG%20 | |
specter | 28.24 | 59.28 | 60.62 | 77.20 |
aspire-biencoder-biomed-spec-full * | 28.59 | 60.07 | 61.43 | 77.96 |
aspire-biencoder-biomed-spec | 26.07 | 54.89 | 61.47 | 78.34 |
aspire-biencoder-biomed-spec-full | 28.87 | 60.47 | 61.69 | 78.22 |
需要注意的是,相对于aspire-biencoder-biomed-spec-full,aspire-biencoder-biomed-spec中缺少线性混合参数会严重影响TRECCOVID的性能-该数据集包含比RELISH更大的候选集(约9000个与60个)。请考虑以下更有效的替代模型以供使用。
替代模型:
除了以上模型,还考虑在Aspire论文中发布的这些替代模型:
aspire-biencoder-compsci-spec :如果您想在计算机科学论文上运行。
aspire-biencoder-biomed-scib :这是一个替代的双编码器模型,与上述模型相同,只是它使用SciBERT进行初始化。上述模型在性能上表现不佳,建议使用allenai/aspire-biencoder-biomed-scib(更好的是aspire-biencoder-biomed-scib-full)。