英文

交叉英语和德语RoBERTa语句嵌入模型

此模型旨在为英语和德语文本生成语句嵌入。然后,可以使用这些嵌入向量进行比较,找到语义意义相似的句子。例如,这可能对搜索,分类或聚类等任务非常有用。要实现这一点,您需要使用该模型。

此模型的特殊之处在于它还可以在不同语言之间工作。无论语言如何,句子按照它们的语义被翻译成非常相似的向量。这意味着您可以输入德语的搜索,同时按照德语和英语的语义找到结果。使用xlm模型和跨语言多语言微调,我们的性能甚至超过了当前最好的英语专用大型模型(请参见下面的评估部分)。

Sentence-BERT(SBERT)是对预训练BERT网络的修改,它使用孪生和三元组网络结构来推导出语义上有意义的句子嵌入,可以使用余弦相似性进行比较。这将BERT / RoBERTa的寻找最相似的句子对的时间从65个小时减少到SBERT的5秒,同时保持了BERT的准确性。

来源: Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

该模型是从 Philip May 重新微调和开源的,感谢 T-Systems-onsite 做出的出色开源工作,感谢Sentence Transformers和模型以及您在GitHub上的帮助。

如何使用

要使用此模型,请安装sentence-transformers软件包(请参见此处: https://github.com/UKPLab/sentence-transformers )。

from sentence_transformers import SentenceTransformer
model = SentenceTransformer('T-Systems-onsite/cross-en-de-roberta-sentence-transformer')

有关用法和示例的详细信息,请参见以下内容:

训练

基本模型是 xlm-roberta-base ,这个模型经过了 Nils Reimers 在50多种语言的大规模释义数据集上的进一步训练。关于这个 on GitHub Nils Reimers 有以下说法:

有关释义模型的论文即将发布。

这些模型是使用各种数据集进行训练的,包括来源于维基百科编辑日志的数百万个释义示例,来自新闻报道的释义,具有批内负损失的全部NLI-属于对等对等等。

在内部测试中,它们的性能要优于NLI+STSb模型,因为它们拥有更多和更广泛类型的训练数据。NLI+STSb的问题在于它们在领域上相当狭窄,不包含任何特定领域的单词/句子(如化学、计算机科学、数学等)。而释义模型则从各个领域看到了大量的句子。

有关设置、所有数据集和更广泛评估的更多详细信息即将发布。

最终模型名为xlm-r-distilroberta-base-paraphrase-v1,已在此处发布: https://github.com/UKPLab/sentence-transformers/releases/tag/v0.3.8

在此跨语言模型的基础上,我们在 STSbenchmark 数据集上对其进行了英语和德语的微调。对于德语,我们使用了我们的 German STSbenchmark dataset 数据集,并使用了 deepl.com 进行了翻译。除了德语和英语的训练样本外,我们还生成了英语和德语之间的交叉样本。我们称之为跨语言的多语言微调。它将训练数据量增加了一倍,并且测试结果显示它进一步提高了性能。

我们使用 Optuna 进行了33次试验的自动超参数搜索。通过在deepl.com测试和开发数据集上进行10倍的交叉验证,我们找到了以下最佳超参数:

  • batch_size = 8
  • num_epochs = 2
  • lr = 1.026343323298136e-05
  • eps = 4.462251033010287e-06
  • weight_decay = 0.04794438776350409
  • warmup_steps_proportion = 0.1609010732760181

最终模型使用这些超参数在英语、德语和它们的交叉训练集的组合上进行训练,测试集留作测试。

评估

评估是在英语、德语和两种语言与STSbenchmark测试数据之间进行的。评估代码在 Colab 上可用。作为评估的指标,我们使用了句子嵌入的余弦相似性和STSbenchmark标签之间的斯皮尔曼等级相关系数。

Model Name Spearman German Spearman English Spearman EN-DE & DE-EN (cross)
xlm-r-distilroberta-base-paraphrase-v1 0.8079 0.8350 0.7983
12328321 0.7877 0.8465 0.7908
xlm-r-bert-base-nli-stsb-mean-tokens 0.7877 0.8465 0.7908
12329321 0.6371 0.8639 0.4109
12330321 0.8529 0.8634 0.8415
12331321 0.8355 0.8682 0.8309
T-Systems-onsite/ cross-en-de-roberta-sentence-transformer 0.8550 0.8660 0.8525

许可证

版权所有(c)2020年Philip May,T-Systems onsite services GmbH

根据MIT许可证(“许可证”)获得许可;除非遵守许可证,否则您不得使用此作品。您可以通过查看存储库中的 LICENSE 文件来获取许可证的副本。