模型:

flax-sentence-embeddings/all_datasets_v3_roberta-large

英文

模型描述

该项目旨在使用自监督对比学习目标在非常大的句子级数据集上训练句子嵌入模型。我们使用预训练的 roberta-large 模型,并在一个10亿个句对的数据集上进行微调。我们使用对比学习目标:给定一对句子中的一个句子,模型应该预测哪个随机抽样的另一个句子实际上是与之配对的。

我们在由Hugging Face组织的 Community week using JAX/Flax for NLP & CV 期间开发了这个模型。我们开发了这个模型作为项目 Train the Best Sentence Embedding Model Ever with 1B Training Pairs 的一部分。我们受益于高效的硬件基础设施,用于运行项目:7个 TPUs v3-8,以及来自Google的Flax、JAX和Cloud团队成员的关于高效深度学习框架的干预。

预期用途

我们的模型可用作句子编码器。给定一个输入句子,它输出一个捕捉句子语义信息的向量。该句向量可用于信息检索、聚类或句子相似性任务。

如何使用

以下是使用此模型获取给定文本特征的方法,使用 SentenceTransformers 库:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('flax-sentence-embeddings/all_datasets_v3_roberta-large')
text = "Replace me by any text you'd like."
text_embbedding = model.encode(text)
# array([-0.01559514,  0.04046123,  0.1317083 ,  0.00085931,  0.04585106,
#        -0.05607086,  0.0138078 ,  0.03569756,  0.01420381,  0.04266302 ...],
#        dtype=float32)

训练过程

预训练

我们使用预训练的 roberta-large 模型。有关预训练过程的详细信息,请参阅模型卡。

微调

我们使用对比目标对模型进行微调。形式上,我们从批次中的每对句子计算余弦相似度。然后,将其与真实的句子对进行交叉熵损失比较。

超参数

我们在 TPU v3-8 上训练了模型。我们使用批大小为1024(每个TPU核心128个)在540,000个步骤中训练模型。我们使用了500次学习率预热。序列长度限制为128个标记。我们使用了学习率为2e-5的AdamW优化器。完整的训练脚本可在当前的存储库中访问。

训练数据

我们使用多个数据集的连接来微调我们的模型。句对的总数超过10亿个句子。我们根据数据配置文件(data_config.json)中详细说明的加权概率对每个数据集进行采样。

Dataset Paper Number of training tuples
1236321 1237321 3,012,496
1238321 - 364,001
1239321 12310321 317,695
[COCO 2020](COCO 2020) 12311321 828,395
12312321 - 1,151,414
12313321 - 73,346
12314321 12315321 87,599
12316321 12317321 100,231
12318321 12319321 102,225
12320321 - 103,663
12321321 12322321 112,696
12323321 12324321 128,542
12325321 12326321 180,000
AllNLI ( 12327321 and 12328321 12329321 , 12330321 277,230
12331321 12332321 325,475
12333321 12334321 684,100
12335321 Title/Abstract 12336321 41,769,185
12335321 Citation/Citation 12336321 52,603,982
12335321 Citation/Abstract 12336321 116,288,806
12341321 12342321 64,371,441
12343321 12344321 77,427,422
SearchQA - 582,261
12345321 Title/Answer 12346321 1,198,260
12345321 Title/Question 12346321 659,896
12345321 Question/Answer 12346321 681,164
12351321 12352321 9,144,553
12353321 12354321 726,484,430
total 1,097,953,922