dangvantuan/sentence-camembert-base | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

模型:

dangvantuan/sentence-camembert-base

任务:

句子相似度

类库:

PyTorch Transformers

数据集:

stsb_multi_mt 3Astsb_multi_mt

语言:

其他:

camembert 特征提取 Text Sentence Similarity Sentence-Embedding camembert-base Eval Results Sentence+Similarity

预印本库:

arxiv:1908.10084

许可:

apache-2.0

模型介绍文件清单

英文

预训练的句子嵌入模型是法语句子嵌入的最前沿技术。

该模型是使用预训练的 facebook/camembert-base 和 Siamese BERT-Networks with 'sentences-transformers' 在数据集 stsb 上进行微调。

使用

可以直接使用该模型（无需语言模型）如下：

from sentence_transformers import SentenceTransformer
model =  SentenceTransformer("dangvantuan/sentence-camembert-base")

sentences = ["Un avion est en train de décoller.",
          "Un homme joue d'une grande flûte.",
          "Un homme étale du fromage râpé sur une pizza.",
          "Une personne jette un chat au plafond.",
          "Une personne est en train de plier un morceau de papier.",
          ]

embeddings = model.encode(sentences)

评估

可以使用以下方法对该模型在法语stsb测试数据上进行评估。

from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from sentence_transformers.evaluation import EmbeddingSimilarityEvaluator
from datasets import load_dataset
def convert_dataset(dataset):
    dataset_samples=[]
    for df in dataset:
        score = float(df['similarity_score'])/5.0  # Normalize score to range 0 ... 1
        inp_example = InputExample(texts=[df['sentence1'], 
                                    df['sentence2']], label=score)
        dataset_samples.append(inp_example)
    return dataset_samples

# Loading the dataset for evaluation
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")

# Convert the dataset for evaluation

# For Dev set:
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")

# For Test set:
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path="./")

测试结果：使用Pearson和Spearman相关性进行性能测量：

在dev上

Model	Pearson correlation	Spearman correlation	#params
1236321	86.73	86.54	110M
1237321	79.22	79.16	135M

在测试上

Model	Pearson correlation	Spearman correlation
1236321	82.36	81.64
1237321	78.62	77.48

引用

@article{reimers2019sentence,
   title={Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks},
   author={Nils Reimers, Iryna Gurevych},
   journal={https://arxiv.org/abs/1908.10084},
   year={2019}
}


@article{martin2020camembert,
   title={CamemBERT: a Tasty French Language Mode},
   author={Martin, Louis and Muller, Benjamin and Su{\'a}rez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, {\'E}ric Villemonte and Seddah, Djam{\'e} and Sagot, Beno{\^\i}t},
   journal={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
   year={2020}
}

作者:

DANG Van Tuan

数据集大小:

424.2 MB