字段名未翻译

从FinBERT训练的芬兰语BERT模型。可以在4亿个句子的数据集中找到相似度最高的句子的演示 here 。

训练

图书馆： sentence-transformers
FinBERT模型：TurkuNLP/bert-base-finnish-cased-v1
数据：提供的数据 here ，包括芬兰语释义语料库和自动收集的释义候选（500K个正例和5M个负例）
汇集：均值汇集
任务：二进制预测，两个句子是否是释义。注意：标签3和4被认为是释义，标签1和2是非释义。 Details on labels

使用

与HuggingFace文档中的 the English Sentence Transformer 相同。可以通过SentenceTransformer或HuggingFace Transformers进行。

SentenceTransformer

from sentence_transformers import SentenceTransformer
sentences = ["Tämä on esimerkkilause.", "Tämä on toinen lause."]

model = SentenceTransformer('TurkuNLP/sbert-cased-finnish-paraphrase')
embeddings = model.encode(sentences)
print(embeddings)

HuggingFace Transformers

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ["Tämä on esimerkkilause.", "Tämä on toinen lause."]

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('TurkuNLP/sbert-cased-finnish-paraphrase')
model = AutoModel.from_pretrained('TurkuNLP/sbert-cased-finnish-paraphrase')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

评估结果

目前正在起草详细的评估结果的出版物。

完整的模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)

引用和作者

在出版物起草中，请引用 this page 。

参考文献

J. Kanerva, F. Ginter, LH. Chang, I. Rastas, V. Skantsi, J. Kilpeläinen, HM. Kupari, J. Saarni, M. Sevón, and O. Tarkka. Finnish Paraphrase Corpus. 在NoDaLiDa 2021，2021中。
N. Reimers和I. Gurevych。 Sentence-BERT：使用Siamese BERT网络的句子嵌入。在EMNLP-IJCNLP中，页3982-3992，2019。
A. Virtanen，J. Kanerva，R. Ilo，J. Luoma，J. Luotolahti，T. Salakoski，F. Ginter和S. Pyysalo。多语言不足够：用于芬兰语的BERT。 arXiv预印本arXiv:1912.07076，2019。

作者:

TurkuNLP Research Group

数据集大小:

475.47 MB