模型:

mrm8488/bert2bert_shared-turkish-summarization

英文

Turkish BERT2BERT(共享)在 MLSUM TR 上进行细调的自动摘要模型

模型

dbmdz/bert-base-turkish-cased (BERT检查点)

数据集

MLSUM 是第一个大规模的多语言自动摘要数据集。从在线报纸获取,它包含五种不同语言(法语、德语、西班牙语、俄语、土耳其语)的超过150万篇文章/摘要对。与来自CNN/Daily mail数据集的英语报纸一起,这些收集到的数据形成了一个大规模的多语言数据集,为文本摘要领域的新研究方向提供了可能。我们基于最先进的系统报告了跨语言的比较分析结果。这些结果凸显了现有偏差,促使使用多语言数据集。

MLSUM tu/tr

结果

Set Metric Value
Test Rouge2 - mid -precision 32.41
Test Rouge2 - mid - recall 28.65
Test Rouge2 - mid - fmeasure 29.48

使用

import torch
from transformers import BertTokenizerFast, EncoderDecoderModel
device = 'cuda' if torch.cuda.is_available() else 'cpu'
ckpt = 'mrm8488/bert2bert_shared-turkish-summarization'
tokenizer = BertTokenizerFast.from_pretrained(ckpt)
model = EncoderDecoderModel.from_pretrained(ckpt).to(device)

def generate_summary(text):

   inputs = tokenizer([text], padding="max_length", truncation=True, max_length=512, return_tensors="pt")
   input_ids = inputs.input_ids.to(device)
   attention_mask = inputs.attention_mask.to(device)
   output = model.generate(input_ids, attention_mask=attention_mask)
   return tokenizer.decode(output[0], skip_special_tokens=True)
   
text = "Your text here..."
generate_summary(text)

Manuel Romero/@mrm8488 创建,得到 Narrativa 的支持

在西班牙 ♥ 制作