dccuchile/bert-base-spanish-wwm-cased (BERT Checkpoint)
MLSUM 是第一个大规模的多语言摘要数据集。从在线报纸获取,包含五种不同语言(即法语、德语、西班牙语、俄语和土耳其语)的150多万篇文章/摘要对。连同来自流行的CNN/Daily mail数据集的英语报纸,收集到的数据形成了一个大规模的多语言数据集,可以为文本摘要领域的新研究方向提供支持。我们基于最先进的系统进行了跨语言比较分析。这些分析突显了现有偏见,从而促使使用多语言数据集。
Set | Metric | Value |
---|---|---|
Test | Rouge2 - mid -precision | 9.6 |
Test | Rouge2 - mid - recall | 8.4 |
Test | Rouge2 - mid - fmeasure | 8.7 |
Test | Rouge1 | 26.24 |
Test | Rouge2 | 8.9 |
Test | RougeL | 21.01 |
Test | RougeLsum | 21.02 |
import torch from transformers import BertTokenizerFast, EncoderDecoderModel device = 'cuda' if torch.cuda.is_available() else 'cpu' ckpt = 'mrm8488/bert2bert_shared-spanish-finetuned-summarization' tokenizer = BertTokenizerFast.from_pretrained(ckpt) model = EncoderDecoderModel.from_pretrained(ckpt).to(device) def generate_summary(text): inputs = tokenizer([text], padding="max_length", truncation=True, max_length=512, return_tensors="pt") input_ids = inputs.input_ids.to(device) attention_mask = inputs.attention_mask.to(device) output = model.generate(input_ids, attention_mask=attention_mask) return tokenizer.decode(output[0], skip_special_tokens=True) text = "Your text here..." generate_summary(text)
由 Manuel Romero/@mrm8488 创建,获得 Narrativa 的支持
在西班牙制作 ❤