模型:

mrm8488/bert-italian-finedtuned-squadv1-it-alfa

英文

意大利BERT在SQuAD_it v1上进行微调

Italian BERT base cased italian SQuAD 上进行微调,用于问答下游任务。

意大利BERT的细节

意大利BERT模型的源数据包括最新的维基百科转储和OPUS语料库集合中的各种文本。最终的训练语料库大小为13GB,共有2,050,057,573个标记。

对于句子拆分,我们使用NLTK(与spacy相比更快速)。我们的大小写和非大小写模型的初始序列长度为512个子词,训练步骤约为2-3M。

对于XXL的意大利模型,我们使用与OPUS相同的训练数据,并将其与OSCAR语料库的意大利部分数据合并。因此,最终的训练语料库大小为81GB,共有13,138,379,147个标记。详细信息请参见官方 model card

Stefan MDZ 创建

下游任务(问答)的详细信息 - 数据集 ? ? ❓

Italian SQuAD v1.1 是从SQuAD数据集派生出来的,通过半自动翻译SQuAD数据集成意大利语获得。它代表了一个用于意大利语中基于事实类型问题的开放式问答过程的大规模数据集。该数据集包含超过60,000个问题/答案对,这些问题/答案对是从原始英文数据集派生而来的。该数据集被分为训练集和测试集,以支持QA系统的基准测试的可重复性:

  • SQuAD_it-train.json:包含从原始SQuAD 1.1训练材料派生的训练示例。
  • SQuAD_it-test.json:包含从原始SQuAD 1.1开发材料派生的测试/基准示例。

有关SQuAD-it的更多详细信息,请参见[Croce et al. 2018]。原始论文可以在此 link 找到。

模型训练?️‍

该模型在Tesla P100 GPU和25GB RAM上进行训练。微调的脚本可以在此 here 找到。

结果?

Metric # Value
EM 62.51
F1 74.16

原始指标

{
  "exact": 62.5180707057432,
  "f1": 74.16038329042492,
  "total": 7609,
  "HasAns_exact": 62.5180707057432,
  "HasAns_f1": 74.16038329042492,
  "HasAns_total": 7609,
  "best_exact": 62.5180707057432,
  "best_exact_thresh": 0.0,
  "best_f1": 74.16038329042492,
  "best_f1_thresh": 0.0
}

比较⚖️

Model EM F1 score
12310321 56.1 65.9
This one 62.51 74.16

模型运行中?

使用pipelines进行快速使用?

from transformers import pipeline

nlp_qa = pipeline(
    'question-answering',
    model='mrm8488/bert-italian-finedtuned-squadv1-it-alfa',
    tokenizer='mrm8488/bert-italian-finedtuned-squadv1-it-alfa'
)

nlp_qa(
    {
        'question': 'Per quale lingua stai lavorando?',
        'context': 'Manuel Romero è colaborando attivamente con HF / trasformatori per il trader del poder de las últimas ' +
       'técnicas di procesamiento de lenguaje natural al idioma español'
    }
)

# Output: {'answer': 'español', 'end': 174, 'score': 0.9925341537498156, 'start': 168}

Manuel Romero/@mrm8488 创建| LinkedIn

西班牙制造,用♥

数据集引用

@InProceedings {10.1007/978-3-030-03840-3_29,作者="Croce, Danilo and Zelenanska, Alexandra and Basili, Roberto",编辑="Ghidini, Chiara and Magnini, Bernardo and Passerini, Andrea and Traverso, Paolo",标题="Neural Learning for Question Answering in Italian",书名="AI*IA 2018 -- Advances in Artificial Intelligence",年="2018",出版商="Springer International Publishing",地址="Cham",页="389-402",isbn="978-3-030-03840-3"}