模型:
mrm8488/bert-italian-finedtuned-squadv1-it-alfa
Italian BERT base cased 在 italian SQuAD 上进行微调,用于问答下游任务。
意大利BERT模型的源数据包括最新的维基百科转储和OPUS语料库集合中的各种文本。最终的训练语料库大小为13GB,共有2,050,057,573个标记。
对于句子拆分,我们使用NLTK(与spacy相比更快速)。我们的大小写和非大小写模型的初始序列长度为512个子词,训练步骤约为2-3M。
对于XXL的意大利模型,我们使用与OPUS相同的训练数据,并将其与OSCAR语料库的意大利部分数据合并。因此,最终的训练语料库大小为81GB,共有13,138,379,147个标记。详细信息请参见官方 model card 。
Italian SQuAD v1.1 是从SQuAD数据集派生出来的,通过半自动翻译SQuAD数据集成意大利语获得。它代表了一个用于意大利语中基于事实类型问题的开放式问答过程的大规模数据集。该数据集包含超过60,000个问题/答案对,这些问题/答案对是从原始英文数据集派生而来的。该数据集被分为训练集和测试集,以支持QA系统的基准测试的可重复性:
有关SQuAD-it的更多详细信息,请参见[Croce et al. 2018]。原始论文可以在此 link 找到。
该模型在Tesla P100 GPU和25GB RAM上进行训练。微调的脚本可以在此 here 找到。
Metric | # Value |
---|---|
EM | 62.51 |
F1 | 74.16 |
{ "exact": 62.5180707057432, "f1": 74.16038329042492, "total": 7609, "HasAns_exact": 62.5180707057432, "HasAns_f1": 74.16038329042492, "HasAns_total": 7609, "best_exact": 62.5180707057432, "best_exact_thresh": 0.0, "best_f1": 74.16038329042492, "best_f1_thresh": 0.0 }
Model | EM | F1 score |
---|---|---|
12310321 | 56.1 | 65.9 |
This one | 62.51 | 74.16 |
使用pipelines进行快速使用?
from transformers import pipeline nlp_qa = pipeline( 'question-answering', model='mrm8488/bert-italian-finedtuned-squadv1-it-alfa', tokenizer='mrm8488/bert-italian-finedtuned-squadv1-it-alfa' ) nlp_qa( { 'question': 'Per quale lingua stai lavorando?', 'context': 'Manuel Romero è colaborando attivamente con HF / trasformatori per il trader del poder de las últimas ' + 'técnicas di procesamiento de lenguaje natural al idioma español' } ) # Output: {'answer': 'español', 'end': 174, 'score': 0.9925341537498156, 'start': 168}
由 Manuel Romero/@mrm8488 创建| LinkedIn
西班牙制造,用♥
数据集引用
@InProceedings {10.1007/978-3-030-03840-3_29,作者="Croce, Danilo and Zelenanska, Alexandra and Basili, Roberto",编辑="Ghidini, Chiara and Magnini, Bernardo and Passerini, Andrea and Traverso, Paolo",标题="Neural Learning for Question Answering in Italian",书名="AI*IA 2018 -- Advances in Artificial Intelligence",年="2018",出版商="Springer International Publishing",地址="Cham",页="389-402",isbn="978-3-030-03840-3"}