模型:
mrm8488/distilbert-multi-finetuned-for-xqua-on-tydiqa
distilbert-base-multilingual-cased
TyDi QA包含11种不同类型语言的20万个人工注释的问题-答案对,这些问题-答案对在没有看到答案和不使用翻译的情况下编写,旨在训练和评估自动问答系统。该存储库提供了用于数据集的评估代码和基线系统。 https://ai.google.com/research/tydiqa
给定一个包含答案的段落,预测回答问题的连续字符间距。金牌段落任务在以下方面与 primary task 不同:
该模型在Tesla P100 GPU和25GB RAM上进行了微调。脚本如下:
python transformers/examples/question-answering/run_squad.py \ --model_type distilbert \ --model_name_or_path distilbert-base-multilingual-cased \ --do_train \ --do_eval \ --train_file /path/to/dataset/train.json \ --predict_file /path/to/dataset/dev.json \ --per_gpu_train_batch_size 24 \ --per_gpu_eval_batch_size 24 \ --learning_rate 3e-5 \ --num_train_epochs 5 \ --max_seq_length 384 \ --doc_stride 128 \ --output_dir /content/model_output \ --overwrite_output_dir \ --save_steps 1000 \ --threads 400
Metric | # Value |
---|---|
EM | 63.85 |
F1 | 75.70 |
Language | # Samples | # EM | # F1 |
---|---|---|---|
Arabic | 1314 | 66.66 | 80.02 |
Bengali | 180 | 53.09 | 63.50 |
English | 654 | 62.42 | 73.12 |
Finnish | 1031 | 64.57 | 75.15 |
Indonesian | 773 | 67.89 | 79.70 |
Korean | 414 | 51.29 | 61.73 |
Russian | 1079 | 55.42 | 70.08 |
Swahili | 596 | 74.51 | 81.15 |
Telegu | 874 | 66.21 | 79.85 |
您还可以尝试 bert-multi-cased-finedtuned-xquad-tydiqa-goldp ,其F1得分为82.16,EM得分为71.06(当然,每种语言的得分也更好)。
制作:♥在西班牙