模型:

mrm8488/distilbert-multi-finetuned-for-xqua-on-tydiqa

英文

使用TydiQA(GoldP任务)数据集进行多语言问答微调的DistilBERT??❓

语言模型的详细信息

distilbert-base-multilingual-cased

Tydi QA数据集的详细信息

TyDi QA包含11种不同类型语言的20万个人工注释的问题-答案对,这些问题-答案对在没有看到答案和不使用翻译的情况下编写,旨在训练和评估自动问答系统。该存储库提供了用于数据集的评估代码和基线系统。 https://ai.google.com/research/tydiqa

下游任务的详细信息(Gold Passage或GoldP,即次要任务)

给定一个包含答案的段落,预测回答问题的连续字符间距。金牌段落任务在以下方面与 primary task 不同:

  • 仅提供金牌答案段落,而不是整个维基百科文章;
  • 已经丢弃了无法回答的问题,类似于MLQA和XQuAD;
  • 我们使用SQuAD 1.1度量进行评估,类似于XQuAD;以及
  • 由于缺乏空格会破坏一些工具,泰语和日语被移除。

模型训练??️‍

该模型在Tesla P100 GPU和25GB RAM上进行了微调。脚本如下:

python transformers/examples/question-answering/run_squad.py \
  --model_type distilbert \
  --model_name_or_path distilbert-base-multilingual-cased \
  --do_train \
  --do_eval \
  --train_file /path/to/dataset/train.json \
  --predict_file /path/to/dataset/dev.json \
  --per_gpu_train_batch_size 24 \
  --per_gpu_eval_batch_size 24 \
  --learning_rate 3e-5 \
  --num_train_epochs 5 \
  --max_seq_length 384 \
  --doc_stride 128 \
  --output_dir /content/model_output \
  --overwrite_output_dir \
  --save_steps 1000 \
  --threads 400

全局结果(开发集)?

Metric # Value
EM 63.85
F1 75.70

具体结果(按语言)??

Language # Samples # EM # F1
Arabic 1314 66.66 80.02
Bengali 180 53.09 63.50
English 654 62.42 73.12
Finnish 1031 64.57 75.15
Indonesian 773 67.89 79.70
Korean 414 51.29 61.73
Russian 1079 55.42 70.08
Swahili 596 74.51 81.15
Telegu 874 66.21 79.85

类似模型

您还可以尝试 bert-multi-cased-finedtuned-xquad-tydiqa-goldp ,其F1得分为82.16,EM得分为71.06(当然,每种语言的得分也更好)。

创建者: Manuel Romero/@mrm8488

制作:♥在西班牙