模型:

mrm8488/bert-multi-cased-finedtuned-xquad-tydiqa-goldp

英文

来自Tydi QA数据集的GoldP任务的微调模型

该模型使用 bert-multi-cased-finetuned-xquadv1 数据集,并在 Tydi QA 数据集上进行了针对Gold Passage任务的微调 (GoldP)

语言模型的详细信息

基本语言模型 (bert-multi-cased-finetuned-xquadv1) 是针对Q&A下游任务的 bert-base-multilingual-cased 的微调版本

Tydi QA数据集的详细信息

TyDi QA包含了11种语言的20万个人工注释的问题-答案对,这些对没有看到答案并且没有使用翻译,旨在训练和评估自动问答系统。该存储库提供了用于该数据集的评估代码和基准系统。 https://ai.google.com/research/tydiqa

下游任务的详细信息(Gold Passage或GoldP,也称为次要任务)

给定一个保证包含答案的段落,预测回答问题的连续字符范围。金牌段落任务与其他任务在几个方面不同:

  • 只提供黄金答案段落,而不是整个维基百科文章;
  • 与MLQA和XQuAD类似,已经丢弃了无法回答的问题;
  • 我们使用与SQuAD 1.1类似的度量进行评估,如XQuAD;和
  • 泰语和日语被移除,因为缺乏空格会破坏一些工具。

模型训练

该模型在Tesla P100 GPU和25GB RAM上进行了微调。脚本如下:

python run_squad.py \
  --model_type bert \
  --model_name_or_path mrm8488/bert-multi-cased-finetuned-xquadv1 \
  --do_train \
  --do_eval \
  --train_file /content/dataset/train.json \
  --predict_file /content/dataset/dev.json \
  --per_gpu_train_batch_size 24 \
  --per_gpu_eval_batch_size 24 \
  --learning_rate 3e-5 \
  --num_train_epochs 2.5 \
  --max_seq_length 384 \
  --doc_stride 128 \
  --output_dir /content/model_output \
  --overwrite_output_dir \
  --save_steps 5000 \
  --threads 40

整体结果(开发集):

Metric # Value
Exact 71.06
F1 82.16

具体结果(每种语言):

Language # Samples # Exact # F1
Arabic 1314 73.29 84.72
Bengali 180 64.60 77.84
English 654 72.12 82.24
Finnish 1031 70.14 80.36
Indonesian 773 77.25 86.36
Korean 414 68.92 70.95
Russian 1079 62.65 78.55
Swahili 596 80.11 86.18
Telegu 874 71.00 84.24

Manuel Romero/@mrm8488 创建

用 ♥ 制作,位于西班牙