模型:

mrm8488/bert-base-spanish-wwm-cased-finetuned-spa-squad2-es

英文

BETO(西班牙语BERT)+ 西班牙语SQuAD2.0

此模型由 BETO team 提供,并在 SQuAD-es-v2.0 上进行了Q&A下游任务的微调。

语言模型('dccuchile/bert-base-spanish-wwm-cased')的详细信息

语言模型( 'dccuchile/bert-base-spanish-wwm-cased' ):

BETO是一个经过 BERT model 训练的模型,训练语料库包含了 big Spanish corpus 。BETO模型的大小与BERT-Base相似,并使用了全词蒙版技术进行训练。下面提供了Tensorflow和Pytorch的大小写版本检查点,以及与 Multilingual BERT 和其他(非基于BERT的)模型在西班牙语基准测试上的一些结果比较。

下游任务(Q&A) - 数据集的详细信息

SQuAD-es-v2.0

Dataset # Q&A
SQuAD2.0 Train 130 K
SQuAD2.0-es-v2.0 111 K
SQuAD2.0 Dev 12 K
SQuAD-es-v2.0-small Dev 69 K

模型训练

模型在Tesla P100 GPU和25GB RAM上进行训练,使用以下命令:

export SQUAD_DIR=path/to/nl_squad
python transformers/examples/question-answering/run_squad.py \
  --model_type bert \
  --model_name_or_path dccuchile/bert-base-spanish-wwm-cased \
  --do_train \
  --do_eval \
  --do_lower_case \
  --train_file $SQUAD_DIR/train_nl-v2.0.json \
  --predict_file $SQUAD_DIR/dev_nl-v2.0.json \
  --per_gpu_train_batch_size 12 \
  --learning_rate 3e-5 \
  --num_train_epochs 2.0 \
  --max_seq_length 384 \
  --doc_stride 128 \
  --output_dir /content/model_output \
  --save_steps 5000 \
  --threads 4 \
  --version_2_with_negative 

结果:

Metric # Value
Exact 76.50 50
F1 86.07 81
{
  "exact": 76.50501430594491,
  "f1": 86.07818773108252,
  "total": 69202,
  "HasAns_exact": 67.93020719738277,
  "HasAns_f1": 82.37912207996466,
  "HasAns_total": 45850,
  "NoAns_exact": 93.34104145255225,
  "NoAns_f1": 93.34104145255225,
  "NoAns_total": 23352,
  "best_exact": 76.51223953064941,
  "best_exact_thresh": 0.0,
  "best_f1": 86.08541295578848,
  "best_f1_thresh": 0.0
}

模型演示(在Colab笔记本中)

  • 设置上下文并提出一些问题:
  • 运行预测:
  • 创建者: Manuel Romero/@mrm8488

    西班牙制造,撒上♥