DeBERTa 使用解缠注意力和增强的遮罩解码器改进了BERT和RoBERTa模型。通过这两个改进,DeBERTa在大多数NLU任务中表现优于RoBERTa,并使用80GB的训练数据。
在 DeBERTa V3 中,我们进一步改进了DeBERTa的效率,使用了ELECTRA风格的预训练和梯度解缠共享。与DeBERTa相比,我们的V3版本在下游任务的模型性能显著提高。您可以在我们的 paper 中找到有关新模型的更多技术细节。
请查看 official repository 以获取更多的实现细节和更新。
DeBERTa V3 xsmall模型具有12层和384的隐藏大小。它只有22M的骨干参数,嵌入层中有128K个令牌的词汇表,引入48M个参数。这个模型是使用160GB的数据训练的,就像DeBERTa V2一样。
在NLU任务上进行微调
我们展示了在SQuAD 2.0和MNLI任务中的开发结果。
Model | Vocabulary(K) | Backbone #Params(M) | SQuAD 2.0(F1/EM) | MNLI-m/mm(ACC) |
---|---|---|---|---|
RoBERTa-base | 50 | 86 | 83.7/80.5 | 87.6/- |
XLNet-base | 32 | 92 | -/80.2 | 86.8/- |
ELECTRA-base | 30 | 86 | -/80.5 | 88.8/ |
DeBERTa-base | 50 | 100 | 86.2/83.1 | 88.8/88.5 |
DeBERTa-v3-large | 128 | 304 | 91.5/89.0 | 91.8/91.9 |
DeBERTa-v3-base | 128 | 86 | 88.4/85.4 | 90.6/90.7 |
DeBERTa-v3-small | 128 | 44 | 82.8/80.4 | 88.3/87.7 |
DeBERTa-v3-xsmall | 128 | 22 | 84.8/82.0 | 88.1/88.3 |
DeBERTa-v3-xsmall+SiFT | 128 | 22 | -/- | 88.4/88.5 |
#!/bin/bash cd transformers/examples/pytorch/text-classification/ pip install datasets export TASK_NAME=mnli output_dir="ds_results" num_gpus=8 batch_size=8 python -m torch.distributed.launch --nproc_per_node=${num_gpus} \ run_glue.py \ --model_name_or_path microsoft/deberta-v3-xsmall \ --task_name $TASK_NAME \ --do_train \ --do_eval \ --evaluation_strategy steps \ --max_seq_length 256 \ --warmup_steps 1000 \ --per_device_train_batch_size ${batch_size} \ --learning_rate 4.5e-5 \ --num_train_epochs 3 \ --output_dir $output_dir \ --overwrite_output_dir \ --logging_steps 1000 \ --logging_dir $output_dir
如果您发现DeBERTa对您的工作很有用,请引用以下论文:
@misc{he2021debertav3, title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing}, author={Pengcheng He and Jianfeng Gao and Weizhu Chen}, year={2021}, eprint={2111.09543}, archivePrefix={arXiv}, primaryClass={cs.CL} }
@inproceedings{ he2021deberta, title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION}, author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen}, booktitle={International Conference on Learning Representations}, year={2021}, url={https://openreview.net/forum?id=XPZIaotutsD} }