模型:
microsoft/mdeberta-v3-base
DeBERTa 通过解耦的注意力和增强的掩码解码器改进了BERT和RoBERTa模型。借助这两个改进,DeBERTa在大多数NLU任务中以80GB的训练数据表现优于RoBERTa。
在 DeBERTa V3 中,我们进一步通过使用ELECTRA风格的预训练和梯度分解嵌入共享提高了DeBERTa的效率。与DeBERTa相比,我们的V3版本在下游任务中显著提高了模型性能。您可以从我们的 paper 中找到有关新模型的更多技术细节。
有关更多实现细节和更新,请查看 official repository 。
mDeBERTa是DeBERTa的多语言版本,采用与DeBERTa相同的结构,并使用CC100多语言数据进行训练。mDeBERTa V3基础模型具有12层和隐藏大小为768。它有86M的主干参数,词汇表包含250K个标记,在Embedding层引入了190M个参数。该模型使用2.5T的CC100数据进行训练,类似于XLM-R。
Fine-tuning 在 NLU 任务上我们在XNLI上使用零-shot跨语言传递设置进行dev结果展示,即仅使用英语数据进行训练,测试其他语言。
Model | avg | en | fr | es | de | el | bg | ru | tr | ar | vi | th | zh | hi | sw | ur |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
XLM-R-base | 76.2 | 85.8 | 79.7 | 80.7 | 78.7 | 77.5 | 79.6 | 78.1 | 74.2 | 73.8 | 76.5 | 74.6 | 76.7 | 72.4 | 66.5 | 68.3 |
mDeBERTa-base | 79.8 +/-0.2 | 88.2 | 82.6 | 84.4 | 82.7 | 82.3 | 82.4 | 80.8 | 79.5 | 78.5 | 78.1 | 76.4 | 79.5 | 75.9 | 73.9 | 72.4 |
#!/bin/bash cd transformers/examples/pytorch/text-classification/ pip install datasets output_dir="ds_results" num_gpus=8 batch_size=4 python -m torch.distributed.launch --nproc_per_node=${num_gpus} \ run_xnli.py \ --model_name_or_path microsoft/mdeberta-v3-base \ --task_name $TASK_NAME \ --do_train \ --do_eval \ --train_language en \ --language en \ --evaluation_strategy steps \ --max_seq_length 256 \ --warmup_steps 3000 \ --per_device_train_batch_size ${batch_size} \ --learning_rate 2e-5 \ --num_train_epochs 6 \ --output_dir $output_dir \ --overwrite_output_dir \ --logging_steps 1000 \ --logging_dir $output_dir进行Fine-tuning
如果您发现DeBERTa对您的工作有用,请引用以下论文:
@misc{he2021debertav3, title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing}, author={Pengcheng He and Jianfeng Gao and Weizhu Chen}, year={2021}, eprint={2111.09543}, archivePrefix={arXiv}, primaryClass={cs.CL} }
@inproceedings{ he2021deberta, title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION}, author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen}, booktitle={International Conference on Learning Representations}, year={2021}, url={https://openreview.net/forum?id=XPZIaotutsD} }