英文

DeBERTa-v3-small在CoLA上的微调

这个模型是在GLUE COLA数据集上通过 microsoft/deberta-v3-small 微调得到的。它在评估集上取得了以下结果:

  • 损失:0.4051
  • 马修斯相关系数:0.6333

模型描述

DeBERTa 通过解耦注意力和增强的掩码解码器改进了BERT和RoBERTa模型。通过这两个改进,DeBERTa在80GB训练数据的大多数NLU任务中表现优于RoBERTa。

请查看 official repository 获取更多详细信息和更新内容。

DeBERTa V3 中,我们用ELECTRA引入的RTD(Replaced Token Detection)目标替换了MLM目标,还引入了一些即将在我们即将发布的论文中介绍的创新方法。与DeBERTa-V2相比,我们的V3版本在下游任务中显著提高了模型性能。您可以从我们原始的 paper 中的附录A11中找到关于该模型的简单介绍,但我们将在单独的写作中提供更多细节。

DeBERTa V3 small模型有6层和768的隐藏大小。由于我们使用包含128K标记的词汇表,嵌入层引入了9800万个参数,因此它的总参数数量为143M。这个模型是使用160GB数据进行训练的,与DeBERTa V2相同。

预期用途和限制

需要更多信息

训练和评估数据

完整的文法可接受性语料库(CoLA)由23个语言学出版物中的10657个句子组成,这些句子经过原始作者的专家注释,用于接受性(语法正确性)的标注。这里提供的公共版本包含9594个句子,属于训练和开发集,排除了1063个句子,属于保留的测试集。

训练过程

训练超参数

训练过程中使用了以下超参数:

  • 学习率:3e-05
  • 训练批次大小:16
  • 评估批次大小:8
  • 种子:42
  • 优化器:Adam,betas=(0.9,0.999),epsilon=1e-08
  • 学习率调度器类型:线性
  • 训练周期数:5.0

训练结果

Training Loss Epoch Step Validation Loss Matthews Correlation
No log 1.0 535 0.4051 0.6333
0.3371 2.0 1070 0.4455 0.6531
0.3371 3.0 1605 0.5755 0.6499
0.1305 4.0 2140 0.7188 0.6553
0.1305 5.0 2675 0.8047 0.6700

框架版本

  • Transformers 4.13.0.dev0
  • Pytorch 1.10.0+cu111
  • Datasets 1.16.1
  • Tokenizers 0.10.3