这个模型是在GLUE COLA数据集上通过 microsoft/deberta-v3-small 微调得到的。它在评估集上取得了以下结果:
DeBERTa 通过解耦注意力和增强的掩码解码器改进了BERT和RoBERTa模型。通过这两个改进,DeBERTa在80GB训练数据的大多数NLU任务中表现优于RoBERTa。
请查看 official repository 获取更多详细信息和更新内容。
在 DeBERTa V3 中,我们用ELECTRA引入的RTD(Replaced Token Detection)目标替换了MLM目标,还引入了一些即将在我们即将发布的论文中介绍的创新方法。与DeBERTa-V2相比,我们的V3版本在下游任务中显著提高了模型性能。您可以从我们原始的 paper 中的附录A11中找到关于该模型的简单介绍,但我们将在单独的写作中提供更多细节。
DeBERTa V3 small模型有6层和768的隐藏大小。由于我们使用包含128K标记的词汇表,嵌入层引入了9800万个参数,因此它的总参数数量为143M。这个模型是使用160GB数据进行训练的,与DeBERTa V2相同。
需要更多信息
完整的文法可接受性语料库(CoLA)由23个语言学出版物中的10657个句子组成,这些句子经过原始作者的专家注释,用于接受性(语法正确性)的标注。这里提供的公共版本包含9594个句子,属于训练和开发集,排除了1063个句子,属于保留的测试集。
训练过程中使用了以下超参数:
Training Loss | Epoch | Step | Validation Loss | Matthews Correlation |
---|---|---|---|---|
No log | 1.0 | 535 | 0.4051 | 0.6333 |
0.3371 | 2.0 | 1070 | 0.4455 | 0.6531 |
0.3371 | 3.0 | 1605 | 0.5755 | 0.6499 |
0.1305 | 4.0 | 2140 | 0.7188 | 0.6553 |
0.1305 | 5.0 | 2675 | 0.8047 | 0.6700 |